
可在录音档中搜寻关键字、直接跳到关键字出现的段落
「语音」很可能是继打字之后,未来人类和电脑沟通的主要方式,其不仅解放我们的双手,互动速度也更快。Google在去年发布这款能将语音转成文字的云端语音API,并将该功能整合进多款自家服务中,如语音助理、语音搜寻、翻译、听写输入等功能。
而这次更新的其中一个新功能,对常听录音档的人相当必备。过去只有文字档才能搜寻特定字词,现在,在Google云端语音API新增「以字为单位的时间标记」的功能后,语音档也能做到相同的事,即可在语音档中搜寻特定字词出现的位置、直接跳到该段落,且录音档播放的同时也能立即显示已识别的文字。
支援档案长度增加到3小时,可用于客服中心和自动产生影片字幕
此外,Google云端语音API可支援的语音档案长度,也从原本的80分钟增加到3小时。Google产品经理DanAharon表示,支援更长时间的语音档案,也能拓展该技术能应用的场景,例如客服中心可用此分析客服电话内容,或是用于自动生成影片字幕。
语音转文字支援「表情符号」
在支援语言方面,这次Google更一口气新增30个语言,迄今共支援119种语言。Google表示,他们和母语人士合作,请他们念常用的句子,训练机器学习模型识别新语言的单字和音调。
特别的是,Google云端语音API不只能识别说话的「内容」,还能识别出「表情符号」。例如,只要念出「眨眼表情符号」或「微笑表情符号」,就会出现和。不过,该功能目前仅支援英语,其他语言将在未来陆续开放。