技术 - 呼叫中心 - 语音识别与分析技术频道
  首页 > 技术 > 呼叫中心 > 技术 > 语音识别与分析 > 技术文摘 > 语音识别——车机革命从这里兴起

语音识别——车机革命从这里兴起

2013-10-09 16:57:33   作者:   来源:车音网    评论:0  点击:14523


  “语音识别”作为一场解放双手的革命,几十年来一直备受推崇,但这场革命总是处在不温不火的状态,从电脑到手机,再到如今的车机,“语言识别”一直是叫好不叫座。这样“温水煮青蛙”的状态什么时候才能改变?“语音识别”将是下一个互联网的入口?它会掀起车机领域的变革吗?带着这些疑问,笔者采访了专注人机交互语音识别的企业——车音网首席执行官王力劭。

闂傚倸鍊搁崐鎼佸磹閹间礁纾归柟闂寸绾惧綊鏌熼梻瀵割槮缁惧墽鎳撻—鍐偓锝庝簼閹癸綁鏌i鐐搭棞闁靛棙甯掗~婵嬫晲閸涱剙顥氬┑掳鍊楁慨鐑藉磻濞戔懞鍥偨缁嬪灝鐎俊銈忕到閸燁偆绮诲☉妯忓綊鏁愰崨顔跨缂備礁顑勯懗鍓佹閹捐纾兼慨姗嗗厴閸嬫捇鎮滈懞銉モ偓鍧楁煥閺囨氨鍔嶉柟鍐茬焸濮婄粯鎷呴崨濠傛殘闂佽崵鍠嗛崕鎶藉箲閵忕媭娼ㄩ柍褜鍓欓锝嗙節濮橆厼浜滅紒鐐妞存悂寮查鍕拺闁圭ǹ娴风粻鎾寸箾鐠囇呭埌閺佸牊淇婇妶鍛櫤闁稿鍓濈换婵囩節閸屾稑娅e銈忕到閵堟悂骞冩禒瀣垫晬婵炴垶蓱鐠囩偤姊虹拠鈥虫灍闁荤噦濡囬幑銏犫攽鐎n亞鍊為梺闈浤涢崘銊ヮ洭濠电姷鏁告慨鐑藉极閹间礁纾规い鏍仜閻掑灚銇勯幒鎴濐仼缁炬儳顭烽弻鐔煎礈瑜忕敮娑㈡煟閹惧娲撮柟顔筋殜閺佹劖鎯旈垾鑼晼濠电姭鎷冮崘顏冪驳闂侀€涚┒閸斿秶鎹㈠┑瀣窛妞ゆ洖鎳嶉崫妤呮⒒娴e憡璐¢柟铏尵閳ь剚姘ㄦ晶妤佺┍婵犲洤绠瑰ù锝堝€介妸鈺傜叆闁哄啠鍋撻柛搴$-缁辩偤骞掑Δ浣叉嫽闂佺ǹ鏈悷銊╁礂瀹€鍕厵闁惧浚鍋呭畷宀€鈧娲滈弫璇差嚕娴犲鏁囬柣鎰問閸炵敻姊绘担鑺ョ《闁革綇绠撻獮蹇涙晸閿燂拷...
语音识别——车机革命从这里兴起

  数据采集 提高用户感受度

  “没有任何一种引擎可以说把方言语音识别处理好,这是由人们采集的语音量来决定的。”

  车音网一直致力于人机交互的语音识别系统的研发和推广,而车音网提出的自然语言识别概念一直为外界所津津乐道。何为自然语言识别?通俗的来说就是可以识别人们的日常语言习惯,你讲普通话也好,讲方言也好,系统都能识别出你要表达的意思,这就是在最自然的状态下达到了人机交互的目的。

  方言的语音识别到底准还是不准呢?如何提升用户体验度?王力劭解释说,语音识别还是机器学习技术的一种,因为计算机没有联想能力,它只能按你告诉它的规则去做。所以识别不是完全靠程序来实现的,还要靠采集到的大量同一句话的不同波形,建立庞大的语音信息资源库来实现。在普通话语系里有各种各样的样本,当采集的某一个样本跟之前的声音很像,可能落在之前采集的样本里,系统就能识别这句话。当采集到十万、百万、千万个人说话的样本后,覆盖面就非常广了。作为这方面的先行者,王总又补充道,采集的样本必须分布合理,根据地域、年龄段、性别将其区分。所以采集的样本越多,机器识别的就越准确。

  在方言识别方面,车音网把方言按语系来划分,如广东话、上海话、闽南话等。但是同一语系不同地区的人方言也会有很大的区别,为此王总打了一个比方,就像同样讲英语,北美地区的、非洲地区的和亚洲地区的讲起来的感觉也是不尽相同,所以在采集数据时就要求覆盖面广,一个语系内不同地区的方言都要采集到。而车音网在英语识别方面也采集了很多地区英语口音的样本,这些样本主要来自于东南亚地区。所以王总不无感慨的说:“没有一种引擎可以说自己的方言语音识别处理的好,更多的还要依赖于研究团队采集的语音量。”

  十年磨一剑 成就技术壁垒

  “这三轮数据的采集就是现在车音网的核心,一个公司低下头一直这样踏踏实实地干不是件容易的事。”

  上千万的语音样本采集听起来就是一项持久而艰辛的工作,在这个过程中车音网花费了多少时间、多少精力,这些都是他人不知道的。王力劭说,国外最早出现的语音识别是IBM ViaVoice ,就是一个人对着机器不停地说话,训练机器的次数越多,机器的识别率越高。但是这种方式只针对特定的人,换一个人就不行了。特定的人不需要采集语样,只需要不停地训练就可以了,机器运算相对来说也简单多了。可以说,IBM ViaVoice所带来的不用双手的输入方式,是一场解放双手的革命。车音网做语音识别是从99年开始的,是中国最早一批研究非特定人语音识别技术的企业,那时他们在做模拟推演时发现,即使能够采集来数据,机器也没有那么大的计算能力,服务器性能低下,根本无法进行系统开发,所以决定投入大量的精力进行语音采集。

  语音的采集也不是一件容易的事,当时车音网想到的就是最原始的方法——雇人,全国各地找代表收集语音样本。他们制定了一套采集标准,有明确的区间划分,然后整理了一份大约50句话的脚本。这50句话也是经过了一番研究确定的,正常人在读这50句话时,可以把声音的链接方式、发声规律、特征点概括出来。这个苦力活一直干到2004年,从今天的眼光来看,当年做这件事是一个非常明智的决定。这项工作依靠融资和风投耗费了几千万的资金,但是获得的语音量是非常广的,并且都是按照车音网自己的规范来的。而这一点,如今的多数创业公司已经很难做到了,资金消耗动辄上亿,风投也会更加谨慎评估了。所以说采集的数据也成为车音网语音识别的一个壁垒。

  2001年,车音网开始跟多家电信运营商合作,负责语音点歌、语音查询等,并且上线了一系列电子系统,和一些城市的114也展开了合作,这样他们就可以收集到大量的8K信道的数据,8K数据是最基本电话通道的数据。现在人们很容易收集到16K的声音,如微信等软件,但16k的声音和电话里的不同,所以现在一些公司缺乏8K数据采集的机会, 8K的数据是稀缺的。

  • 0

  • 0

  • 0

  • 0

  • 0

  • 0

  • 0

  • 0

分享到:           收藏

专题