技术 - 呼叫中心 - 语音识别与分析技术频道

语音识别:抗噪音能力有待加强

2006-08-11 00:00:00   作者:   来源:   评论:0 点击:




  从2003年起,中国科学院计算技术研究所连续三年承办863计划中文信息处理与智能人机接口技术评测,语音识别评测始终是其中的一个主要分项。三年间,863语音识别评测受到了国内外语音识别研究者的关注,参加单位数逐年递增,成为国内语音识别领域最高级别的交流平台,在国际上也具备了相当的影响力。

  2003年和2004年度语音识别评测采用现场评测方式,即各参评系统的运行在评测现场同时进行。这种组织形式比较严格,一旦参评系统运行出现故障将无法继续。而且,要求所有参评单位必须到场,其成本也较高。为了避免这些问题,2005年的863评测采用目前国际通用的网上评测的方法,即在网上发布数据,各参评单位在自己的运行环境上运行参评系统后将识别结果通过网络提交给评测单位。

  863语音识别评测最大的特色在于测试数据的选取。文本语料的选取采用从大规模原始语料库中筛选的方法,充分考虑到了对各种韵律学特征(音节、二音子、三音子、音连关系等)、语法特征(句型和句法结构等)和各种领域、各种文体(散文、小说、实事新闻等)的覆盖。录音时不是采用实验室加噪声,而是在完全真实的场景中录制数据,并且充分考虑到了说话人、信噪比等因素的覆盖,在实验的基础上提出了真实环境中信噪比的分布模型,并在此模型的指导下录制数据。这种以实验和理论为依据、以算法为支撑,控制各种语音属性,从而最大限度地拟合真实应用的数据采集方法,在国际上也是很有特色的。目前国际上的同类评测,录音场景多为实验室,对各种影响因素一般只做宽泛的覆盖,几乎没有按理论模型控制的方法。

  863语音识别评测的另一个特点是对结果做了充分的统计分析。目前的国际评测一般除给出相应的指标外,还会做一些统计分析,而之前的国内评测却很少这么做。从2004年开始,863语音识别评测也开始对结果进行统计分析,而在2005年的评测中,更是采用专业统计学方法,采用实验设计、假设检验、回归分析、方差分析、协方差分析等一系方法对结果及影响结果的因素进行了深入分析,对各评测单位认清自己系统的优势和缺点,进一步改进起到了很大作用。

  另外,在电话连续语音关键词识别评测中,在2004年尝试了以语义槽为单位的基于语法关键词识别任务和评测指标,在2005年首次使用了两个说话人一起录制的自然对话语音,更加符合真实应用的特点,这在国际同类评测中都是没有的。

  从评测结果看语音识别技术现状

  863语音识别评测,包括PC、电话、嵌入式设备三个语音通道,涉及听写机、对话查询、命令词识别等多种任务,基本上涵盖了当前语音识别的主要研究和应用方向。而参评的又大都是国内长期进行该项研究、有较高水平的单位和系统,因此,无论是采用的方法还是识别的效果,本次评测都可以真实反映出国内语音识别技术的现状。这里结合2004年的评测,对评测结果进行分析。之所以选择2004年的评测结果,是因为它的评测分项最全,几乎覆盖了语音识别的各种应用。

  1. 识别结果的评价

  评测的主要目标就是通过对识别结果的评价、分析了解参评系统的性能的和语音技术的现状。因此,制订有效的、能够真实反映出系统性能的评价指标也是很重要的研究任务。

  对于大词汇量连续语音识别来说,国际上通用的指标是文字错误率(对于英语,文字指单词; 对于汉语,文字指字,下同)。其基本思想为采用动态规划算法将标准答案与识别结果对齐,以得到“正确文字数”、“替换文字数”、“插入文字数”、“删除文字数”四项参数,然后计算文字错误率。

  错误文字数 = 替换 + 插入 + 删除文字数

  文字错误率 = 错误文字数 / 原文答案文字数

  下面给出一个例子:

  LAB: 新 增 四 百 万 千 瓦 时 的 强 大 电 流 输 入 云 南 的 电 网

  REC: 新 增 四 百 花 钱 忙 时 的 枪 打 电 流 于 树 绿 云 南 电 网

  C C C C N N N C C N N C C I N N C C D C C

  其中,LAB是标准答案,REC是识别结果,上面的格式是根据编辑距离最小对齐的结果,第三行标记了各类文字,C表示正确文字,N表示替换文字,I表示插入文字,D表示删除文字。

  2004年863语音识别评测中的电话连续语音识别评测分项采用的主要指标是语义槽识别正确率,即用语料文本解析得到的标准答案和识别结果相比较,完全匹配的槽认为是识别正确的,定义槽识别正确率为:

  槽识别正确率 = 正确识别的槽的个数 / 标准答案中槽的总数

  对于嵌入式设备命令词识别,由于是孤立词识别,因此采用命令词识别正确率即可:

  命令词识别正确率 = 正确识别的命令词数 / 命令词总数

  2. 识别系统性能

  对各系统给出的识别结果计算上述指标,得到对各系统识别性能的评价。表1给出了每个分项中识别效果最好的系统的指标,以及前三名系统的平均指标。为了统一,将电话连续语音识别中的槽识别正确率和嵌入式设备命令词识别中的命令词识别正确率统称为正确率。对桌面(这里指PC,以下同)连续语音识别,采用文字正确率,定义为(目前研究者对文字正确率定义稍有不同,本文中一律以下面的定义为准):

  文字正确率 = 1 - 文字错误率

  表中的最高正确率基本可以代表该分项的最高水平,前三名的正确率均值可以一定程度上反映该分项的平均水平,而前三名正确率的方差可以反映该分项中各系统的性能差异程度。

  从表中可以看到,桌面连续语音识别分项中,汉语的识别效果远远好于英语(文字正确率最多相差20个百分点)。其原因显然在于国内对汉语语音识别的研究比英语多而且深入。另外,英语训练语料的相对缺乏,也是一个重要原因。

  在采用了语法限制的语义槽识别任务和槽识别正确率作为评测指标后,电话连续语音的槽识别正确率较低。事实上,由于电话语音的录制环境为办公室环境,其噪音比桌面语音要小得多,所以正确率较低的原因主要在于对语法的处理和槽识别正确率较低。

  嵌入式设备命令词识别的正确率与桌面语音字正确率大致相当。一方面,连续语音识别要比孤立词识别困难,另一方面,嵌入式设备的语音通道和计算资源都比PC差得多,从结果可以看出,这两方面的因素基本抵消。

  从各分项前三名的正确率方差可以看出,汉语桌面连续语音识别和嵌入式设备命令词分项中各系统的性能差异较小,而英语桌面连续语音识别,特别是一倍实时任务中各系统性能差异较大。这是因为当前语音识别的研究重点在于前者,研究者较多,研究也比较深入,而英语的识别相对来说研究者较少。

  3. 影响系统识别性能的因素

  从上面的识别结果评价可以看出,对真实噪音环境下录制的语音数据,当前的语音识别系统识别正确率偏低,还很难达到实用。

  从语音识别产生以来,噪音一直是影响识别效果的主要因素。为了分析噪音对识别的影响,将评测数据按信噪比(SNR)分段,从参评系统选取三个,分别计算其在各段内的识别正确率,可以看出,识别正确率基本上随着SNR的增大而提高,SNR在20dB以上的数据正确率比SNR在5~10dB的数据高近30个百分点。对桌面连续语音识别的其他分项和嵌入式命令词识别的结果分析也得到类似的结果。

  对于电话连续语音识别来说,由于录制环境是办公室真实环境,因此噪音并不是影响性能的主要因素。电话连续语音识别分为5个子领域,每个子领域各有一套语法。评测句子由语法生成的有效成分在前后加上任意长的填充词(filler)构成,如语法生成的句子为“从天安门到中关村怎么坐公交车”,而实际录制的句子是“你好,请问从天安门到中关村怎么坐公交车,可以查到吗?”,其中的“你好,请问”和“可以查到吗”就是filler。由分析可以发现,不同领域内的槽识别正确率相差很大。这主要有两个原因,一是不同领域的语法复杂度不同,二是不同领域内有filler的句子所占比例不同。为了进一步衡量filler对识别的影响,选取三个识别系统,将有filler的句子和没有filler的句子分别计算识别率,统计结果如图2所示。从图中可以看出,filler对识别的影响是相当大的,无filler的句子比有filler的句子识别正确率可以高几十个百分点。


  从上面的介绍可以看到,国内语音识别研究发展迅速,识别性能日益提高,

  但在对真实环境下录制的数据,特别是信噪比较低的情况下,识别性能还无法达到实用要求。对于桌面连续语音和嵌入式设备上的孤立词识别,对噪音的鲁棒性不高是系统面临的主要问题。对于电话查询系统来说,对语义的解析和无关语句的处理还存在一定困难。另外,对非朗读的自然语音,如对话、会议内容的识别,对电视广播节目内容的识别或检索近年来吸引了越来越多研究者的注意,国外的一些评测机构也组织了这方面的评测,863语音识别评测也在考虑增加相应的项目。总之,863语音识别评测将继续针对这些任务,针对噪音、方言、自然语音等关键问题构建评测语料库,开展评测,提供结果分析,组织讨论交流,以促进语音识别技术的发展。

计算机世界网(www.ccw.com.cn)

相关阅读:

分享到: 收藏