技术 - 呼叫中心 - 语音识别与分析技术频道

语音识别应用促进技术发展

2006-07-31 00:00:00   作者:   来源:   评论:0 点击:




  在发达国家各种各样基于语音识别技术的产品已经可以买到,如具有声控拨号电话,语音记事本等等。语音电话服务、数据查询服务也已经部分实现。基于特定任务和环境的听写机也已经进入应用阶段。语音识别技术是非常重要的人机交互技术,有着非常广泛的应用前景。

  说话者自适应技术近年在语音识别系统的研究中也备受重视,这是由于与人有关的语音识别系统比与人无关的语音识别系统的识别率要高很多。通过有效的自适应手段可以很快地提高系统的识别能力。实际上说话人自适应技术和稳健语音自适应技术是相通的。由于不同的说话人在声道长度,说话口音方式都很不一样。说话者自适应技术也主要是从以下两方面着手。

  静态处理方法。从特征提取或训练阶段就尽可能减少来自说话人的变化因素对模型的贡献。可以进行声道参数的归一化处理或对说话人进行分类处理,如分男女声的识别系统就是其中的一个典型,但实际上仅仅从男女声上对模型分类还是太粗,可以通过有效的聚类方法进行分类。这类方法统称为声学归一化处理方法。

  动态处理方法。对预先训练好的与人无关识别系统,通过临时得到的特定人语音数据对系统的模板或特征参数进行自适应修正,从而在原有系统基础上建立一个用于特定任务、特定环境或特定说话人的系统,这类方法统称为自适应方法。自适应方法可分为: 批模式、累进模式、即时模式; 按自适应学习策略又分为无监督学习和有监督学习。从用户使用的方便程度来看是由难到易,而算法实现则是由易到难。采用何种策略取决于应用背景,对识别率的要求等因素。对于听写机等应用来说,最具吸引力的是累进、无监督的自适应方式,也称在线自适应。

  语言模型也是目前研究的一个重要方面。目前的语言模型是与任务有关的,典型的统计语言模型是通过大量任务特定的语料训练出来的。通过新闻语料训练出来的模型不能很好地工作于法律方面的文件语音识别。有几种方法用于解决这些问题。一种是使用自适应语言模型。在静态语言模型的基础上,通过一个高速缓冲存储器对语言模型进行动态的修正; 另一种是先训练多领域语言模型,然后通过混合高斯模型将这些模型结合在一起; 还有一种比较好的办法是使用大颗粒的语言模型,如基于类的语言模型,而不是基于词的语言模型,类可以是词性类,词义类,以及由一定的数据驱动的聚类算法产生的各种类。

  由于不同词可以属于同一类,这样类比较大,构成的语言模型就比较稳健。其关键的问题是如何决定词的分类,由于词的分类比较复杂,同一词可能属于不同的类,特别是解决如何通过计算机实现自动分类的算法,即使用数据驱动算法也还没有很好地解决。基于统计技术的计算语言学已经越来越受到重视,它解决了单独规则语言模型不能解决的一些问题。当然统计语言模型也不能解决全部问题,因此如何把统计语言模型和基于规则的语言模型结合也是语言模型研究的重点之一。

  目前不同快速语音识别算法都在开发中。其中包括对HMM状态输出的概率分布进行矢量量化,缩小搜索空间算法,减少计算机的内存需求方法,以及结合计算机结构特点的编程技术的应用。

  链接:稳健语音识别技术

  语音识别系统的稳健性技术是到目前还没有解决好的重要问题。稳健语音识别要解决的问题是训练环境和实用环境不同而导致的不匹配问题。由于环境变化多种多样,识别系统要面对不同说话风格的人(包括说话快慢、音调、重音变化、情绪变化、年龄不同、声道长度的不同等等)、不同麦克风的种类(包括麦克风的相对位置和方向变化)、信道畸变和噪声,以及说话的环境(包括房屋回响、背景噪声等)。

  稳健语音识别技术包括三个方面:1. 稳健语音特征提取和预处理技术。其中包括噪声掩盖处理技术、特征变换、听觉模型,以及不同稳健和可信度测度的研究。研究的中心是最大可能的开采语音中的整体信息,以便尽可能地减少噪声的干扰。2. 多样式的训练是一种有效方法,但这种训练要求取得大量不同噪声情况下的语音数据,这使该种方法实现非常困难。3.自适应的特征或模型的补偿技术。其中包括简单的自适应均值偏差消除,进一步包括方差补偿,线性和非线性的回归和变换,基于状态的滤波,语音和噪声复合模型,最大后验自适应算法,随机匹配算法。这些不同技术有的仅仅在不同的小范围内获得有限成功,还没有一种技术在大词汇量的语音识别系统中获得成功。

计算机世界网(www.ccw.com.cn)

相关阅读:

分享到: 收藏