技术 - 呼叫中心 - 语音识别与分析技术频道

与电脑面谈

2007-07-06 00:00:00   作者:   来源:   评论:0 点击:





  目前主要的对话管理的控制策略大概有三种,包括基于有限状态机(finite-state based)、基于框架(frame based)以及基于代理(agent based)的控制策略。

  在总结了前人工作经验和结合本系统的实际问题的基础上,我们在对话管理的具体实现上,将框架理论和有限状态自动机理论相结合,完成了一个智能的对话管理模块。我们先将对话管理限制在天气查询领域。在系统中,通过人机之间的对话和确认,系统需要得到要查询的时间和地点信息之后反馈查询结果。

  我们为需要得到的信息先设计了一个槽结构如下: Slot_name表示槽名,在本系统中就是City和Date。Slot_value 指示该项信息是否已经得到,所以有2个状态: Known 和Unkown。

  图3中,初始状态为Unknown,当收到用户提供的信息时,槽状态转化为Known,即为终止状态。当再收到用户的信息时,槽状态不变,只是具体的槽值发生了变化。




  根据系统的实际需求,同时考虑到系统的灵活性和鲁棒性,我们设计了如下的状态转移过程: S0为系统的初始状态,S3为系统的终止状态。状态转换过程中的转换条件,是信息融合的结果,不仅仅是语音信号的信息,也包含了图像的信息。

  多模态融合

  所谓多模态融合就是将电脑“看到”和“听到”的信息都考虑进来,帮助理解说话人真正的意图。在语音识别中加入语法后大大提高了语音识别的准确率,而人脸跟踪模块能够得到现有人脸的绝对位置和特征点的相对位置,知道人脸绝对位置的变化可以帮助判断点头、摇头的动作,而利用特征点的相对位置信息可以知道说话人的情感状态信息,在我们的系统中主要用到了点头、摇头信息和“厌恶”,“高兴”2种情感状态来判断对电脑提出问题的确认和人是否对电脑的回答表示满意。在今后的工作中,我们可以考虑结合语音分析的结果,利用双模态的信息,提高情感识别的准确性和鲁棒性。

通信世界网(www.cww.net.cn)

相关阅读:

分享到: 收藏