CTI论坛(ctiforum.com) (编译/老秦): 在经历了 2020 年的不安之后,2021 年应该代表着一场重置。但随着大流行顽固地与我们同在,这一年最终表明,COVID-19 给整个经济和社会带来的许多变化很可能会成为永久性的。显然,语音技术可以发挥重要作用。由于支持这些应用程序的语音开发平台和引擎的稳步发展,配备对话式 AI 的智能虚拟助手将继续变得更好,并承担更多的客户服务负担。更高的联络中心数量和更多的语音技术用例,包括在医疗保健和金融领域,确保了对分析的稳定需求,以帮助解码客户情绪。这些和其他语音技术的进步确保了未来,虽然不可预测,但也将保持令人兴奋。如需详细了解语音行业的贡献,请阅读以下主题。
- 语音引擎的现状
- 语音开发平台现状
- 语音分析的状态
- 智能虚拟助手的现状
- 语音生物识别的现状
- 辅助技术现状
- 人工智能的现状
语音引擎的现状
去年是语音引擎技术旋风般的一年。该行业见证了大量创新和市场增长。然而,障碍仍然存在,包括持续的 COVID-19 大流行和可能导致用户沮丧的技术限制。
去年是语音引擎技术旋风般的一年。该行业见证了大量创新和市场增长。然而,障碍仍然存在,包括持续的 COVID-19 大流行和可能导致用户沮丧的技术限制。

"迄今为止,语音技术引擎的主要主题是创新,"Khoros 首席技术官 Sejal Amin 说。 "在过去的十年里,语音技术领域已经出现了许多新的社交媒体平台,人工智能和自然语言处理等先进技术能力增加了它的多功能性和规模。"
ETS AI Research Labs 的研究工程师 Rutuja Ubale 表示,谷歌、亚马逊、IBM 和微软继续在该领域占据主导地位,并继续改进其用于语音转文本、自动语音识别 (ASR)、文本转- 用于聊天机器人、翻译等的语音 (TTS)、对话管理和自然语言理解 (NLU)。
"这些 APIs 越来越多地被多家公司,尤其是处于早期开发阶段的初创公司用于设计基于语音的应用程序,以在他们没有资源构建内部技术的情况下满足不同的用户需求,"Ubale 指出。
Verint 语音和文本分析副总裁 Daniel Ziv 表示,由于 Alexa 和 Siri 等语音界面的出现,消费者已经习惯将语音作为一种自然界面,因此语音引擎的发展正在加速。
"世界上一些最大的公司以及初创企业社区都在对语音引擎技术和数据收集进行投资,以帮助调整和优化这些引擎。这是一个炙手可热的市场,创新迅速增长,围绕语音、数据、情感和意图打造了新的用例,"Ziv 说。
移动应用程序中的语音助手似乎是目前最热门的趋势--一种几乎渗透到每个人日常生活中的力量。
"远场 ASR 扩展了智能电视和智能显示器的语音助手功能,"Ubale 说。 "我也对将语音能力扩展到教育和医疗保健领域感到特别兴奋。"
2021 年语音的其他发展包括货币化、语音购物和新的语音设备。
"我们已经看到语音助手跨行业扩展,越来越多的公司意识到语音人工智能技术的好处,并为他们的客户寻求全渠道体验。品牌也开始考虑语音助手的重要方面,例如道德、性别、口音和文化偏见,"SoundHound 首席运营官 Michael Zagorsek 解释道。
Yobe 的联合创始人兼首席科学家 Hamid Nawab 对语音引擎在语言理解方面取得的进步印象特别深刻,在无噪音环境中的准确率超过 90%。
"它们非常有效和强大,这在很大程度上要归功于自然语言处理方面的工作,"Nawab 说。
年度回顾
去年出现了一些突出的发展:
- 微软收购了 Nuance Communications。
- Meta (Facebook) 引入了 Generative Spoken Language Model (GSLM),它可以在没有标签或文本的情况下从音频中学习语音表示,让语音技术对语言更具包容性,提高使用稀有语言的能力,并捕捉语音中的细微差别。
- Meta AI 还发布了一个大型开源数据集 Multilingual LibriSpeech,其中包含 50,000 小时的八种语言语音数据,可用于训练独立或组合的 ASR 模型。
- Apple 为简单的导航任务推出了适用于 Siri 的设备上语音识别。
- 谷歌启动项目LaMDA(对话应用语言模型)。
- 新数据被添加到任何人都可以用来训练语音应用程序的通用语音数据集中。
- 发布了 wav2vec2 的多语言版本,称为 XLSR(跨语言语音表示),可使用 128 种语言进行训练。
- Vosk API 发布了适用于 20 种语言的轻量级 ASR 模型,这些模型与其 API 兼容,可用于实时语音识别。
毫不奇怪,该行业已准备好快速增长。 IDC 预测,全球对话式人工智能软件市场将从 2020 年的 22 亿美元增长到 2025 年的 79 亿美元,年复合增长率为 28.8%。
"该市场的增长继续受到会话 AI、语音到文本、文本到语音、机器翻译和独立自然语言处理 (NLP) 软件的增长的推动,这些软件用于创建会话 AI 解决方案并为其他类型的企业软件提供对话功能,"Ziv 说。
还要考虑一下,TTS 市场预计将从 2020 年的 19.4 亿美元增加到 2028 年的 56.1 亿美元。
在对话式AI 领域,许多人对端到端口语理解 (SLU) 系统的开发感到兴奋。
"虽然以前的努力旨在消除对 ASR 的需求,并直接从原始语音转向意图和插槽识别,但新的努力旨在整合对话历史以提高对人机对话的理解,"Ubale 说。 "虽然有几家公司已经在致力于在设备上部署 ASR,但亚马逊最近关于融合 ASR 和设备上 SLU 的自然语言理解的研究也令人兴奋。"
Amin 认为,随着公司推进对话式客户服务,多语言模式的采用增加是最重要的进步。
"转向多语言语音助手可以提高可访问性和品牌影响力,从而可以接触到新的和以前可能无法进入的市场的受众。客户更倾向于忠于了解其人口统计数据的品牌," Amin 说。
去年另一个值得注意的发展是将核心序列建模扩展到其他领域。
"研究人员表明,当前语言模型背后的技术可用于解决广泛的强化学习问题,"Nextiva 首席技术官 Phil Steitz 解释说。 "我们还看到了跨多个 AI/机器学习领域的可访问性和易于实施的重大进步。开源框架、模型和组件显着降低了团队实施当代 AI 解决方案的门槛。"
有效过滤背景噪音和了解嘈杂环境中的用户仍然是该领域的主要困难。
"噪音会扰乱麦克风拾取的语音模式。消除噪音的能力可以为在各种环境中与语音助手进行交互打开大门,例如汽车、街道或背景噪音较多的区域,"Zagorsek 说。
Nawab 将此称为"鸡尾酒会问题"。
"尽管具有强大的自然语言理解能力,但机器学习尚未能够解决这个问题,尤其是对于嘈杂的现实世界环境。这是语音转文本、对话式人工智能平台和语音助手的瓶颈,"他说。
Elektrobit 用户体验总监 J?rg Scherer 表示,集成 AI 技术已将识别性能提高到可接受的水平。
"然而,对意图的清晰理解仍然是一个挑战。因此,需要考虑更多与上下文相关的信息,例如用户的偏好、位置和对话历史,以通过推理生成语音对话答案,"Scherer 建议道。
管理语音多样性和控制偏见是另一个需要注意的粘性小部件。
"当前的 ASR 模型现在非常擅长清晰、缓慢的语音,但它们需要更好地识别不同的方言和专业词汇,"Steitz 说。
另一个挑战是在与客户一起使用品牌 TTS 和真实的人类体验之间找到平衡,同时确保每个客户群的每条消息都是不同的。
然后,人们越来越担心语音数据和隐私。 "组织需要有效地操作语音数据,但要在不侵犯用户和客户隐私的情况下防止滥用,"Ziv 认为。
展望未来
尽管面临挑战,但预测要求未来令人兴奋的发展。
"我预见到人工智能驱动的语音技术将越来越多地被开发用于改善社会,特别是医疗保健和教育领域,"Ubale 说。 "现在,大多数现成的功能提供的语音信息非常有限。但在未来,工程师和科学家将更多地投资于构建基础能力,以应对试图学习一门新语言的用户面临的特定挑战,为专业发展而重新技能或提升技能,以及克服特定的医疗需求。"
Zagorsek 设想了四个创新将强劲的领域:主动语音助手、情绪检测、扩展的多语言和重音语言能力,以及增加的货币化。
"在不久的将来,我们将看到语音助手通过收集有关上下文和情况的信息,然后主动提出有用的建议并采取行动来发挥积极作用并提供更大的有用性,"Zagorsek 说。
Amin 预测,随着客户继续寻求人际互动,同理心将变得更加重要。 "通过异步消息传递和客户语音等先进技术,可以更好地满足客户的需求并提供白手套体验,从而产生同理心。"
Ziv 也同样热情。 "我预见到实时语音应用程序的兴起和持续发展势头,例如实时座席辅助,"他说。 "我还看到了与虚拟现实和语音交互的沉浸式人机语音的出现,例如,键盘和通过手指发短信消失了。"
声明:版权所有 非合作媒体谢绝转载
原文网址:https://www.speechtechmag.com/Articles/Editorial/Features/The-2022-State-of-Speech-Engines-151325.aspx