作者 | 程茜
编辑 | 漠影
语音交互又被玩出新花样?!
智东西4月2日报道,本周一,百度发布业界首个基于全新互相关注意力(Cross-Attention)的端到端语音语言大模型,已首发上线文小言,可免费体验。
用几个关键词概括新升级的文小言就是:语音交互超逼真、超低时延、超低成本。
超逼真指的是,搭载语音语言大模型的文小言,既能听得懂重庆、广西、河南、广东、山东等特色方言,还能实现情感饱满对话;超低时延是其对话中可将用户等待时长从行业常见的3-5秒降低至1秒左右,几乎与真人对话无异;超低成本指在电话语音频道的语音问答场景中,调用成本较行业均值下降约50%-90%。
百度语音首席架构师贾磊透露,该模型可以部署到L20卡上,在满足语音交互延迟要求的情况下,双L20卡的并发可以做到几百以上。目前,语音语言大模型的训练流程便捷,基本上基于文心大模型几百片卡优化一周就可以实现,且本身的优化工作也并不复杂。
相比于大模型在语音交互场景的应用,这一语音语言大模型的独特之处是什么?又是如何做到最高降低达到90%的调用成本?其背后的创新点该如何解读?智东西与百度语音首席架构师贾磊进行了深入交流,试图找到这些问题的答案。
一、真人对话体验,升级版文小言语音交互更丝滑
大模型在语音交互场景的发展,正朝着更自然、低延迟、高拟真的语音交互体验演进。而这一更为拟人化的交互体验,我们在新升级的文小言上窥到了雏形,搭载了端到端语音语言大模型的文小言,已经化身情感陪伴、全能助手。
首先,文小言已经集成了包含天气查询、日历查询、单位换算、股票股价等信息查询的38个垂类助手,可以看出这些特殊场景下,语音交互的效率要远高于文本交互。
其次,文小言对于时效性和非时效性问题均能应对,百科查询、时政知识类时效性问答内容,文小言可以进行实时检索,并做到精准的指令跟随,降低幻觉;常识问答等非时效性问题也不在话下。
最后,也是语音交互与文本最大的区别所在,文小言可以与用户进行情感自然充沛的交流,并能做到快速响应反馈,实现逼真拟人的交互效果。
话不多说,来看看文小言的实际效果。
语音识别的一大难点莫过于方言识别。方言的发音特点丰富多样,同一方言在不同地区可能存在发音差异,甚至同一个字在不同语境下发音也有所不同。这使得语音识别系统难以准确捕捉和解析所有的发音变体,增加了识别的难度。当下的文小言,已经可以应对重庆、广西、河南、广东、山东各地特色方言,其不仅听得懂,还能使用对应的方言进行回复。
免责声明:投资有风险,本文并非投资建议,以上内容不应被视为任何金融产品的购买或出售要约、建议或邀请,作者或其他用户的任何相关讨论、评论或帖子也不应被视为此类内容。本文仅供一般参考,不考虑您的个人投资目标、财务状况或需求。TTM对信息的准确性和完整性不承担任何责任或保证,投资者应自行研究并在投资前寻求专业建议。