百度端到端语音语言大模型破局出圈，对话超逼真、成本最高降90%，1秒极速响应

智东西

02 Apr

作者 | 程茜

编辑 | 漠影

语音交互又被玩出新花样？！

智东西4月2日报道，本周一，百度发布业界首个基于全新互相关注意力（Cross-Attention）的端到端语音语言大模型，已首发上线文小言，可免费体验。

用几个关键词概括新升级的文小言就是：语音交互超逼真、超低时延、超低成本。

超逼真指的是，搭载语音语言大模型的文小言，既能听得懂重庆、广西、河南、广东、山东等特色方言，还能实现情感饱满对话；超低时延是其对话中可将用户等待时长从行业常见的3-5秒降低至1秒左右，几乎与真人对话无异；超低成本指在电话语音频道的语音问答场景中，调用成本较行业均值下降约50%-90%。

百度语音首席架构师贾磊透露，该模型可以部署到L20卡上，在满足语音交互延迟要求的情况下，双L20卡的并发可以做到几百以上。目前，语音语言大模型的训练流程便捷，基本上基于文心大模型几百片卡优化一周就可以实现，且本身的优化工作也并不复杂。

相比于大模型在语音交互场景的应用，这一语音语言大模型的独特之处是什么？又是如何做到最高降低达到90%的调用成本？其背后的创新点该如何解读？智东西与百度语音首席架构师贾磊进行了深入交流，试图找到这些问题的答案。

一、真人对话体验，升级版文小言语音交互更丝滑

大模型在语音交互场景的发展，正朝着更自然、低延迟、高拟真的语音交互体验演进。而这一更为拟人化的交互体验，我们在新升级的文小言上窥到了雏形，搭载了端到端语音语言大模型的文小言，已经化身情感陪伴、全能助手。

首先，文小言已经集成了包含天气查询、日历查询、单位换算、股票股价等信息查询的38个垂类助手，可以看出这些特殊场景下，语音交互的效率要远高于文本交互。

其次，文小言对于时效性和非时效性问题均能应对，百科查询、时政知识类时效性问答内容，文小言可以进行实时检索，并做到精准的指令跟随，降低幻觉；常识问答等非时效性问题也不在话下。

最后，也是语音交互与文本最大的区别所在，文小言可以与用户进行情感自然充沛的交流，并能做到快速响应反馈，实现逼真拟人的交互效果。

话不多说，来看看文小言的实际效果。

语音识别的一大难点莫过于方言识别。方言的发音特点丰富多样，同一方言在不同地区可能存在发音差异，甚至同一个字在不同语境下发音也有所不同。这使得语音识别系统难以准确捕捉和解析所有的发音变体，增加了识别的难度。当下的文小言，已经可以应对重庆、广西、河南、广东、山东各地特色方言，其不仅听得懂，还能使用对应的方言进行回复。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Tiger Brokers

百度端到端语音语言大模型破局出圈，对话超逼真、成本最高降90%，1秒极速响应

Most Discussed