百度端到端語音語言大模型破局出圈，對話超逼真、成本最高降90%，1秒極速響應

作者 | 程茜

編輯 | 漠影

語音交互又被玩出新花樣？！

智東西4月2日報道，本周一，百度發布業界首個基於全新互相關注意力（Cross-Attention）的端到端語音語言大模型，已首發上線文小言，可免費體驗。

用幾個關鍵詞概括新升級的文小言就是：語音交互超逼真、超低時延、超低成本。

超逼真指的是，搭載語音語言大模型的文小言，既能聽得懂重慶、廣西、河南、廣東、山東等特色方言，還能實現情感飽滿對話；超低時延是其對話中可將用戶等待時長從行業常見的3-5秒降低至1秒左右，幾乎與真人對話無異；超低成本指在電話語音頻道的語音問答場景中，調用成本較行業均值下降約50%-90%。

百度語音首席架構師賈磊透露，該模型可以部署到L20卡上，在滿足語音交互延遲要求的情況下，雙L20卡的併發可以做到幾百以上。目前，語音語言大模型的訓練流程便捷，基本上基於文心大模型幾百片卡優化一周就可以實現，且本身的優化工作也並不複雜。

相比於大模型在語音交互場景的應用，這一語音語言大模型的獨特之處是什麼？又是如何做到最高降低達到90%的調用成本？其背後的創新點該如何解讀？智東西與百度語音首席架構師賈磊進行了深入交流，試圖找到這些問題的答案。

一、真人對話體驗，升級版文小言語音交互更絲滑

大模型在語音交互場景的發展，正朝着更自然、低延遲、高擬真的語音交互體驗演進。而這一更為擬人化的交互體驗，我們在新升級的文小言上窺到了雛形，搭載了端到端語音語言大模型的文小言，已經化身情感陪伴、全能助手。

首先，文小言已經集成了包含天氣查詢、日曆查詢、單位換算、股票股價等信息查詢的38個垂類助手，可以看出這些特殊場景下，語音交互的效率要遠高於文本交互。

其次，文小言對於時效性和非時效性問題均能應對，百科查詢、時政知識類時效性問答內容，文小言可以進行實時檢索，並做到精準的指令跟隨，降低幻覺；常識問答等非時效性問題也不在話下。

最後，也是語音交互與文本最大的區別所在，文小言可以與用戶進行情感自然充沛的交流，並能做到快速響應反饋，實現逼真擬人的交互效果。

話不多說，來看看文小言的實際效果。

語音識別的一大難點莫過於方言識別。方言的發音特點豐富多樣，同一方言在不同地區可能存在發音差異，甚至同一個字在不同語境下發音也有所不同。這使得語音識別系統難以準確捕捉和解析所有的發音變體，增加了識別的難度。當下的文小言，已經可以應對重慶、廣西、河南、廣東、山東各地特色方言，其不僅聽得懂，還能使用對應的方言進行回覆。

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

百度端到端語音語言大模型破局出圈，對話超逼真、成本最高降90%，1秒極速響應

熱議股票