百度端到端語音語言大模型破局出圈,對話超逼真、成本最高降90%,1秒極速響應

智東西
04-02

作者 | 程茜

編輯 | 漠影

語音交互又被玩出新花樣?!

智東西4月2日報道,本週一,百度發佈業界首個基於全新互相關注意力(Cross-Attention)的端到端語音語言大模型,已首發上線文小言,可免費體驗。

用幾個關鍵詞概括新升級的文小言就是:語音交互超逼真、超低時延、超低成本

超逼真指的是,搭載語音語言大模型的文小言,既能聽得懂重慶、廣西、河南、廣東、山東等特色方言,還能實現情感飽滿對話;超低時延是其對話中可將用戶等待時長從行業常見的3-5秒降低至1秒左右,幾乎與真人對話無異;超低成本指在電話語音頻道的語音問答場景中,調用成本較行業均值下降約50%-90%。

百度語音首席架構師賈磊透露,該模型可以部署到L20卡上,在滿足語音交互延遲要求的情況下,雙L20卡的併發可以做到幾百以上。目前,語音語言大模型的訓練流程便捷,基本上基於文心大模型幾百片卡優化一週就可以實現,且本身的優化工作也並不複雜。

相比於大模型在語音交互場景的應用,這一語音語言大模型的獨特之處是什麼?又是如何做到最高降低達到90%的調用成本?其背後的創新點該如何解讀?智東西與百度語音首席架構師賈磊進行了深入交流,試圖找到這些問題的答案。

一、真人對話體驗,升級版文小言語音交互更絲滑

大模型在語音交互場景的發展,正朝着更自然、低延遲、高擬真的語音交互體驗演進。而這一更爲擬人化的交互體驗,我們在新升級的文小言上窺到了雛形,搭載了端到端語音語言大模型的文小言,已經化身情感陪伴、全能助手。

首先,文小言已經集成了包含天氣查詢、日曆查詢、單位換算、股票股價等信息查詢的38個垂類助手,可以看出這些特殊場景下,語音交互的效率要遠高於文本交互。

其次,文小言對於時效性和非時效性問題均能應對,百科查詢、時政知識類時效性問答內容,文小言可以進行實時檢索,並做到精準的指令跟隨,降低幻覺;常識問答等非時效性問題也不在話下。

最後,也是語音交互與文本最大的區別所在,文小言可以與用戶進行情感自然充沛的交流,並能做到快速響應反饋,實現逼真擬人的交互效果。

話不多說,來看看文小言的實際效果。

語音識別的一大難點莫過於方言識別。方言的發音特點豐富多樣,同一方言在不同地區可能存在發音差異,甚至同一個字在不同語境下發音也有所不同。這使得語音識別系統難以準確捕捉和解析所有的發音變體,增加了識別的難度。當下的文小言,已經可以應對重慶、廣西、河南、廣東、山東各地特色方言,其不僅聽得懂,還能使用對應的方言進行回覆。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10