ChatGPT、DeepSeek引發的AI浪潮席捲全球,各種AI創新不斷湧現。
3月6日,《中國經營報》記者從實時互動(RTE)雲行業開創者聲網方面獲悉,其當日正式發佈了全球首個對話式AI引擎,該對話式AI引擎可支持任意文本大模型快速升級爲“能說會道”的對話式多模態大模型。
記者注意到,早在2024年5月,OpenAI發佈GPT-4o時就已開始深度探索端到端的實時多模態大模型能力。2024年年底,微軟的AI將擁有實時的語音界面,允許完全動態的交互。而讓這些頭部AI產品實現“能說會道”的正是聲網的兄弟公司Agora。
在生成式AI的浪潮下,行業普遍認爲多模態大模型是實現AGI的必經之路,畢竟一問一答文本輸入的機械方式,遠不如文本、圖片、語音互動來得真實、自然和智能。多位業內人士接受記者採訪時表示,隨着技術逐漸成熟,AI正步入落地應用階段。相比近期火熱出圈的Manus這些下游應用,AI基礎設施(AI Infrastructure)建設必不可少,其實更關鍵,而“實時互動”則是一個“能聽會看”的AI必不可少的能力。
讓大模型“能說會道”
現實中人與人的溝通就是以語音爲主,視覺其次,視覺的重要性在於信息的豐富度,但是信息濃度和溝通效率還得靠語音。多模態大模型的出現,推動了人與AI交互方式的變革,而語音多模態將是其中的必經之路。
知名投資機構a16z最新關於Voice AI的報告顯示,隨着大模型的不斷進步,語音將成爲一種關鍵的切入點。聲網一直致力於將RTE與生成式AI結合,在音視頻領域積累了深厚的技術優勢與場景實踐,並推出了對話式AI引擎。
“DeepSeek出來之後,我們做AI的人全部都在加班。對話式引擎牽涉到的部門較多,包括算法、體驗、工程化、測試、產品等,所以今年過年期間,我們專門找了一間小黑屋,所有人在裏面加班。”聲網AI RTE產品線負責人姚光華告訴記者,這個產品目前並不是放到任何場景下都是萬能的,但核心體驗已經是達到了良好的水準,裏面很多功能特性都是獨家的。
據悉,聲網對話式AI引擎支持包含DeepSeek、ChatGPT等在內的全球幾乎所有大模型廠商,也支持全球主流語音合成供應商任意切換;通過全鏈路深度優化,並在中、美、歐、東南亞主要城市實測,語音對話延遲中位數低至650ms,實現讓AI秒回你的提問。
記者現場實測,用孫悟空爲何在西天取經路上,相比大鬧天宮時能力弱化的相關問題,進行了連續追問,並幾次打斷,該引擎均能快速反應和及時給出有邏輯和說服力的答案。
而針對現實生活中各種環境人聲、噪聲干擾的情況,該引擎“選擇性注意力鎖定”功能可屏蔽95%的環境人聲、噪聲干擾,精準識別對話人聲。同時,聲網對話式AI引擎提供了極簡的開發部署,只需2行代碼,15分鐘就能讓AI開口說話,相應降低了開發門檻。
而此次對話式AI引擎最大的賣點可能還是低成本。據介紹,AI語音對話只需0.098元/分鐘,單次還贈送1000分鐘。自研的“智能打斷”功能作爲增值服務也只需0.042元/分鐘,以更低的成本助力開發者探索AI應用場景。
“經過一段時間與客戶的打磨及實際使用場景調研,我們統計出,用戶與AI每產生1次對話中,平均會有約3輪問答,計算下來平均對話時長約爲21.1s,單次成本僅需3分錢。如果每月對話15次,那麼月成本不到5毛錢,年成本也只需5元。”姚光華說。
聲網產品線負責人和利鵬則表示,低成本和持續補貼就是讓更多的人羣不會因爲價格而有些場景不敢用,希望更多的場景帶來更大的用量,更大的用量帶來更大的市場。但首先還是要保證用戶體驗越來越好,讓用戶覺得值。
落地應用是關鍵
隨着多模態大模型能力的進化,AIGC應用場景將迎來爆發。
通過聲網對話式AI引擎,開發者可以快速部署智能助手、虛擬陪伴、口語陪練、智能客服、智能硬件等對話式AI場景。例如智能助手場景可以通過自然語言交互,幫助人們進行日程管理、信息查詢和任務執行,提升生活便利性,並提高工作效率。
據和利鵬透露,現在的產品開發過程中都是動態的,潛在的用戶不斷給他們反饋,過幾天就可能會有新的場景,需要及時響應,並不斷適應新的場景。“我們把基礎能力準備好,讓大家在裏面去做創新的場景。”
智能硬件場景是當下十分火熱的AI場景,通過嵌入對話式AI引擎,可實現語音控制、智能看護、智能陪伴和個性化服務,將智能設備升級爲智能硬件體。適用於AI玩具、AI教育硬件、AI陪伴設備、家居語音助手、穿戴設備個人助手等多種應用場景。
針對層出不窮的現實應用場景,和利鵬表示,不同的場景有不同的特點和需求,我們還是要找到最合適的落地場景,目前看主要就是延時、交互、陪伴等。“我們內部有十幾種場景,最大的就是陪伴類,還有社交娛樂,基於IoT設備的小孩陪伴、教育場景的數字人、外呼和AI面試也是比較多的。”
來自量子位智庫推出的AI智能助手用戶數據報告顯示,截至2024年8月,國內市場的AI智能助手App已超過64款。在AI情感陪伴領域也湧現了Soul、星野、Wow等一系列人氣社交App。
2025年,全球實時互動雲服務市場正迎來爆發前夜。IDC預測,到2025年,該賽道規模將突破100億美元,年複合增長率達12%。
和利鵬告訴記者,AI是一個長期的、大的機會,它不是一波熱潮,而是一場變革。AI投入是公司的戰略,在公司內部是一號工程。公司產品一定要做好,不然OpenAI不會選擇我們,要真正做到產品質量、體驗和服務的領先,所以他們在這方面佈局和投入是不設限的。
“看到DeepSeek給中國科技界帶來的正向影響,我們也想參與到這種浪潮中,至少爲這場浪潮出一份力量,中國企業不管怎麼樣都是不輸別人的。”姚光華表示。
(文章來源:中國經營報)
免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。