ChatGPT、DeepSeek引发的AI浪潮席卷全球,各种AI创新不断涌现。
3月6日,《中国经营报》记者从实时互动(RTE)云行业开创者声网方面获悉,其当日正式发布了全球首个对话式AI引擎,该对话式AI引擎可支持任意文本大模型快速升级为“能说会道”的对话式多模态大模型。
记者注意到,早在2024年5月,OpenAI发布GPT-4o时就已开始深度探索端到端的实时多模态大模型能力。2024年年底,微软的AI将拥有实时的语音界面,允许完全动态的交互。而让这些头部AI产品实现“能说会道”的正是声网的兄弟公司Agora。
在生成式AI的浪潮下,行业普遍认为多模态大模型是实现AGI的必经之路,毕竟一问一答文本输入的机械方式,远不如文本、图片、语音互动来得真实、自然和智能。多位业内人士接受记者采访时表示,随着技术逐渐成熟,AI正步入落地应用阶段。相比近期火热出圈的Manus这些下游应用,AI基础设施(AI Infrastructure)建设必不可少,其实更关键,而“实时互动”则是一个“能听会看”的AI必不可少的能力。
让大模型“能说会道”
现实中人与人的沟通就是以语音为主,视觉其次,视觉的重要性在于信息的丰富度,但是信息浓度和沟通效率还得靠语音。多模态大模型的出现,推动了人与AI交互方式的变革,而语音多模态将是其中的必经之路。
知名投资机构a16z最新关于Voice AI的报告显示,随着大模型的不断进步,语音将成为一种关键的切入点。声网一直致力于将RTE与生成式AI结合,在音视频领域积累了深厚的技术优势与场景实践,并推出了对话式AI引擎。
“DeepSeek出来之后,我们做AI的人全部都在加班。对话式引擎牵涉到的部门较多,包括算法、体验、工程化、测试、产品等,所以今年过年期间,我们专门找了一间小黑屋,所有人在里面加班。”声网AI RTE产品线负责人姚光华告诉记者,这个产品目前并不是放到任何场景下都是万能的,但核心体验已经是达到了良好的水准,里面很多功能特性都是独家的。
据悉,声网对话式AI引擎支持包含DeepSeek、ChatGPT等在内的全球几乎所有大模型厂商,也支持全球主流语音合成供应商任意切换;通过全链路深度优化,并在中、美、欧、东南亚主要城市实测,语音对话延迟中位数低至650ms,实现让AI秒回你的提问。
记者现场实测,用孙悟空为何在西天取经路上,相比大闹天宫时能力弱化的相关问题,进行了连续追问,并几次打断,该引擎均能快速反应和及时给出有逻辑和说服力的答案。
而针对现实生活中各种环境人声、噪声干扰的情况,该引擎“选择性注意力锁定”功能可屏蔽95%的环境人声、噪声干扰,精准识别对话人声。同时,声网对话式AI引擎提供了极简的开发部署,只需2行代码,15分钟就能让AI开口说话,相应降低了开发门槛。
而此次对话式AI引擎最大的卖点可能还是低成本。据介绍,AI语音对话只需0.098元/分钟,单次还赠送1000分钟。自研的“智能打断”功能作为增值服务也只需0.042元/分钟,以更低的成本助力开发者探索AI应用场景。
“经过一段时间与客户的打磨及实际使用场景调研,我们统计出,用户与AI每产生1次对话中,平均会有约3轮问答,计算下来平均对话时长约为21.1s,单次成本仅需3分钱。如果每月对话15次,那么月成本不到5毛钱,年成本也只需5元。”姚光华说。
声网产品线负责人和利鹏则表示,低成本和持续补贴就是让更多的人群不会因为价格而有些场景不敢用,希望更多的场景带来更大的用量,更大的用量带来更大的市场。但首先还是要保证用户体验越来越好,让用户觉得值。
落地应用是关键
随着多模态大模型能力的进化,AIGC应用场景将迎来爆发。
通过声网对话式AI引擎,开发者可以快速部署智能助手、虚拟陪伴、口语陪练、智能客服、智能硬件等对话式AI场景。例如智能助手场景可以通过自然语言交互,帮助人们进行日程管理、信息查询和任务执行,提升生活便利性,并提高工作效率。
据和利鹏透露,现在的产品开发过程中都是动态的,潜在的用户不断给他们反馈,过几天就可能会有新的场景,需要及时响应,并不断适应新的场景。“我们把基础能力准备好,让大家在里面去做创新的场景。”
智能硬件场景是当下十分火热的AI场景,通过嵌入对话式AI引擎,可实现语音控制、智能看护、智能陪伴和个性化服务,将智能设备升级为智能硬件体。适用于AI玩具、AI教育硬件、AI陪伴设备、家居语音助手、穿戴设备个人助手等多种应用场景。
针对层出不穷的现实应用场景,和利鹏表示,不同的场景有不同的特点和需求,我们还是要找到最合适的落地场景,目前看主要就是延时、交互、陪伴等。“我们内部有十几种场景,最大的就是陪伴类,还有社交娱乐,基于IoT设备的小孩陪伴、教育场景的数字人、外呼和AI面试也是比较多的。”
来自量子位智库推出的AI智能助手用户数据报告显示,截至2024年8月,国内市场的AI智能助手App已超过64款。在AI情感陪伴领域也涌现了Soul、星野、Wow等一系列人气社交App。
2025年,全球实时互动云服务市场正迎来爆发前夜。IDC预测,到2025年,该赛道规模将突破100亿美元,年复合增长率达12%。
和利鹏告诉记者,AI是一个长期的、大的机会,它不是一波热潮,而是一场变革。AI投入是公司的战略,在公司内部是一号工程。公司产品一定要做好,不然OpenAI不会选择我们,要真正做到产品质量、体验和服务的领先,所以他们在这方面布局和投入是不设限的。
“看到DeepSeek给中国科技界带来的正向影响,我们也想参与到这种浪潮中,至少为这场浪潮出一份力量,中国企业不管怎么样都是不输别人的。”姚光华表示。
(文章来源:中国经营报)
免责声明:投资有风险,本文并非投资建议,以上内容不应被视为任何金融产品的购买或出售要约、建议或邀请,作者或其他用户的任何相关讨论、评论或帖子也不应被视为此类内容。本文仅供一般参考,不考虑您的个人投资目标、财务状况或需求。TTM对信息的准确性和完整性不承担任何责任或保证,投资者应自行研究并在投资前寻求专业建议。