加速开放的百度与文心4.5,占据大模型第二场主动权

极点商业
28 Feb

无论DeepSeek,还是文心大模型4.5,都已率先进入第二战场,掀起一场将大模型门槛拉低到极致,推动产业落地、应用爆发的革命性探索。

 作者|刘珊珊

 编辑|Cindy

分隔在大洋彼岸的中美两大AI企业,同一天宣布了重磅消息。

2月28日,百度宣布,文心大模型4.5将于3月16日正式上线。根据百度方面介绍,最新版不仅在基础模型能力上有大幅提升,且具备原生多模态、深度思考等能力。

“文心大模型4.5,将是百度有史以来最强大的大模型。”此前百度2024年Q4及全年财报电话会上,百度创始人、董事长兼首席执行官李彦宏如此透露。

受来自DeepSeek、百度、阿里等中国大模型的挑战,OpenAI在北京时间周五凌晨发布博文,宣布GPT-4.5大模型正式登场。这款被OpenAI内部代号为“Orion”的模型,被声称是其最大、最佳的聊天模型。

众所周知,过去几周全球AI产业界都正因DeepSeek而巨变。在全球AI竞赛加剧之际,作为中美两大领先AI企业,百度和OpenAI的新动作,自然更受外界关注。

目前来看,百度将通过文心大模型4.5,打出“开源、免费”组合拳,走向更加开放的策略。

相比之下,GPT-4.5的高情商和人性化表现也带来了惊喜,但整体差强人意,因为并不是推理型模型,在性能上也与OpenAI前几代模型有差距——更强大基础大模型仍然是护城河逻辑不变下,中国大模型正加速占据以应用落地为主题的大模型第二场主动权。

01

开源+免费”,百度更为开放

进入2月以来,百度已密集放出了多个重磅“AI炸弹”。

2月12日,CNBC一则关于百度文心大模型5.0版本将于下半年发布的消息,在AI行业引发震动。2月13日,OpenAI首席执行官Sam Altman(山姆·奥特曼)宣布将在未来几个月推出名为GPT-5,中美大模型竞赛氛围越来越浓。

最重磅消息来自百度。同一天,百度宣布文心一言将于4月1日0时起,全面免费,所有PC端和APP端用户均可体验文心系列最新模型。同时,上线深度搜索功能。

1天后(2月14日),百度宣布将在未来几个月中陆续推出文心大模型4.5系列,并于6月30日起正式开源。

这意味着,文心大模型就此打出“免费+开源”组合拳,百度AI策略更为开放。

百度转变和DeepSeek横空出世带来的震动,有一定关系——但不止百度,OpenAI、腾讯、阿里等国内外AI巨头,无一不受影响。比如OpenAI,就在中国大模型压力下,被迫加速模型发布和开源的脚步。

更客观现实是,开源和闭源,其实并没有绝对的优劣之分。

作为中国大模型最早入局者,百度文心大模型是全球最早对标GPT的LLM大模型,几年时间里,文心大模型经过了持续的迭代和进化。比如,文心一言版本已经迭代到了4.0,无论是日均超15亿次的调用量,还是在各行业的赋能落地,都是推动中国大模型发展的重要组成部分。

同时,在百度强大生态支撑下,百度搜索、百度地图、百度文库、百度智能云等,都早已在给普通用户提供最完整的AI服务。

多位业内人士就此认为,百度走向“开源+免费”,是大模型发展的“顺势而为”,其意义重大,可以更好地推动技术平权。它让全球用户能够毫无门槛地运用中国顶尖的大模型技术,更是大模型从专业范畴,迈向大众市场的关键转折点。

李彦宏在多个场合的表态,也表明了,百度如今对开源与闭源模型价值的思考逻辑。“我在过去几个月中学到的是,开源可以帮助你获得更多关注。我们正处于AI、生成AI创新的早期阶段,更快的传播将有助于提高采用率,但也有助于更多的人尝试这项技术。”

这背后,体现的是百度组合拳,推动技术平权时的底气和开放心态。

比如,百度系多款产品,百度搜索、百度文库、百度网盘都全量接入了DeepSeek- R1满血版。相比其他产品入口较深,任何普通网友,都可以在百度首页搜索框下方,点击“AI搜索DeepSeek满血版”直接体验。

无论如何,自研大模型才是百度最强竞争力所在。如同李彦宏指出,基础模型真正的价值,只有在能够有效解决现实问题并广泛应用时才能得到体现。“即使是开源,如何确保其在实际应用中展现出色的表现,才是企业必须面对的挑战。”

至此,留给外界的疑问,无外这场普惠大众的AI 变革浪潮,何时正式开启。

2月27日,路透社爆料称,百度将在3月中下旬发布文心大模型4.5 。或许是明显感受到了来自中国AI的竞争压力,OpenAI略显仓促的在2月28日推出GPT-4.5——发布会仅持续不到14分钟,OpenAI的CEO山姆·奥特曼正在医院陪刚出生的孩子,并未现身。

02

史上最强文心大模型,有多强?

随着文心大模型4.5正式登场日的官宣,接下来半个月中,业界都会有一个共同猜测:史上最强文心大模型,到底有多强?又有哪些能力值得期待?

可以肯定,和GPT-4.5不同,文心大模型4.5,将在基础模型能力上有大幅提升,带给用户最明显的感受,可能是RAG能力进一步增强,将在幻觉方面降低到新水平。

“幻觉”,是悬在AI发展之路上的达摩克利斯之剑。指的是大模型在试图生成内容或回答问题时,输出的结果不完全正确甚至错误,即通常所说的“一本正经地胡说八道”。

在大模型领域,由于训练知识存在偏差、过度泛化地推理、理解存在局限性等,幻觉是每个模型与生俱来的缺陷。

大模型或多或少都有幻觉问题

例如OpenAI,多份研究此前指出,o3-mini大约只有10个简单问题中答对1个,两年来幻觉问题都没有得到改善。异军突起的DeepSeek,也因在解答西安安定门绕行问题时 “翻车” 而备受关注。

RAG(检索增强型生成),在解决幻觉问题上扮演着至关重要的角色——在推理过程中,RAG 使用检索到的数据作为参考来组织答案,从外部知识源中动态检索信息,以此帮助大模型生成更丰富、更准确、更可靠的内容。可以说,RAG给大模型增加了一个可以快速查找的“知识外挂”。

毋庸置疑,在国内,百度拥有最丰富的实时与个性化的数据和知识,研发了“理解-检索-生成”RAG能力。从各种RAG能力实测来看,国内外主流大模型中,百度文心一言综合表现最佳。

比如,在和OpenAI的直接PK中,即使是春节档电影细节、春晚节目等内容,文心都能准确回答;相比之下,OpenAI虽能检索到信源,却无法生成准确回答。

基于此,去年11月的百度世界2024大会上,百度发布了自研的检索增强的文生图技术(iRAG),将百度搜索的亿级图片资源跟强大的基础模型能力相结合,大幅降低图片生成领域的幻觉,大幅提高了文心的模型可用性。

可以预计,在文心大模型4.5中,随着大模型的训练数据得到进一步扩充,AI幻觉也会大幅降低,不仅让百度自身AI应用快速进化,也能够让更多行业放心用上大模型。

近期,文心一言就上线了“深度搜索”功能,具备专家级问答能力,RAG能力突出,尤其是专业领域问答幻觉率低。

在OpenAI的GPT-4.5不具备推理能力,还是主打写作等文本生成趋势下,文心大模型4.5究竟能呈现怎样的原生多模态、深度思考能力?以及可以在哪些场景下落地应用?显然更值得期待。

可以推测,在DeepSeek掀起大模型降价浪潮后,文心大模型4.5也会加速推动性能升级与成本降低,有望催生新的商业模式和产业生态。

值得一提的是,得益于飞桨和文心的联合优化,文心大模型在推理性能提升同时,推理成本也得到了有效降低——根据去年世界大会上的说法,其推理成本一年降低99%。

从李彦宏演示的个例来看,以前拍一组汽车在某场景的大片宣传海报动辄需要一二十万,甚至大几十万,使用iRAG后,创作成本接近于0。

推理成本降低速度还在加快。李彦宏在阿联酋迪拜出席“世界政府峰会”上表示,“在过去,当我们谈论摩尔定律时,每18个月,性能水平或价格都会减半。但是今天,当我们谈论大型语言模型时,增加的成本基本上降低了,可以在12个月内降低90%以上。”

所以,这也是众多企业和开发者,对于文心大模型4.5的共同期待。一位开发者就说,基于文心大模型4.5,希望无论是开发原生应用,还是做二次开发,都能够方便地体验,拥有更低的推理成本和更高的训练效率。

03

第二场竞速,

中国大模型赶超美国提速

上述开发者的期待,其实正是在百度接连打出“开源+免费”组合拳后,李彦宏的表态:“希望客户和用户能比之前更方便地体验这款模型。”

某种程度看,无论DeepSeek,还是文心大模型4.5,都已率先进入第二战场,掀起一场将大模型门槛拉低到极致,推动产业落地、应用爆发的革命性探索。

中国是全球唯一拥有联合国产业分类中所列全部工业门类的国家,不仅拥有全球最多的C端用户,还有最广阔的B端市场,对AI应用落地来说,这是独特的巨大优势。

如何让大模型更好应用于千行百业,全面升级产业同时,创造一个巨大商业市场,是自上而下的共识。权威媒体就在评论中认为,大模型落地应用,是中国AI当下最重要的命题。

“作为生产力工具,以大模型为代表的AI技术,不仅将与营销、文娱、社交、电商等AI原生应用深度融合,还会重构、改造传统制造、医疗、HR、教育、金融、法律等垂类应用,推动千行百业向高质量方向发展。”一位观察人士说。

过去十余年来,美国或许一直在AI竞赛中领先中国。但从DeepSeek到文心大模型4.5,这一切正在迅速改变:

尽管OpenAI等明显感受到了来自中国的竞争压力,也在想方设法提速,但GPT-4.5“最佳聊天的小家子气”——GPT 4.5(研究预览版)甚至输出价格是每百万token 150美金相比,依然让更多美国AI人士相信,这标志着在大模型第二场竞速,也就是应用落地比拼中,中国大模型正不断赶超美国。

海量资讯、精准解读,尽在新浪财经APP

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10