作者 | GenAICon 2025
4月1日-2日,一场全场干货爆棚的生成式AI盛会,在北京圆满举行。
开年以来,DeepSeek的异军突起,改写了中西大模型竞争叙事。生成式AI似乎猛然冲进一个全新征程中,中国企业更是斗志昂扬地踊跃创新,不仅领衔AI开源盛世,还掀起了新一轮模型部署与AI应用研发热潮,在这千载难逢的历史机遇期全速冲锋。
为此,我们发起了一场聚焦前沿技术与产业趋势的春日AI聚会——2025中国生成式AI大会(北京站)。
大会以“大拐点 新征程”为主题,两天之内,超过50位产学研嘉宾密集输出高浓度、高质量的干货信息,深度解构DeepSeek引发的变革狂潮,全面展示覆盖深度推理模型、多模态模型与世界模型、AI Infra(AI基础设施)、AIGC应用、Agents(智能体)、具身智能等领域的生成式AI最新进展。
▲中国生成式AI大会主会场开幕式、GenAI应用论坛、大模型峰会、分会场技术研讨会、展区人流密集
本届大会主会场举办开幕式、GenAI应用论坛、大模型峰会,分会场举办3场以DeepSeek R1与推理、AI智能体、具身智能大模型为主题的技术研讨会,期间既有同频共振,又有激烈观点交锋,现场参会观众超过1500人。
展区亦是人头攒动,从早到晚充斥着热切的交流声,Alluxio、Zenlayer、DriveNets、澳鹏数据、晴数智慧、中昊芯英、GMI Cloud、焱融科技、英博数科、华为云、研惠通、新晧诚科技、枫清科技、科华数据、首都在线、清智图灵等16家企业带来最新技术产品展示。
这已经是智一科技旗下智猩猩、智东西共同发起中国生成式AI大会的第四届,也是AI青年学者密度最高的一届。自2023年以来,大会累计吸引了数千人线下参会,线上观看人次更是超过1000万,成为国内AI领域最具影响力的产业峰会之一。
▲联想集团Game of AI科普视频在大会展播:联想工厂制造控制塔MCT2.0,生成式AI在制造业首次落地
智一科技联合创始人、CEO龚伦常在致辞环节宣布:今年,中国生成式AI大会正式升级为“智领未来”北京人工智能系列品牌活动之一。
“智领未来”是北京市科委、中关村管委会打造的北京市人工智能领域的活动品牌。此外,同样作为“智领未来”北京人工智能系列品牌活动之一的中国AI算力峰会将于今年6月在北京举办。
龚伦常还预告了将于今年举办的多个主题会议:4月底,中国汽车智能化创新峰会将在上海车展期间同步举办;9月,全球AI芯片峰会将在上海举办;11月,中国具身智能机器人大会将在深圳举办。欢迎感兴趣的朋友们关注。
▲智一科技联合创始人、CEO龚伦常致辞
一、开幕式:突破大模型预训练瓶颈,为AI应用爆发扫清障碍
进入2025年,AI领域涌现哪些新关键词?慢思考推理技术如何缓解大模型预训练瓶颈?怎样让机器人操作交互像跳舞一样丝滑?Agents(智能体)落地企业需攻克哪些挑战?国产算力怎么解锁万卡集群难关?
在大会首日开幕式上,产学研嘉宾围绕深度推理模型、具身智能机器人、AI智能体、AI算力基础设施、AI应用,分享了对最新技术思路与推动落地的观察与思考。
1、人大赵鑫:慢思考推理技术如何缓解大模型预训练瓶颈?
中国人民大学高瓴人工智能学院教授赵鑫谈道,大模型本质上是一个条件概率生成模型,思维链会提升预测正确的可能性。
当前训练模型性能增长会出现边际效益递减,其中数据和算力是探索扩展法则的主要限制,这也是为何当下需要慢思考推理技术。
慢思考推理技术的基本思路是“搜索+学习”的结合,具体来看,包括基于多次采样的方法、基于树搜索的方法、基于SFT(监督微调)的方法、基于RL(强化学习)的方法。
赵鑫教授团队在慢思考技术方面进行了大量研究。在RL技术领域,找到可验证的训练数据非常重要,团队系统探索了类R1模型的复现方法。
推理模型本质上可以认为是一个具备逐步推理/动作规划的“大脑”,未来推理模型可能会深刻影响现有智能体的设计模式。
▲中国人民大学高瓴人工智能学院教授赵鑫
2、清华许华哲:如何让机器人的操作交互像跳舞一样“丝滑”?
清华大学交叉学院助理教授、博导、星海图联合创始人许华哲谈道,当前机器人做跳舞、跑步、扭秧歌这类事已经很娴熟了,有大量数据支撑,但在操作交互方面数据十分匮乏,还有很长的路要走。
解决数据难题,让机器人有触觉是非常关键的,这样数据才能更丰富,团队设计了仿真手套,可以让机器人同步人手的操作。
有了数据还不够,数据量也非常关键,为此,团队通过DemoGen的方式丰富数据量,借此机器人的泛化能力可以得到进一步提升。相比传统方式,通过DemoGen的方式获得数据的速度快了上万倍。
未来让机器人能够泛化地去做更多的柔性操作,是团队努力的方向。
▲清华大学交叉学院助理教授、博导、星海图联合创始人许华哲
3、PINE AI李博杰:AI原生团队是组织形态的一场重大变革
PINE AI联合创始人、首席科学家李博杰认为,AI Agent在爆火的同时,也面临着企业知识孤岛、GUI使用困难、缺少独立测试环境、无法长时间运行等问题。
要打造AI原生团队,让AI真正成为“数字员工”,需要为Agent打造类似开源社区的沟通文化,实现开放透明的信息共享,并配备AI友好的团队协作工具接口、完善的测试环境与测试用例,同时让每个员工都拥有AI助理。
从技术层面来看,未来Agent还需要在明晰需求、主动沟通、主动协作、长期记忆、自我反思回溯与高精度内部知识库搜索等方面实现突破,才能真正实现从工具到团队成员的转变。
▲PINE AI联合创始人、首席科学家李博杰
4、壁仞科技丁云帆:64卡4TB显存训练满血DeepSeek-V3,异构混训逐步迈向万卡集群
DeepSeek引爆了大模型落地元年。壁仞科技AI软件首席架构师丁云帆认为,大模型落地需要工程和算法的协同创新,数据是燃料,算法是引擎,算力是加速器。
壁仞科技目前有万卡集群整体解决方案和智算生态,希望通过软硬协同&算法与工程协同,系统性地破解大模型算力难题:硬件集群算力方面,壁仞科技自主原创了GPU芯片架构,引领Chiplet技术趋势;软件有效算力方面,有大模型训推一体平台,业界首次实现大模型训练自动弹性扩缩容。业界首创三级异步checkpoint,千卡集群千亿参数可以实现自动断点续训小于5分钟,大幅提升集群稳定性。
大规模分布式优化方面,壁仞科技针对国产GPU高效适配DeepSeek进行了一系列技术优化创新,64卡4096GB显存即可支持DeepSeek-V3满血版高效全参训练,而其他已公布方案至少需要256卡。
此外异构聚合算力方面,壁仞科技自主原创了异构GPU协同训练方案HGCT,支持4种及以上异构GPU协同训练同一个大模型,解决了异构混训的关键技术挑战,已实现数千卡规模混训,下一步将突破万卡混训。
▲壁仞科技AI软件首席架构师丁云帆
5、英诺天使基金王晟:AI应用爆发,需要新终端设备的出现
英诺天使基金合伙人王晟谈道,2023年是大语言模型的爆发期,2024年则转向多模态技术,但2024年被寄予厚望的“AI应用元年”并未如期而至,主要原因是缺乏新终端设备和新场景定义,当前既有设备的场景需求已接近饱和。
▲英诺天使基金合伙人王晟
未来,AI应用的爆发可能需要于新终端设备、新计算能力的出现。能够提供情绪价值的AI玩具和陪伴类产品也拥有巨大的潜力,因为人类为情绪价值买单的意愿非常强烈。
此外,AI公司的发展方向正从工具提供转向智能代理,未来会成为“造人”的公司,让AI能够承担更复杂的任务,甚至取代人类从事多种职业。2025年,AI领域的关键词包括应用、AI硬件、具身智能和世界模型,这些方向将定义未来的技术和市场格局。
二、高端对话:中国AGI新征程全速起航,全产业链迎巨大发展机会
以《DeepSeek开启大模型下半场 中国AGI新征程全速起航》为主题的高端对话,由智一科技联合创始人、智车芯产媒矩阵总编辑张国仁主持,彩云科技创始人兼CEO袁行远,GMI Cloud创始人兼CEO Alex Yeh,PINE AI联合创始人、首席科学家李博杰,智澄AI创始人及CEO胡鲁辉,四位嘉宾分别作为AI应用、算力云、Agent、具身智能企业代表进行分享。
智一科技联合创始人、智车芯产媒矩阵总编辑张国仁谈道,今年春节以来,从DeepSeek、人形机器人到通用Agent产品Manus,中国团队不断造出现象级AI产品,2025年AI发展似乎进入了“中国时刻”,随着中国AGI新征程全速起航,中国市场、中国公司在全球AI格局扮演的角色和发展特征都备受关注。
▲智一科技联合创始人、智车芯产媒矩阵总编辑张国仁
1、DeepSeek显著提升成本效益
PINE AI联合创始人、首席科学家李博杰认为,DeepSeek-R1揭示了大模型训练的真实成本,让世界了解到只要方法得当,便能训练出优秀的模型。
GMI Cloud创始人兼CEO Alex Yeh谈道,DeepSeek的开源模型显著降低了企业的部署成本,使企业能够以低成本快速构建应用。
彩云科技创始人兼CEO袁行远更是用事实说话,提到彩云科技旗下产品在切换到DeepSeek后,成本降低了90%,毛利率转正。
▲彩云科技创始人兼CEO袁行远
2、中国开源活跃度高,年轻人展现出后发优势
谈及中美AI发展的差异,Alex Yeh观察到,中国在开源社区的活跃度和快速落地能力显著优于美国,这也意味着中国在AI应用爆发上会有巨大的机会。
▲GMI Cloud创始人兼CEO Alex Yeh
彩云科技旗下的产品正在出海。袁行远分享说,海外用户对数据、隐私等问题的关注度较高,与国内用户区别明显。他认为中国有望通过大量高质量的人才储备,在中美AI对决中取胜。
在李博杰看来,AI行业领域知识获取更便捷,对经验的要求相对较少,使许多年轻的中国企业和研究者能展现出后发优势。
3、做基础模型还是AI应用?
针对做基础模型还是AI应用的选择问题,Alex Yeh认为大厂偏重基础模型的训练,而中小企业则应专注于快速落地和应用开发。
AI训练需要消耗海量的数据与算力。智澄AI创始人及CEO胡鲁辉相信,未来的创新将围绕如何更高效地利用数据和算力展开,创业公司在未来十年也仍将有巨大的发展空间。
▲智澄AI创始人及CEO胡鲁辉
彩云科技既做AI基础研究,又开发了彩云天气、彩云小梦等AI应用。在袁行远看来,在AI应用落地的过程中,高性能底层模型已如“电力”般广泛可及,行业重点逐渐从基础算法转变为对应用细节的极致追求。以天气预报为例,通用AI模型无法敏锐地识别云图中的细微变化和噪音,需要运用大量的一线行业知识才能完美胜任。
4、未来两年是垂直领域Agent的关键突破口
PINE AI正在打造能听、能看、能说、能操作电脑的通用AI Agent,未来希望成为数字员工和个人助理。
李博杰说,Agent的形态正在变化,决策能力、通用性不断增强,未来两年是垂直领域Agent的关键突破口,企业需要在这一阶段积累品牌声誉与网络效应,为2027年左右通用Agent爆发做好准备。
▲PINE AI联合创始人、首席科学家李博杰
除了完成单一任务之外,通用Agent的价值还在于并行完成大量重复性工作,为生产、生活节省时间,提供便利。在李博杰看来,这类Agent有望在2025年初步落地,产生价值。
5、具身智能可能在五年内实现
胡鲁辉谈道,大模型可能只是AI发展的一个阶段性成果,AI发展正从生成式AI迈向物理智能,最终实现通用人工智能(AGI)。
李博杰也认为,具身智能很有可能是AI到达甚至超过AGI的路径。具身智能在与现实世界交互的过程中,获得大量知识与数据,助力模型能力持续提升。
Alex Yeh预测具身智能将在未来五年内实现,特别是在工业领域的应用。
他提到多模态数据的整合将推动AI向更高维度发展,为AGI的实现提供新的路径。AI目前还缺少物理数据,通过VR、AR等技术收集,并结合虚拟场景训练,可加速具身智能的发展。
针对近期资本退出人形机器人公司的争议,胡鲁辉相信行业共识能够推动科技发展、人类进步,坚持长期主义很重要,亚马逊、微软等大公司的成功都源于长期坚持。因此,投资应注重长期价值。
三、GenAI应用论坛:从生活到企业,如何用AI掀起生产效率变革?
伴随着前沿模型快速迭代突破,AI应用迎来前所未有的繁荣期,快速将AI技术转化成能够解决消费级、生产级问题,带来实际价值的赋能工具。
在大会首日GenAI应用论坛上,AI平台、视频生成、智算云、AI PPT、AI搜索、AI动漫、端侧芯片领域的嘉宾代表各抒己见,剖析产业问题,畅谈落地思路,分享他们在真实应用场景中的实践经验和对未来趋势的研判。
1、枫清科技高雪峰:单一模型无法解决生产级问题,AI落地产业有三要素
枫清科技Fabarta创始人兼CEO高雪峰认为,单一产品、技术或模型难以解决复杂的生产级问题,只有将各类AI技术落地在企业、产业之中,带来真正的高价值场景,融合为生态系统,才能让AI技术更富有生命力、更繁荣。
AI技术在产业中落地,有三个关键要素:知识引擎、行业大模型、智能体平台。要把生成式AI技术应用到产业端,最需要实现决策智能。
枫清科技采取了以数据为中心的AI平台架构落地的范式,还推出知识引擎和行业大模型双轮驱动的智能体平台,帮助企业实现多场景价值落地。该平台通过多模态数据存储和计算,智能化构建企业知识库,支持精准推理和复杂推理能力。
▲枫清科技Fabarta创始人兼CEO高雪峰
2、爱诗科技孙伟哲:视频模型需兼顾趣味与速度,帮每个人成为生活的导演
爱诗科技是全球最早训练视频生成大模型的团队之一,正以高频的技术研发节奏,进行底层模型的迭代。爱诗科技企服负责人孙伟哲分享说,针对短视频时代用户习惯的特点,打造视频生成模型需要兼顾趣味与速度,前者能促进用户的关注与传播,而后者则是提升用户体验的关键。
语言曾经是传递信息的最好介质,但目前我们接受的大部分信息都来自于视频。全球视频创作需求已大量涌现,日均视频播放量达800亿次,企业也需要通过AI技术实现视频内容生产的降本增效。爱诗科技希望通过视频生成技术,实现创作平权,帮助每个人成为生活的导演。
爱诗科技的PixVerse是全球最早实现千万级MAU的视频生成产品,并同步发力B端业务,利用视频生成技术,为企业客户在数字营销、信息流广告、短剧创作与出海、游戏设计与开发等领域提供助力,并提供了持续、精准的运营服务。
▲爱诗科技企服负责人孙伟哲
3、GMI Cloud King Cui:推理服务成AI出海关键支撑,及时弹性扩容是核心性能
GMI Cloud亚太区总裁King Cui谈道,基础模型能力提升和开源生态的丰富,为AI应用爆发提供了核心必要条件,这背后,为中国AI产品出海提供关键支撑的就是推理算力。
AI应用往往会出现用户规模和访问量短期暴涨等现象,因此提供及时性、扩展性、稳定性的推理服务至关重要。
GMI Cloud的目标是打造更高性能的GPU推理云服务,支持全球范围自动扩缩容、一键部署推理模型、搭载自动容错机制等。
▲GMI Cloud亚太区总裁King Cui
4、像素绽放PixelBloom蒲世林:AI带来的效率革新符合发展趋势,需理性拥抱
像素绽放PixelBloom(AiPPT.com)联合创始人蒲世林谈道,随着底层算力和模型层成本的显著下降,AI应用层迎来全面爆发的机遇。
像素绽放PixelBloom在AI PPT领域,通过ToC、To Partner ToC、ToB三种商业化路径,既直接服务消费者,也与头部企业合作提升办公效率;同时还开放API能力,与联想、钉钉等硬件和软件厂商深度集成,构建开放生态,覆盖办公人群。
在进军海外市场时,AiPPT.com注重做好本土化,提供多语言版本和本地化模板,满足不同国家的市场需求,还通过孵化和并购来扩展产品矩阵。
在蒲世林看来,AI技术带来的效率革新符合人类发展趋势,企业需理性拥抱AI,不低估但也别期待过高,通过实际应用探索能力边界,以抓住未来十年的AI红利。
▲像素绽放PixelBloom(AiPPT.com)联合创始人蒲世林
5、博查AI翁柔莹:AI比人类更需要搜索引擎
博查AI搜索联合创始人兼CTO翁柔莹认为,AI时代,用户的搜索习惯已由“关键词搜索”转变为“自然语言对话”,内容的生产、流动、消费也在发生变化,在AI为用户整理、总结信息的过程中,内容的消费主体已经变成了AI。
AI大模型的训练数据存在滞后性,必须通过联网搜索来获取最新的内容,才能为用户提供更好的信息服务,从这一角度来看,AI比人类更需要搜索引擎。
为AI打造的搜索引擎与传统搜索引擎在架构上有相似之处,依旧需要实时获取高质量信息。博查采用多模态混合搜索和语义排序技术,能突破传统搜索引擎的技术瓶颈,满足大模型对于高质量世界知识的需求,还打造了全球首个多Agent架构的智能体搜索,为AI提供专业领域知识。
▲博查AI搜索联合创始人兼CTO翁柔莹
6、中文在线周立强:AI降低动漫短剧门槛,制作成本降低50%
中文在线AI动漫部总经理周立强谈道,中国AIGC应用市场正在加速发展,预计2024年至2028年年均复合增长率将超过30%。作为劳动密集型行业,动漫领域正受到AIGC相关工具的深刻影响。
传统动漫短剧制作通常包含原文理解、剧本改写等11个环节,而AI已将流程压缩至设定理解、生图合成、后期处理等5个步骤。AI动漫短剧的优势在于具备跨国传播能力、支持工业化量产,且制作成本显著下降——单部作品的制作周期可缩短70%,成本降低约50%。
周立强指出,AI动漫短剧已逐步突破单一流量变现阶段。预计未来三年,掌握AIGC全链路能力的团队有望占据全球短剧市场30%以上的份额。
▲中文在线AI动漫部总经理周立强
7、光羽芯辰周强:端侧AI的发展促使手机架构变革,可能孕育出新的大型公司
光羽芯辰创始人兼董事长周强谈道,过去几年,AI经历了从低谷到高峰的周期,AI创新的核心在于实用性,只有当技术可用且有价值时,市场关注度才会提升。
早期AI应用多局限于云端,而端侧AI的兴起使AI能够深入生产生活各领域,比如应用到工厂的机器人上,显著提升生产力。大模型的出现增强了AI能力,但也暴露了硬件性能不足的问题。
端侧AI需要新的技术架构以降低功耗、提升性能和带宽。以手机为例,随着AI未来的发展趋势,智能手机将进化为AI手机,将集成更多端侧数据,成为所有智能终端的中心,光羽芯辰的端侧芯片以及创新的解决方案和架构将极大的助力这一变革。
▲光羽芯辰创始人兼董事长周强
8、Zilliz郭人通:对于Agent构建,我们如何有效支持海量数据检索,挖掘隐藏于长尾的高价值信息?
Zilliz关注如何有效检索海量数据,发掘隐藏于长尾的高价值信息。在OpenAI发布Deep Research功能之后,Zilliz也尝试了复刻。
据Zilliz合伙人、产品总监郭人通分享,对于Deep Research这类Agent系统,在数据基础设施层面需要在数据建模、部署、缓存、多租、冷热数据处理等方面做好优化,聚焦信息检索质量,提高单位成本可支撑的检索迭代轮次,以保证 Agent 对问题的理解度以及对信息的挖掘深度。Zilliz目前已提供系统性解决方案。
对于提高查询质量,目前有一系列经过生产验证的方法,包括查询改写,如多查询条件生成、查询拆解、意图识别等,这有助于突破传统RAG技术的搜索局限性。此外,带正负样本的查询增强、多模态搜索也能有效提升搜索质量。
目前,许多企业已切入垂直Agent方向,海量领域数据也引发数据Infra的变革,基于S3构建的数据Infra正逐渐获得更多企业用户的选用。今年下半年,Zilliz将推出面向AI应用的数据湖解决方案,从五月开始,Zilliz会面向业界进行介绍,敬请关注。
▲Zilliz合伙人、产品总监郭人通
四、大模型峰会:判趋势,剖解法,全面直击算法、算力、数据挑战
大会第二天举行的大模型峰会,更加聚焦于大模型产业链底层技术,从模型、中间件、云服务、知识图谱、存储、网络、芯片、数据平台等多维度切入,探讨突破大模型算法、算力、数据关键瓶颈的可行路径。
现场,焱融科技首次发布了KV Cache在推理场景性能优化数据。实测数据显示:在长上下文场景中,使用YRCloudFile KVCache可实现高达13倍的TTFT性能提升,延时缩短超4倍。
1、上交大戴国浩:全面直击云边端不同场景推理需求挑战,半分离式方案下周开源
上海交通大学副教授、无问芯穹联合创始人戴国浩谈道,真正能模仿人类智力的模型往往是推理需求,但现有云侧和端侧很难满足模型推理需求。
云侧有PD融合式、PD分离式两种技术路线,其中,PD融合式的技术路线将计算和存储进行融合的好处是内存利用率更高、无需传递KV cache,但缺点是不同任务间干扰大;PD分离式技术路线,将计算和存储资源分离的好处是计算单元容易隔离、抗干扰,但存储冗余和不均衡会带来额外开销。
因此,无问芯穹取长补短打造半分离式方案Semi-PD,实现计算分离存储融合,Semi-PD将于一周后开源整体代码,月底开源整个集群代码,Semi-PD在一体机和分布式集群推理等场景下将带来显著性能提升。
其端侧思路是通过轻量化方式让终端负载变小,SpecEE技术引入机器学习、模型自适应等,可以判断是否在级联结构当前层输出了正确结果。该技术能无感兼容任何端侧轻量化方案,整套代码将在本月开源。
▲上海交通大学副教授、无问芯穹联合创始人戴国浩
2、智澄AI胡鲁辉:人形机器人“不好用”,与大模型数据挑战有差别
智澄AI创始人兼CEO胡鲁辉认为,机器人将是未来AI生态中的重要组成部分,物理智能有望成为AI的下一波浪潮,实现更广泛的通用人工智能。目前人形机器人泛化能力较差,直接导致成本高昂,归根结底就是“不好用”。
与大模型一样,物理智能面临着数据、模型、环境、算力等方面的挑战,但挑战的内核有所区别。物理智能可用的数据量更少,需要在“机器人训练场”中采集数据,机器人端侧算力限制也对模型能效提出了要求。
智澄AI从世界模型的研发与人形机器人本体的打造两个角度切入,打造的TR4机器人能以视觉+力度感知的方案实现物体抓握,无需依赖触觉。
▲智澄AI创始人兼CEO胡鲁辉
3、焱融科技张文涛:高性能全闪存储在训练与推理中如何破解AI算力瓶颈?
焱融科技CTO张文涛分享说,针对大模型训练和推理的存储解决方案,焱融科技通过Multi-Channel技术聚合多个网卡、带宽等,提供高性能内核私有客户端,能够满足高性能元数据访问需求,为企业提供高效、灵活的存储支持。
焱融科技在数据管理方面,采取智能分层和数据加载功能来优化管理流程。此外,焱融科技顺势推出的DataInsight数据编排管理平台,帮助企业解决其应用AI大模型中的海量历史业务数据管理难题;支持多维度组合查询,实现百亿级数据秒级检索。通过自研DataFlow技术,用户可自定义数据流动策略,确保数据按需、快速嵌入业务流程。平台还具备增量数据自动感知能力,保障用户从知识库平台访问时获取最新数据,进一步提升数据流动效率。
在运维方面,焱融科技通过提供目录集来做好多租户管理和隔离,并设置了弹性数据网络,使一套存储能够支持多种网络平面,并帮助管理员简化基础设施建设。
其产品性能出色,依托于分布式元数据集群能够支撑千亿级海量文件,能够支持高速无损网络及多种接口,还适配多个国产化平台。在本届大会上,焱融科技还首次发布了KV Cache在推理场景性能优化数据。
实测数据显示:在长上下文场景中,使用YRCloudFile KVCache可实现高达13倍的TTFT性能提升。在TTFT≤2秒的严苛约束下,其支持的并发数提升达8倍,且在高并发负载中延迟可降低4倍以上。张文涛谈到YRCloudFile KVCache可构建PB级KVCache缓存层,有效突破GPU显存限制,显著提升缓存命中率与推理上下文长度。
▲焱融科技CTO张文涛
4、Zenlayer陈秀忠:token洪流下算力网络三大趋势,实时交互、分布式推理、高效IDC
Zenlayer行业拓展总监陈秀忠谈道,token是大模型世界的基础单位,过去8个月,token使得整个网络世界流量增长,达到移动互联网时代的3~4倍。
token的整个生命周期包括AI工厂生产,再经网络传输给用户,其在生产过程需要大量算力和电力,在传输和消费环节需要靠近用户的推理节点实现即时交互。
在token洪流下,未来的三个演进趋势包括实时交互的全球网络、分布式推理的易用模型服务、高效的IDC。基于此,Zenlayer构建了覆盖全球的专线网络、覆盖亚太地区的AI机房、在现有边缘节点推出模型服务等。
▲Zenlayer行业拓展总监陈秀忠
5、清程极智师天麾:如何打造国产模型与国产算力间的桥梁?
清程极智联合创始人、产品副总裁师天麾分享说,在DeepSeek、QwQ等国产推理模型爆火之后,大模型私有化部署需求大幅度增加。在国外算力获取困难、国产显卡软件生态不完善的背景下,打造连接国产模型与国产算力的桥梁尤为迫切。
清程极智已联合清华大学开源了赤兔推理引擎,支持在非Hopper架构设备(如早期大部分英伟达GPU和大部分国产芯片)上原生运行FP8模型,打破硬件绑定,提升算力使用效率,并能有效保留模型原有精度。
目前清程极智基于赤兔引擎推出多款大模型私有化部署方案,可根据不同场景需求提供针对性解决方案,结合企业业务,提供从私有化部署到智能体开发的一站式服务。
▲清程极智联合创始人、产品副总裁师天麾
6、首都在线张振宇:以全栈国产化为特色,助攻生成式AI规模化落地
首都在线集团智算产品总经理张振宇谈道,随着DeepSeek爆火,AI大模型国产化趋势正在加速,推理市场将迎来大规模增长。首都在线后续也会更聚焦于推理算力的布局。
此前首都在线智算云已成功应用于多个生成式AI场景,如自然语言处理、图像生成、视频生成等,公司今年将持续优化“一云多模、一云多芯、一云多池”的战略布局,去构建高度灵活的AI服务平台,我们的平台不断拓展支持的模型种类,为用户提供更丰富的选择,满足不同场景需求。
首都在线Maas云平台通过构建云端协同调优体系,以算力效能优化为基础、模型即服务(MaaS)平台为核心,为AI开发者及算力伙伴带来创新性升级,形成了闭环式技术解决方案,不仅有效提升了GPU利用率,降低了训练成本,能够为客户提供更加高效、灵活、低成本的算力服务,还为大模型从实验室走向产业化提供了关键技术支撑。
▲首都在线集团智算产品总经理张振宇
7、海致科技李思宇:以图为核心,打通大模型与多模态行业知识
海致科技技术总监李思宇谈道,大模型实际项目落地的Prompt提示词工程,RAG检索召回增强、Agent Function/Tool Call、SFT监督微调训练四种基本方法,其关键是让大模型结合多模态行业知识。
针对此,海致科技的思路是统一知识与数据认知,其解决方案以图为核心,结合工具将标量数据和向量数据打通形成有机整体。
通过将大模型与知识图谱融合,海致科技形成了基础模型层、语义知识层、逻辑图谱层、智能体应用层,可基于基础模型、元数据知识体系,在应用层之上构建智能体、工作流。
实际落地中,其解决方案接入警情案件等五情数据,可融合跨不同事件、不同情报数据,形成完整事件对象关系图再以此进行信息挖掘,实现汇聚非结构化和结构化数据的整体图谱。
▲海致科技技术总监李思宇
8、中昊芯英朱国梁:Scaling Law延续下的AI芯片软件栈重构
中昊芯英软件研发负责人朱国梁介绍,目前,Scaling Law正沿着测试时计算、强化学习与预训练三条路径延续。需要不断重构AI芯片软件栈来满足新的算力挑战。
对大部分厂商而言,超大Batch-Size依旧是优先事项,下一个Transformer级别的架构尚未出现。
目前在推理方向优化,探索方向包括KV缓存卸载、PD分离、稀疏注意力和MoE通信优化等。
强化学习方面,随着强化学习两阶段训练的范式形成,训练和推理协同调度需求不断增长。
预训练方面,需要在训练通信特征、训练通算重叠与训练容错等方面对现有软件栈做出修改。
▲中昊芯英软件研发负责人朱国梁
9、澳鹏董成:大模型愈往垂类应用端发力,对数据质量要求愈高
澳鹏Appen中国及韩国区副总裁董成通过澳鹏在各领域大模型部署中数据训练的最佳实践,重点分享了对大模型应用趋势的观察。以AI Agent为代表,未来,大模型必定应用到具体的垂直领域中,比如金融、医疗、代码、音乐、文学等。
这一趋势对数据的高质量、专业度、多垂类提出了越来越高的要求。对此,澳鹏提供了多种AI辅助的前沿数据采标工具和方案,包括文本对话、多模态交互、思维链推理工具等。
董成认为,AI大模型行业正经历显著变化,Llama和DeepSeek等开源模型在性能上逐渐赶上甚至超过闭源模型,一些企业也从闭源向着开源方向转变。同时,大模型企业的研发越来越关注复杂任务方向,从最初的简单对话向模型推理、垂直领域应用、多模态等方向发展。
▲澳鹏Appen中国及韩国区副总裁董成
10、云轴科技王为:AI实践应用分四级,基础设施构建面临四大挑战
云轴科技CTO王为解读了当前AI基础设施构建面临的挑战,包括模型尺寸增加、上下文窗口增加、全模态支持、多品牌算力支持等。
类比自动驾驶,AI实践可对应作为工具、作为参考建议、主导到端到端实践的L1~L4级别。云轴科技已在AI辅助售后、代码、文档等方面有所应用。其中AI辅助售后、代码辅助处于参考建议阶段,辅助文档为主导阶段,这背后凸显出诸多基础设施的构建难题。
AI赋能企业内部的技术架构需要稳固的智算底座、模型层,以及包含易用开发、性能评测等工具的运营与应用层。模型层的资源管理员主要关注底层资源使用情况,开发者只需直接导入模型做精调、推理等赋能业务。
▲云轴科技CTO王为
11、Alluxio汤文军:AI时代,高性能分布式缓存如何实现极致I/O优化?
Alluxio解决方案架构师汤文军分享说,企业在搭建和优化AI高性能数据访问平台时,面临着数据方面的业务压力、GPU稀缺昂贵且利用率不高、数据解决方案复杂等问题。针对这些问题,Alluxio推出了去中心化的Alluxio Enterprise AI产品方案。
具体来看,针对ML/AI GPU训练对I/O提出的诸多要求,Alluxio使用一致性哈希在worker节点上缓存数据与元数据,这显著减少了I/O RPC长度,减少单点故障并降低了Master节点性能瓶颈;优化性能时,使用零拷贝优化、并行与随机读优化,解决了读放大问题。
最终,Alluxio实现了高性能、低延迟、高可用、容量线性扩展等优化效果,这套方案可应用于数据预处理、模型训练、部署、推理等环节,已在众多场景实际落地,带来GPU利用率、运维成本等方面的显著收益。
▲Alluxio解决方案架构师汤文军
12、澎峰科技张先轶:解读AI算力部署进阶路,从一体机到专线模式
澎峰科技创始人&CEO张先轶分享说,用户在AI算力部署上的策略通常从单机部署开始,例如使用一体机。随着需求的增长,用户会逐步扩展到私有化部署,通过MaaS平台纳管更多硬件设备,并分批建设算力资源,还可以将现有服务器纳入管理,形成一种类似扩容的方案。
为了进一步提升算力利用率和数据隐私安全性,用户可以借助国产智算中心的模型的专线模式进行混合部署。这种模式不仅能提高计算中心的资源利用率,还能在保障数据隐私的同时,支持更多应用场景。从商业模式上看,专线部署采用ToB性质的计费方式。未来,用户可以在此基础上进行私有模型的微调部署,支持更多应用的开发与扩展。
▲澎峰科技创始人&CEO张先轶
五、圆桌讨论:DeepSeek给AI Infra带来新机会,国产软硬件发展正当时
圆桌讨论环节以《DeepSeek给AI Infra带来的启示与机会》 为主题,由腾讯云专有云及智算首席架构师方天戟主持,回顾了过去两个月AI从业者们围绕DeepSeek、具身智能等展开的一系列技术攻关,北京智源人工智能研究院AI框架研究负责人敖玉龙、澎峰科技创始人兼CEO张先轶、沐冰数据CTO邸泽民、云轴科技CTO王为分享了对最新产业趋势的观察与思考。
1、DeepSeek开源带来震撼,一体机可满足基础需求
腾讯云专有云及智算首席架构师方天戟强调DeepSeek具有技术创新性,基于H800在卡间通信受限的情况下,大幅压缩了大模型成本,使模型本地部署成为现实。
沐冰数据CTO邸泽民认为DeepSeek在开源周中一系列开源工作的最大的震撼在于展现了如何在资源受限的约束下,实现最优解的工程能力,充分挖掘了现有算力的潜力。DeepSeek团队不仅想到了精妙的优化技巧与方案,还完成了代码与工程实现,并将其完全开源,十分令人尊敬。
▲腾讯云专有云及智算首席架构师方天戟
谈及近期销售火爆的DeepSeek一体机,方天戟认为这有助于企业在保护数据安全的情况下快速用上DeepSeek,北京智源人工智能研究院AI框架研究负责人敖玉龙指出用户需要关注DeepSeek一体机部署后的软硬件更新问题。
云轴科技CTO王为提到DeepSeek一体机为客户提供了入门的解决方案,通过预装模型和应用降低了部署门槛,能够快速满足基础需求。但随着需求增长,客户可能需要更复杂的算力调度和混合部署方案。
2、国产芯片软硬件可用性提升,如何绕开CUDA护城河?
敖玉龙记得在2017年-2018年,他尝试将大规模并行技术运用到AI计算中,但当时相关技术尚未完善。过去几年AI Infra快速发展,有力地支持了大模型的技术进步。
在智源研究院的工作过程中,他接触到了端侧与服务器侧的大量国产芯片。目前,国产芯片的硬件、软件都已具备一定可用性,主要挑战在于生态还相对落后,为此智源打造了开源开放统一软件生态FlagOS来推动国产芯片生态发展。
▲北京智源人工智能研究院AI框架研究负责人敖玉龙
在ChatGPT爆火之后,关于DSA特定领域芯片或ASIC专用芯片是否会消亡的讨论不绝于耳。
邸泽民认为,对于特定领域的计算负载而言,与GPGPU相比,DSA具有性能,成本与能效优势。从目前趋势来看,Transformer这个模型架构的有效性经过了验证,短期内出现颠覆性变化的概率不高,那么一定会有对Transformer架构计算特点更有针对性设计的专用芯片出现,不论是采用TPU的脉动阵列、存算一体或者别的什么技术路线,ASIC够有效降低推理计算成本,只有不断降低推理成本,才更能让大模型的应用实现普惠。
▲沐冰数据CTO邸泽民
王为也提到一些优化技术在GPGPU上效率不是特别高,所以AI推理往ASIC上发展的可能性非常大。国产算力在推理上替代能力很强,在训练上还需要一定时间追赶,但应该不会太久。
王为认为,在AI训练方面,英伟达目前优势比较突出,因为通信性能、通信库等技术壁垒很高,但现在也有国产卡训练较大大参数模型的案例,因此假以时日还是可以赶上的。英伟达如今在数据发布上选择性披露,着重在低精度上、稀疏算力上等,近年披露的数据逐渐偏向商业宣传性质,详细的技术披露较少,这使得评估其真实性能需要更多测试。
▲云轴科技CTO王为
邸泽民预测在AI训练场景,GPGPU依旧将会继续占据主导地位。在他看来,国产算力如果要通过对PyTorch、TensorFlow等框架兼容,并覆盖数千个长尾算子,以实现与英伟达的CUDA护城河的竞争甚至替换,在短期内是不现实的。但如果将这种兼容与替换目标进一步收敛、聚焦到特定的模型或者特定领域的模型训练,比如DeepSeek这样的语言模型,国产厂商是有适配能力与突破空间的。除了框架与算子适配外,另一个难点在于进一步提升通信库的效率。
3、混合推理系统是必然趋势,具身智能将催化AI Infra演进
澎峰科技创始人兼CEO张先轶谈道,英伟达在硬件创新上的持续投入,使其在AI领域保持领先;英伟达在精度上的创新不断提升了性能峰值,也为其他芯片公司设立了竞争壁垒。
他判断未来在大规模部署的情况下,混合推理系统是必然的,能结合不同硬件的优势以实现更高的性价比和性能。
▲澎峰科技创始人兼CEO张先轶
在混合云部署的实践方面,张先轶认为当前对数字隐私要求不是特别高的客户比较容易接受,可以利用智算中心的算力进行补充,比如一些学校或中小B端。大B端通常对私有化要求会更高。当前做AI机器人的企业,基本采用的是边缘与云端结合的方式。
方天戟预测,从长远来看,相比大语言模型,具身智能可能会成为进一步促进未来AI Infra演进的新应用领域。
敖玉龙提到具身智能机器人对端云协同、通信等方面提出了新要求,目前机器人的大脑模型往往部署在云端,控制运动的小脑模型部署在机器人本体,如何实现低延迟的协同需要进一步探索。
结语:中国生成式AI浪潮波涛汹涌
中国生成式AI的每一次突破,从来不是某家企业的独角戏,而是产学研用协同攻坚的交响曲。
开年DeepSeek的爆火,成为中国乃至世界生成式AI产业的关键拐点。它颠覆了“堆砌算力”的固有路径,开辟出一条“效率优先”的创新路径,催化开源、推理模型与AI Infra研发热潮,更为端侧AI与国产AI算力基础设施的落地应用注入了新动能。
站在技术与产业共振的历史节点,我们每一个人,都正在见证和参与一场激动人心的技术跃迁。
春天来了,生成式AI的浪潮更加波涛汹涌,未来正呼啸而至。
下一站,也许是基础模型的飞跃式进化,也许是AI超级应用横空出世,也许是人形机器人的觉醒,也许是商业价值的裂变,也许是AGI新路径的曙光。
生成式AI正以摧枯拉朽之势重塑传统产业,创新火种从未如此燎原,我们无比期待看到,中国科技企业在时代的浪尖扬帆起航。
Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.