九坤投资与微软亚洲研究院近日刊文称,首次成功复现了DeepSeek-R1。学术文章Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning由微软亚洲研究院、Ubiquant及其他独立研究人员共同撰写。该文章首次成功复现了DeepSeek-R1,特别是其在强化学习领域的成果,同时在技术层面提出了创新性的见解。
文章标题“Logic-RL:通过基于规则的强化学习释放LLM推理”,文中介绍称:“受到DeepSeek-R1成功的启发,我们探索了基于规则的强化学习(RL)在大型推理模型中的潜力。为了分析推理动态,我们使用合成逻辑谜题作为训练数据,因为它们的可控复杂性和直截了当的答案验证。我们做出了几个关键的技术贡献,这些贡献导致了有效和稳定的RL训练:一个强调思考和回答过程的系统提示,一个严格的格式奖励函数,该函数对采取捷径的输出进行惩罚,以及一个实现稳定收敛的简单训练配方。我们的7B模型发展了先进的推理技能,如反思、验证和总结,这些技能在逻辑语料库中是缺失的。值得注意的是,在仅训练了5K个逻辑问题后,它展示了在具有挑战性的数学基准AIME和AMC上的泛化能力。”
公开资料显示,九坤投资(北京)有限公司成立于2012-04-12,注册资本3,000万元人民币,全职员工人数167,管理规模区间100亿元以上。公司出资人王琛 、姚齐聪、青岛坤泰九方股权投资合伙企业(有限合伙)、青岛九盈股权投资合伙企业(有限合伙),持股比例分别为17%、17%、33%、33%。
九坤在人才上在很用心,此前还过九坤投资连高中生都“抢”的报道,九坤投资会通过打造自主量化新星挑战赛、Ubiquant Challenge Day、Ubiquant Tech技术圆桌派等活动,从多渠道发掘优秀的策略和算法人才,2017年-2022年共计有超40位参赛选手成为九坤投资的正式员工。九坤投资董事长王琛,此前也曾表示,在新的时代随着AI技术与中国数字经济的发展,更多多元化的另类基本面数据会成为量化最主要的信息来源和投资者研究的数据来源,这些数据如何进行投资赋能,这里面需要大量的新技术的应用。
业内人士表示,量化巨头九坤投资和微软成功复现DeepSeek-R1,长期看,与微软、九坤等机构的协同创新可能推动DeepSeek从单一模型提供商向跨领域AI解决方案平台升级。未来需重点关注技术落地场景的深度挖掘,以及产学研合作模式的持续优化。
责任编辑:石秀珍 SF183
Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.