九坤投資與微軟亞洲研究院近日刊文稱,首次成功復現了DeepSeek-R1。學術文章Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning由微軟亞洲研究院、Ubiquant及其他獨立研究人員共同撰寫。該文章首次成功復現了DeepSeek-R1,特別是其在強化學習領域的成果,同時在技術層面提出了創新性的見解。
文章標題“Logic-RL:通過基於規則的強化學習釋放LLM推理”,文中介紹稱:“受到DeepSeek-R1成功的啓發,我們探索了基於規則的強化學習(RL)在大型推理模型中的潛力。爲了分析推理動態,我們使用合成邏輯謎題作爲訓練數據,因爲它們的可控複雜性和直截了當的答案驗證。我們做出了幾個關鍵的技術貢獻,這些貢獻導致了有效和穩定的RL訓練:一個強調思考和回答過程的系統提示,一個嚴格的格式獎勵函數,該函數對採取捷徑的輸出進行懲罰,以及一個實現穩定收斂的簡單訓練配方。我們的7B模型發展了先進的推理技能,如反思、驗證和總結,這些技能在邏輯語料庫中是缺失的。值得注意的是,在僅訓練了5K個邏輯問題後,它展示了在具有挑戰性的數學基準AIME和AMC上的泛化能力。”
公開資料顯示,九坤投資(北京)有限公司成立於2012-04-12,註冊資本3,000萬元人民幣,全職員工人數167,管理規模區間100億元以上。公司出資人王琛 、姚齊聰、青島坤泰九方股權投資合夥企業(有限合夥)、青島九盈股權投資合夥企業(有限合夥),持股比例分別爲17%、17%、33%、33%。
九坤在人才上在很用心,此前還過九坤投資連高中生都“搶”的報道,九坤投資會通過打造自主量化新星挑戰賽、Ubiquant Challenge Day、Ubiquant Tech技術圓桌派等活動,從多渠道發掘優秀的策略和算法人才,2017年-2022年共計有超40位參賽選手成爲九坤投資的正式員工。九坤投資董事長王琛,此前也曾表示,在新的時代隨着AI技術與中國數字經濟的發展,更多多元化的另類基本面數據會成爲量化最主要的信息來源和投資者研究的數據來源,這些數據如何進行投資賦能,這裏面需要大量的新技術的應用。
業內人士表示,量化巨頭九坤投資和微軟成功復現DeepSeek-R1,長期看,與微軟、九坤等機構的協同創新可能推動DeepSeek從單一模型提供商向跨領域AI解決方案平臺升級。未來需重點關注技術落地場景的深度挖掘,以及產學研合作模式的持續優化。
責任編輯:石秀珍 SF183
免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。