新浪科技訊 2月12日晚間消息,在中國AI公司的影響下,OpenAI 公開了O系列強化學習的祕密。今天(2月12日),OpenAI發佈了關於推理模型在競技編程中應用的研究論文報告《Competitive Programming with Large Reasoning Models》,文中放出了OpenAI三個推理模型:o1、o1-ioi、o3在IOI(國際信息學奧林匹克競賽)和CodeForces(全球知名在線編程競賽)中的成績。
論文顯示,在IOI 2024中,o3在嚴格規則下拿到395.64分,達成金牌成就,並且在CodeForces上的表現與人類精英選手相當。論文中特別提到,中國的DeepSeek-R1和Kimi k1.5通過獨立研究顯示,利用思維鏈學習(COT)方法,可顯著提升模型在數學解題與編程挑戰中的綜合表現。R1、k1.5是DeepSeek和Kimi在1月20日同時發佈的新型推理模型。
該論文通過強化學習(RL)訓練的大型語言模型在複雜編碼和推理任務上的性能提升,比較了通用推理模型與針對特定領域優化的系統在競技編程中的表現。研究結果表明,增加強化學習訓練計算和測試時計算可顯著提升模型性能,使其接近世界頂尖人類選手,這些模型將在科學、編碼、數學等領域的AI應用中解鎖新的應用體驗。(文猛)
責任編輯:王若雲
免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。