智通財經APP獲悉,OpenAI離AGI(artificial general intelligence,通用人工智能)似乎又更近了一步。上週五,在“OpenAI 12天活動”的第12天,OpenAI首席執行官薩姆·奧特曼宣佈了其最新的人工智能“推理”模型o3和o3-mini,這兩款模型是在今年早些時候推出的o1模型的基礎上開發的。OpenAI聲稱,至少在某些條件下,o3模型可以接近實現AGI。
OpenAI在9月份推出了o1系列大模型,他們上週五推出o3系列,在命名上就越過了o2,沒有遵循數字一樣的連續命名方式。對於越過o2,有報道稱可能是爲了避免和英國電信運營商O2在命名上產生紛爭。而在當天的直播中,薩姆·奧爾特曼承認了他們在命名上的不足,他表示基於OpenAI不太擅長命名的傳統,新的大模型被命名爲o3。
同9月份推出的o1系列大模型一樣,OpenAI新宣佈的o3系列大模型也有o3和o3 mini兩款,不過尚未正式發佈,o3 mini是預計會在明年年初發布。
從OpenAI方面公佈的消息來看,o3大模型在測試中的表現明顯強於他們之前推出的大模型,在部分測試中的表現已經達到了人類的水平。
在ARC-AGI測試中,o3在低推理能力設置下的得分達到了75.7%,是o1的3倍,在高推理能力設置下則是高達87.5%,超過了85%的人類門檻。
在數學推理及解決問題的能力方面,o3也表現不俗,在2024年AIME測試中,o3的準確率達到了96.7%。
在編碼和軟件工程方面,o3的能力較o1也有大幅提升,在SWE-Bench認證中,o3的得分爲71.7%,較o1提升了22.8個百分點。
值得注意的是,有報道提到,在Codeforces的測試中,o3的得分爲2727,比OpenAI首席科學家的得分還高。Codeforces是一家爲計算機編程愛好者提供在線評測的網站,是一個面向程序員的在線競賽平臺。
除了OpenAI,各家AI公司近期也紛紛發佈推理模型。
11月16日,月之暗面(Moonshot AI)Kimi推出新一代數學推理模型k0-math;11月20日,DeepSeek發佈了首個推理模型DeepSeek-R1-Lite預覽版;11月28日,阿里雲通義團隊發佈全新AI推理模型QwQ-32B-Preview。
在當地時間12月19日,谷歌也發佈首個推理模型Gemini 2.0 Flash Thinking。它使用了類似o1模型的慢思維思考方式,可以深度可視化展示整個思維鏈過程,尤其是在執行數學、編程等複雜問題方面。相比o1,Gemini 2.0 Flash Thinking的最大差別是,讓用戶能看到一步一步推理的過程,更清晰、更透明地瞭解模型如何得出結論。它剛亮相就登上了Chatbot Arena大模型評估的榜首。不過,谷歌的這一新模型還處於實驗性階段,只是一個早期版本。
國金證券認爲,從中美資本市場AI產業鏈的表現看,此前持續表現強勁的是上游,近期表現強勢的是AI應用。從落地方向上看,綜合考慮成本與付費能力,可能先行的是To B方向降本增效,生產力工具可能先行,然後是To C的大用戶量工具、圖文級別的社交娛樂類產品、海量的多媒體娛樂產品。展望未來,隨着大模型使用成本持續下降、中文語言模型能力繼續提升背景下,落地應用有望加速,中國企業有文化基礎、數據積累、場景理解、工程應用、客情關係等優勢,有機會形成自己的產業龍頭。
申萬宏源稱,北京時間2024年12月21日,OpenAI在連續12發佈會收官之日宣佈了o3系列模型, 包括o3和o3 mini,較o1 模型再一次突破AI 極限。近階段大模型啓示:1)大模型進展從預訓練端轉變爲推理端;2)大模型進入Agent爆發時代;3)利好推理端算力需求;4)應用方面圍繞解決複雜任務能力的出現,利好科學研究、編程軟件開發、辦公軟件、醫療健康、金融等領域。
港股相關概念股:
創新奇智(02121):公司“AI+製造業”的持續驅動力充足。公司從2023年開始,實施AI1.0和AI2.0雙塔發展,AI2.0逐步推出ChatX系列垂類大模型的應用落地和預研,並在今年3月底發佈了AnnoGC-75B工業大模型(750億參數),在15B大模型的基礎上增加了多模態。目前ChatX已包括ChatBI,ChatDoc,Chatvision,ChatCAD和Chatrobot等5大主要落地產品。公司9大細分領域覆蓋公司的工業軟件,數智軟件,工業物流,智能裝備和工業可持續五大場景,ChatBI已在食品飲料智造領域的工業軟件和數智軟件場景規模落地,ChatDoC和Chatvision在工業可持續場景規模落地。ChatCAD在CAD工業設計領域想象空間更大,通過大模型可以改寫傳統CAD設計模式,通過文字,語言直接進行CAD設計,大幅提升CAD設計效率,預計今年公司開始ChatCAD的落地實踐工作。ChatRobot是大模型驅動工業機器人自動任務編排,驅動和實施工作部署,公司在大模型發佈會上已做了現場演示,雖然還在預研驗證階段,但已初步具備工業應用的落地前景,潛力大。
百度集團-SW(09888):百度文心大模型截至2024年11月的日均tokens(token是大模型文本處理的最小單位)調用量超過1.5億次,比一年前的5000萬次實現了約30倍的增長,文心一言用戶量達到7000萬。
阿里巴巴-SW(09988):阿里雲在5月初發布的通義千問2.5,得分就追平GPT-4 Turbo。目前,阿里已經投資了Minimax、月之暗面、零一萬物、智譜AI、百川智能等國內主流大模型創業公司。
商湯-W(00020):公司在2024年的上交會上展示了其最新的醫療健康大模型——“大醫”,這一模型代表了商湯在醫療AI領域的最新成果。在專業醫學任務評測中,“大醫”在檢驗檢查問答、電子病歷生成、線上問診、導診、隨訪、輔助診斷決策等多項醫療任務上的表現已超越GPT-4。
中興通訊(00763):公司重視在人工智能領域佈局與投入,憑藉領先的軟硬件數智基座能力,提供端到端的智算解決方案,包括智算基礎設施、AI軟件平臺、大模型及應用,滿足不同場景需求,助力企業數智化轉型。
免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。