專題:DeepSeek爲何能震動全球AI圈
當前,全球AI社區正在瘋狂熱議一種新的開源推理模型DeepSeek R1。
該模型由中國AI初創公司DeepSeek開發,該公司聲稱R1在多個關鍵基準上與OpenAI的ChatGPT o1相媲美,甚至還有所超越,但成本只是後者的一小部分(有報道稱約爲3%至5%)。
美國埃默裏大學(Emory University)信息系統助理教授Hancheng Cao表示:“這可能是一個真正的均衡突破,對資源有限的研究人員和開發人員來說是件好事,尤其是來自南半球的研究人員。”
考慮到硬件等資源方面的限制,DeepSeek的成功更加引人注目。DeepSeek等初創公司正以優先考慮效率、資源共享和協作的方式進行創新。
DeepSeek前員工、現任美國西北大學(Northwestern University)計算機科學博士生Zihan Wang表示,爲了創建R1,DeepSeek不得不重新設計其訓練過程,以減輕其GPU的壓力。
DeepSeek R1因其處理複雜推理任務的能力而受到研究人員的稱讚,特別是在數學和編碼方面。該模型採用了一種類似於ChatGPT o1的“思維鏈”方法,通過逐步處理查詢來解決問題。
微軟AI前沿研究實驗室的首席研究員Dimitris Papailiopoulos表示,R1最讓他驚訝的是它的工程簡單性。他說:“DeepSeek旨在獲得準確的答案,而不是詳細說明每個邏輯步驟,從而在保持高水平效率的同時顯著減少計算時間。”
DeepSeek還發布了六個較小版本的R1,這些版本足夠小,可以在筆記本電腦上本地運行。該公司稱,其中一個甚至在某些基準測試中表現優於OpenAI的o1-mini。
儘管R1備受關注,但DeepSeek仍然相對不爲人知。該公司總部位於中國杭州,由浙江大學信息與電子工程專業校友梁文峯於2023年7月創立。該公司由梁文峯在2015年創立的對沖基金幻方(High-Flyer Quant)孵化。與OpenAI的薩姆·奧特曼(Sam Altman)一樣,梁文峯的目標是建立通用人工智能(AGI),即一種可以在一系列任務上與人類匹敵甚至擊敗人類的AI。
訓練大型語言模型(LLM)需要一個訓練有素的研究人員團隊和強大的計算能力。資深企業家、谷歌中國前負責人李開復近日在接受媒體採訪時表示,只有“一線玩家”通常會參與構建ChatGPT等基礎模型,因爲它需要大量資源。
據報道,爲了訓練其模型,DeepSeek購買了10000多塊英偉達GPU,隨後又擴大到50000塊。與OpenAI、谷歌和Anthropic等領先的AI實驗室相比,這明顯相形見絀,因爲這些實驗室每個都有超過50萬塊GPU。
儘管如此,DeepSeek前員工Zihan Wang表示,他在DeepSeek工作時可以獲得豐富的計算資源,並可以自由地進行實驗,這對應屆畢業生來說是一種少有的奢侈。
梁文峯稱,除了硬件方面的限制,公司面臨的另一個挑戰是,他們的AI工程技術往往效率較低。他說:“我們(大多數中國公司)必須消耗兩倍的計算能力才能達到同樣的結果。再加上數據效率差距,這可能意味着需要高達四倍的計算力。我們的目標是不斷縮小這些差距。”
但DeepSeek找到了在不顯著犧牲準確性的情況下,減少內存使用和加速計算的方法。Zihan Wang說:“團隊喜歡把硬件挑戰變成創新的機會。”
梁文峯本人仍然深度參與DeepSeek的研究過程,與他的團隊一起進行實驗。王說:“整個團隊都有一種協作文化,並致力於核心研究。”
除了優先考慮效率,DeepSeek還越來越多地接受開源原則。阿里雲已經發布了100多個新的開源AI模型,支持29種語言,迎合了包括編碼和數學在內的各種應用。同樣,像Minimax和01.AI(零一萬物)這樣的初創公司也將他們的模型開源。
根據中國信息通信研究院(CAICT)去年發佈的一份白皮書,全球AI大型語言模型的數量已達到1328個,其中36%來自中國。這使中國成爲AI的第二大貢獻者。
塔夫茨大學(Tufts University)技術政策助理教授Thomas Qitong Cao表示:“這一代年輕的中國研究人員強烈認同開源文化,因爲他們從中受益匪淺。”
卡內基國際和平基金會(Carnegie Endowment for International Peace)的AI研究員馬特·希恩(Matt Sheehan)稱:“中國公司必須利用有限的計算資源提高效率。將來,我們可能會看到很多與缺乏計算相關的整合。”
事實上,這種情況可能已經開始發生了。兩週前,阿里雲宣佈與李開復創立的北京初創公司“零一萬物”合作,合併研究團隊,建立“工業大型模型實驗室”。
Thomas Qitong Cao說:“AI行業出現某種分工是節能和自然的。AI的快速發展要求中國企業保持敏捷才能生存。”
責任編輯:劉明亮
免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。