((自動化翻譯由路透提供,請見免責聲明 ))
*
人工智能公司在訓練新的大型語言模型時面臨延誤和挑戰
*
一些研究人員正專注於爲新模型的推理提供更多時間
*
這種轉變可能會影響人工智能對芯片和能源等資源的軍備競賽
Krystal Hu/Anna Tong
路透11月11日 -
像OpenAI這樣的人工智能公司正在尋求通過開發更像人類的算法 "思考 "方式的訓練技術,來克服在追求越來越大的大型語言模型 (),從而克服意想不到的延遲和挑戰。
人工智能科學家 ()、研究人員和投資者告訴路透
這些技術(OpenAI 最近發佈的 o1 模型背後的技術)可能會重塑人工智能軍備競賽的格局,並對人工智能公司貪得無厭的資源類型產生影響、
但現在,一些最傑出的人工智能科學家正在直言不諱地指出這種 "越大越好 "理念的侷限性。
人工智能實驗室 Safe Superintelligence$(SSI)$ 和 OpenAI 的聯合創始人伊利亞-蘇茨克沃爾(Ilya Sutskever)最近對路透說,擴大預訓練的結果
- 預訓練
訓練人工智能模型的階段所取得的成果。
s
使用大量未標記數據來理解語言模式和結構的人工智能模型的訓練階段的結果
-
已趨於穩定。
Sutskever
被廣泛認爲是早期倡導者,他主張通過在預訓練、計算和分析中使用更多的數據和計算能力來實現生成式人工智能的巨大飛躍。
這最終創造了 ChatGPT。Sutskever 於今年早些時候離開 OpenAI,創辦了 SSI。
"2010 年代是規模化時代,現在我們再次回到了奇蹟和發現的時代。每個人都在尋找下一件事,"Sutskever 說。"現在比以往任何時候都更需要擴展正確的事情。
Sutskever 拒絕透露他的團隊如何解決這個問題的更多細節,只是說 SSI 正在研究一種擴大預訓練規模的替代方法。
在幕後,據熟知內情的消息人士透露,各大人工智能實驗室的研究人員在競相發佈大型語言模型的過程中,一直在遭遇延遲和令人失望的結果。
據三位熟悉私人事務的消息人士稱,在發佈大型語言模型的競賽中,實驗室一直在拖延,結果令人失望。
大型模型的所謂 "訓練運行
大型模型的所謂 "訓練運行 "通過同時運行數百個芯片,可以節省數千萬美元。由於系統非常複雜,它們更容易出現硬件故障;研究人員可能要到運行結束後才能知道模型的最終性能,而這可能需要幾個月的時間。
另一個問題是,大型語言模型會吞噬大量數據,而人工智能模型已經
人工智能模型已經耗盡了世界上所有容易獲取的數據 ()。電力短缺也阻礙了訓練運行,因爲訓練過程需要大量能源。
爲了克服這些挑戰,研究人員正在探索 "測試時間計算 "技術,這種技術可以在所謂的 "推理 "階段或使用模型時增強現有的人工智能模型。例如,模型可以實時生成並評估多種可能性,最終選擇最佳前進路徑,而不是立即選擇單一答案。
這種方法
可以讓模型將更多的處理能力用於具有挑戰性的任務,如數學或編碼問題,或需要像人類一樣進行推理和決策的複雜操作。
"上個月在舊金山舉行的 TED 人工智能大會上,參與 o1 研究的 OpenAI 研究員諾姆-布朗(Noam Brown)說:"事實證明,讓機器人在一手撲克牌中思考 20 秒鐘,與將模型放大 10 萬倍、訓練時間延長 10 萬倍所獲得的提升性能是一樣的。
路透今年 7 月首次報道
,OpenAI 在其新發布的名爲 "o1 "的模型中採用了這一技術
,該
模型的前身是 Q* 和 草莓 (link) 。O1 模型可以通過多步驟的方式 "思考 "問題,類似於人類的推理。 它還涉及使用從 博士和行業專家 (link) 。o1 系列的祕訣是在 GPT-4 等 "基礎 "模型的基礎上進行另一套訓練,該公司表示計劃將這一技術應用到更多、更大的基礎模型中。
與此同時,其他頂級人工智能實驗室的研究人員,包括 Anthropic、xAI 和谷歌 DeepMind研究人員,也在努力開發他們自己版本的技術。
熟悉這些工作的人說。
"W
我們看到了很多低垂的果實,我們可以去摘取,讓這些模型迅速變得更好,"OpenAI 首席產品官凱文-威爾(Kevin Weil)在 10 月份的一次技術會議上說。"等到人們追上來的時候,我們會努力再領先三步。"
谷歌和 xAI 沒有回應置評請求,Anthropic 也沒有立即發表評論。
這些影響可能會改變人工智能硬件的競爭格局,到目前爲止,對Nvidia(Nvidia)人工智能芯片的狂熱需求一直佔據着主導地位。從紅杉(Sequoia)到安德森-霍洛維茨(Andreessen Horowitz)等著名風險投資人都已投入數十億美元,資助包括 OpenAI 和 xAI 在內的多個人工智能實驗室開發昂貴的人工智能模型。
"紅杉資本(Sequoia Capital)合夥人黃索尼婭(Sonya Huang)告訴路透:"這一轉變將使我們從大規模預訓練集羣的世界轉向推理雲,即分佈式、基於雲的推理服務器。 對 Nvidia 最前沿的人工智能芯片的需求推動其躍升爲全球最有價值的公司,並在今年 10 月超過了蘋果。與Nvidia主導的訓練芯片不同,這家芯片巨頭可能在推理市場面臨更多競爭。
該公司首席執行官黃仁勳(黃仁勳)曾談到,使用其芯片進行推理的需求不斷增加。
"我們現在發現了第二個縮放定律,這就是推理時的縮放定律......所有這些因素都導致對 Blackwell 的需求高得驚人,"黃仁勳上個月在印度的一次會議上說,他指的是該公司最新的人工智能芯片。
免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。