DeepSeek破局AI,這些希望之門即將改變世界

藍鯨財經
02-17

文|數據猿

DeepSeek能夠屹立於AI舞臺的中央,不僅在於其在大語言模型(LLM)上所取得的突破,更在於爲AI開啓了希望之門,而這也正是最大的懸念所在。

憑藉其一系列大模型,DeepSeek打破了AI大模型發展的傳統範式——使用昂貴的GPU,消耗大量電力和資源,通過訓練更大的模型,換取AI性能的線性增長。而DeepSeek R1則另闢蹊徑,藉助強化學習技術在微調環節讓模型性能實現超越。未來AI的競爭不再單純取決於資金投入,而是更注重成本效益,開啓了AI新的發展方向。

DeepSeek的崛起表明,規模並非衡量模型優劣的唯一標準,較小規模、更靈活的模型也能有出色表現,爲企業提供性能更優的選擇。

DeepSeek的成功也表明,未來表現最好的模型將是開源的,對客戶和AI開發者都有利的,有助於實現AI的大衆化。而國內外企業紛紛接入DeepSeek大模型,熱衷於用DeepSeek R1等開源模型取代OpenAI等昂貴的封閉大模型。

正像美國總統特朗普而言,DeepSeek的出現不是威脅,而是一個“巨大”的機會,爲用戶、模型推理、模型訓練、模型小型化、AI應用等創造更多的機會。未來的AI競爭可能不再僅僅是“誰有更多的錢,誰就能訓練更強的模型”,而是“誰能用更少的錢,達到相同甚至更好的效果”。

1.星火燎原,更多企業與服務接入DeepSeek開源大模

千千萬萬的應用都以DeepSeek爲基座,由此構建的生態將重塑AI產業格局。

開源就是源代碼在Web上免費提供,可以進行修改和重新分發。與OpenAI等競爭對手的大模型不同,DeepSeek的模型是開源的,其中DeepSeek R1在MIT許可下開源使用。

DeepSeek開源特性和低計算要求大大降低了成本,加速了AI的採用。用戶可以在Web、iPhone/iPad、Android、雲計算、各種軟件等上免費獲得DeepSeek應用。雲服務商可以免費接入,甚至可以推出自己的AI大模型服務。

開源模型不存在硬件和軟件護城河,開發人員非常熱衷於用DeepSeek R1等開源模型取代OpenAI昂貴的封閉模型。

“DeepSeek強大的新人工智能模型不僅是中國的勝利,也是Databricks、Mistral、Hugging Face等開源技術的勝利。”開源人工智能“不再只是一個非商業研究計劃,而是像OpenAI GPT等封閉模型的可行、可擴展的替代方案”。

DeepSeek迅速成爲全球下載量最大的應用。Gartner預測,到2026年,超過80%的企業將使用GenAI或部署GenAI應用。組織同時利用數百個模型,並面臨着爲其各種使用案例選擇最佳模型的壓力。而選擇正確的AI模型並快速部署對於獲得市場優勢至關重要。

在不同平臺上,DeepSeek下載量都取得突破,其用戶正在日益增加。在蘋果的App Store上,DeepSeek取代了競爭對手OpenAI,成爲下載量最大的免費應用程序。在另一個移動應用商店Google Play中,自1月28日以來DeepSeek下載量一直保持領先,在短短18天的下載量達到了1600萬次,幾乎是OpenAI ChatGPT剛發佈時900萬次下載量的兩倍。

開放AI模型的支持者對DeepSeek充滿熱情。基於DeepSeek-V3和R1的700多個模型現已在AI社區平臺HuggingFace上提供,下載超過了500萬次。

QuestMobile數據顯示,DeepSeek在2月1日突破3000萬大關,成爲史上最快達成這一里程碑的應用。

在國外,包括英偉達微軟亞馬遜在內的多家美國公司紛紛搶先採用DeepSeek-R1模型,爲用戶提供服務。

微軟最早將DeepSeek-R1模型被納入微軟平臺Azure AI Foundry和GitHub的模型目錄,開發者將可以在Copilot +PC上本地運行DeepSeek-R1精簡模型,以及在Windows上龐大的GPU生態系統中運行。

隨後亞馬遜雲科技AWS也宣佈,用戶可以在Amazon Bedrock和Amazon SageMaker AI兩大AI服務平臺上部署“功能強大、成本效益高”的DeepSeek-R1模型。

英偉達1月30日宣佈,DeepSeek-R1模型可作爲NVIDIA NIM微服務預覽版使用。NVIDIA NIM是NVIDIA AI Enterprise的一部分,爲跨雲、數據中心和工作站的自託管GPU加速推理微服務提供容器,用於預訓練和自定義AI模型。

而一些規模較小的美國科技公司也採用了DeepSeek模型。美國AI初創公司Perplexity宣佈接入了DeepSeek模型,將其與OpenAI的GPT-o1和Anthropic的Claude-3.5 並列作爲高性能選項。

New Relic公司通過DeepSeek集成擴展AI可觀測性,以幫助客戶降低開發、部署和監控生成式AI應用的複雜性和成本。

DeepSeek自1月初推出以來,印度下載量驚人。印度的Yotta Data Services推出了“myShakti”,就基於DeepSee開源AI模型構建,竟被稱爲是印度第一個完全主權的B2C生成式AI聊天機器人。另一家印度公司Ola的AI平臺Krutrim 將DeepSeek模型集成到其雲基礎設施中。

開源的DeepSeek之所以受到國外用戶與服務商的歡迎,源於:模型開源,可以免費獲得,部署算力需求低;API價格比GPT-4便宜10倍,甚至比Claude便宜15倍;速度極快,並且在某些基準測試中與GPT-4相當,甚至更好等。

中國雲服務商、軟件企業等接入DeepSeek,操作系統、網絡安全、應用軟件、雲服務等不同領域都集成了DeepSeek,爲軟件和應用帶來AI能力。

騰訊雲、百度智能雲、阿里雲、京東雲、青雲等,以及三家基礎電信企業都先後接入DeepSeek大模型,麒麟軟件、金蝶、用友、釘釘、南威軟件遠光軟件萬興科技超圖軟件等先後宣佈已完成對DeepSeek的適配、接入。

例如,中國電子雲CECSTACK智算雲平臺正式上線MoE架構的671B全量DeepSeek-R1/V3模型,以及DeepSeek-R1的蒸餾系列Qwen/Llama模型,並提供私有化部署方案,爲關鍵行業用戶提供安全可靠、智能集約的智能化解決方案。

目前,中國電子雲已在湖北機場集團進行了DeepSeek-R1私有化部署,依託DeepSeek-R1大模型服務湖北機場集團打造企業知識庫等智能應用。

DeepSeek大模型已與銀河麒麟智算操作系統V10、銀河麒麟高級服務器操作系統V10完成兼容適配,可實現本地部署,支持通過Chatbox AI客戶端使用DeepSeek,通過vscode集成DeepSeek實現輔助編程。銀河麒麟高級服務器操作系統V10作爲雲底座基礎設施已全面支持各大雲廠商,實現DeepSeek的雲端部署與使用。

天融信發佈的DeepSeek安全智算一體機以“算力硬件平臺+智算平臺”爲基座,集成DeepSeek大模型,融合“計算、存儲、網絡、安全、智能”五大能力,旨在爲客戶提供高性能、安全可靠的一體化智算中心建設方案。

中國電動汽車巨頭比亞迪近將爲其汽車發佈“DiPilot”輔助駕駛系統,正在將DeepSeek的人工智能集成到最先進的新駕駛員輔助系統中。

DeepSeek大模型的開源,爲AI技術的普及和行業應用帶來了新的機遇和動力。據賽迪預測,到2035年,我國人工智能核心產業規模將達到1.73萬億元,全球佔比將超過30%。

企業和服務商爲什麼願意接入DeepSeek?一是提高工作效率。DeepSeek能夠顯著縮短推理時間,對用戶問題給出答案。如在內容創作部門,通過輸入關鍵信息和要求,短時間內就能生成初稿,從而加快市場響應速度。

二是降低人力成本。DeepSeek可以自動完成數據標註任務,減少對基礎、重複性工作的依賴,同時通過智能客服系統,7*24小時不間斷地爲客戶解答常見問題,節省人力開支並提升服務的及時性和穩定性等。

三是支持數據分析與決策。DeepSeek對海量的市場數據、用戶反饋數據進行快速分析,挖掘潛在規律和趨勢,幫助企業制定科學合理的戰略規劃和市場營銷策略。

四是提供個性化服務。DeepSeek技術能夠根據用戶的需求和偏好提供定製化的服務,如在電商領域推動個性化推薦系統的普及,提高購物體驗和滿意度等。

2.推理模型興起,芯片有望百花齊放

DeepSeek R1的迅速崛起,使一種被稱爲推理模型的新興AI模型成爲人們關注的焦點。隨着生成式AI應用超越對話界面,推理模型的功能和使用可能會增加。

DeepSeek R1推理模型的不同之處在於做到了將預訓練模型,變成一個功能更強大的推理模型,而且成本更低,資源利用效率更高,其運行成本只有普通LLM三十分之一。就像在 PC 和互聯網市場,產品價格下跌有助於推動應用一樣,DeepSeek R1同樣以更低的模型運行成本,把人工智能市場推上了長期增長的道路,堪稱一個具有里程碑意義的時刻。

DeepSeek R1成功表明,有了足夠強大的基礎模型,強化學習就足以在沒有任何人工監督的情況下從語言模型中引出推理。隨後在通用大模型GPT-3、GPT-4(OpenAI)、BERT(Google)等之後,出現了像OpenAI o1-mini、OpenAI o3-mini、Gemini 2.0 Flash Thinking等推理模型。

發展推理模型成爲AI發展的一個重要機會。推理大模型是指能夠在傳統的大語言模型基礎上,強化推理、邏輯分析和決策能力的模型。它們通常具備額外的技術,如強化學習、神經符號推理、元學習等,以增強其推理和問題解決能力。如DeepSeek-R1、GPT-o3在邏輯推理、數學推理和實時問題解決方面表現突出。

而非推理大模型如OpenAI、Gemini、阿里巴巴的Qwen等適用於大多數任務,主要用於語言生成、語言理解、文本分類、翻譯等任務。此類模型通常通過對大量文本數據的訓練,一般側重於語言生成、上下文理解和自然語言處理等,而不強調深度推理能力。

與可能直接生成答案的通用LLM不同,推理模型經過專門訓練以展示他們的工作,並遵循更結構化的思維過程。一些模型不顯示它們的邏輯推理階段,而另一些模型則明確顯示它們的邏輯推理階段。推理階段展示了模型如何將所述問題分解爲較小的問題(分解),嘗試不同的方法(構思),選擇最佳方法(驗證),拒絕無效方法(可能回溯),並最終選擇最佳答案(執行/求解)。

推理模型與通用模型比較

資料來源:微軟

隨着核心技術日益商品化和廉價化,推理模型和一般的LLM將變得多樣化並專門用於更狹窄的任務。

目前,AI企業推出了各種構建和改進推理模型的技術,也爲其他企業提供技術創新的機會。

提高LLM的推理能力的方法在不斷發展,如推理時擴展(在推理過程中增加計算資源以提高輸出質量)、純強化學習(RL)、監督微調和強化學習(SFT + RL)等。據介紹,DeepSeek R1採用不同的技術,引入了三個不同的推理模型變體:

DeepSeek-R1-Zero基於2024年12月發佈的671B預訓練DeepSeek-V3基礎模型,使用具有兩種獎勵的強化學習(RL)對其進行訓練,被稱爲 “冷啓動”訓練。

DeepSeek-R1是DeepSeek的旗艦推理模型,基於DeepSeek-R1-Zero構建,通過額外的SFT階段和進一步的RL訓練進一步完善,改進了“冷啓動”R1-Zero 模型。

DeepSeek-R1-Distill,利用前面步驟生成的SFT數據,DeepSeek團隊對開源的Qwen和Llama模型進行了微調,以增強其推理能力。雖然不是傳統意義上的蒸餾,但這個過程涉及在更大的DeepSeek-R1 671B模型的輸出上訓練較小的模型(Llama 8B和70B以及Qwen 1.5B-30B)。

DeepSeek和推理模型的興起也將對處理器需求產生影響,推動推理芯片市場的增長。推理是指使用和應用AI根據新信息做出預測或決策的行爲,而不是構建或訓練模型。簡而言之,AI訓練是構建工具或算法,而推理是實際部署此工具以用於實際應用程序。

AI訓練是計算密集型的,但推理可以使用功能較弱的芯片,經過編程可以執行範圍更窄的任務。隨着客戶採用和構建DeepSeek的開源模型,對推理芯片和計算的需求將增加。

DeepSeek的測試表明,華爲的HiSilicon Ascend 910C處理器的推理性能超出了預期。此外,通過對CUNN內核的手動優化,可以進一步提高其效率。DeepSeek對Ascend處理器及其 PyTorch存儲庫的原生支持,允許以最少的工作量實現無縫的CUDA到CUNN轉換,從而更輕鬆地將華爲的硬件集成到AI工作流中。

新的 Ascend 910C採用小芯片封裝,其主計算SoC擁有約530億個晶體管,是由中芯國際採用其第二代7nm級工藝技術製造的。

AWS推出的推理芯片主要爲Inferentia系列,在提升推理效率與降低成本方面表現出色。AWS 推理芯片有Inferentia和Inferentia2兩代。第一代Inferentia爲EC2 Inf1實例提供支持,吞吐量提升2.3倍,推理成本降70%,搭載多個NeuronCore,支持多種數據類型。

第二代Inferentia2性能飛躍,吞吐量提高4倍,延遲降低,內存和帶寬大幅提升,支持更多數據類型。搭配AWS Neuron SDK可集成熱門框架,助力AI應用。

寒武紀在推理芯片領域成果顯著,思元370芯片表現亮眼。它基於7nm製程工藝,是首款採用chiplet技術的AI芯片,集成390億晶體管,最大算力256tops(int8) ,相較思元270算力翻倍,基於mluarch03架構,實測性能出色。它也是國內首款公開發布支持lpddr5內存的雲端AI芯片,內存帶寬爲上一代3倍,訪存能效高。

思元370搭載mlu - link多芯互聯技術,在分佈式任務中爲多芯片提供高效協同,每顆芯片有200gb/s額外跨芯片通訊能力。軟件平臺上,寒武紀基礎軟件平臺升級,新增推理加速引擎MagicMind,實現訓推一體,提升開發部署效率,降低成本。MagicMind對標英偉達TensorRT,架構和功能更優,優勢是性能極致、精度可靠、編程接口簡潔,插件化設計還能滿足客戶差異化需求。

3.更小的成本也能訓練大模型,AI訓練芯片走向多樣化

DeepSeek最突出的是模型效率、訓練精度和軟件優先的創新,設計了更快、更精簡、更智能的模型。DeepSeek的模型通過證明效率可以與原始計算能力相媲美,挑戰了傳統的AI基礎設施依賴。

DeepSeek也有通用的大模型DeepSeek-V3、DeepSeek-R1等,其中DeepSeek-V3包含670億參數,在2萬億token的中英文數據集上訓練,可用於語義分析、計算推理、問答對話等,在推理、編碼、數學和中文理解等方面超越Llama2 70B base,展現出顯著的泛化能力。DeepSeek V3的基準測試分數與OpenAI GPT-4o和Anthropic Claude 3.5 Sonnet 相當或擊敗對手。

DeepSeek-R1總參數671億,主要用於數學推理、代碼生成、自然語言推理等需要深度邏輯分析的任務,在數學、編碼等任務中性能對標OpenAI o1,但API成本僅爲後者的1/30。推理模型DeepSeek-R1思維鏈推理類似於OpenAI o1。雖然R1不是第一個開放推理模型,但它比以前的模型功能更強大。

DeepSeek R1是一款開源 LLM,與OpenAI的最佳產品相比,擁有卓越的性能的同時需要的計算和訓練資源大大減少,因此在科技領域掀起了波瀾。早些時候微軟表示,在2025年將在AI基礎設施上花費800億美元,而Meta CEO扎克伯格表示,計劃在2025年投資600億至650億美元的資本支出,作爲其AI戰略的一部分。

在DeepSeek的示範下,未來越來越多的LLM將商品化。隨着大模型訓練技術變得越來越先進,以及培訓和運行LLM所涉及的成本不斷下降,預計LLM將在不久的將來成爲一種商品。

DeepSeek R1模型的問世被一些科技公司CEO視爲LLM正變得越來越商品化的進一步指標。

Hugging Face是開源AI項目的常用代碼倉庫。Hugging Face的聯合創始人兼首席科學官 Thomas Wolf表示,LLM將更多地集成到與公司自己的數據庫相連的智能系統中。人工智能的Airbnb、人工智能的Stripe將出現,他們與模型無關,而是使模型對任務有用。

微軟CEO Satya Nadella認爲,隨着人工智能變得更加高效和可及,我們將看到LLM的使用量猛增,將其變成我們可能無法完全滿足其需求的商品。

與此同時,美國軟件公司 Appian CEOMatt Calkins說,DeepSeek的成功表明AI模型在未來將更多地成爲一種商品。許多公司將實現有競爭力的AI,而高成本必然會影響大模型的銷售。

顯然,英偉達在大模型訓練的AI芯片市場佔據主導地位,但競爭比以往任何時候都更加激烈。瑞穗證券估計,英偉達控制着70%到95%的AI芯片市場,用於訓練和部署LLM。78%的毛利率凸顯了英偉達的定價能力。競爭對手芯片製造商英特爾和AMD報告的最新季度毛利率分別爲41%和47%。

英偉達旗艦AI GPU如H100,再加上該公司的CUDA軟件,使其在競爭中領先一步,以至於切換到替代方案似乎幾乎是不可想象的。

儘管英偉達GPU市場從30億美元膨脹到約900億美元。英偉達承諾每年發佈一種新的AI芯片架構,而不是像歷史上那樣每隔一年發佈一次,並推出可以更深入地將其芯片融入AI軟件的新軟件。

從跨國公司到新興初創公司都在爭奪AI芯片市場的份額,未來五年市場規模可能達到 4000億美元。

AMD生產用於遊戲的GPU,並且與英偉達一樣,正在將其應用於數據中心內的AI。它的旗艦芯片是Instinct MI300X。AMD CEO蘇姿豐博士強調了該芯片在推理方面的卓越表現,而不是與英偉達競爭訓練。微軟正在使用AMD Instinct GPU爲其Copilot模型提供服務。今年AMD的人工智能芯片銷售額可能超過40億美元。

英特爾最近宣佈了其AI加速器的第三個版本Gaudi 3。英特爾將其直接與競爭對手進行了比較,將其描述爲更具成本效益的替代方案,在運行推理方面優於英偉達H100,同時在訓練模型方面速度更快。英特爾擁有不到1%的AI芯片市場份額。

更廣泛採用的主要障礙可能是軟件。AMD和Intel都參與了一個名爲UXL基金會的大型行業組織,該組織正在努力創建Nvidia CUDA的免費替代品,用於控制AI 應用的硬件。

英偉達未來將與其最大的客戶在芯片上翟看競爭。雖然包括 Google、Microsoft、亞馬遜、甲骨文在內等的雲服務GPU的採購額佔到英偉達收入的 40% 以上,但都在構建供內部使用的處理器。

除了推理芯片Inferentia外,AWS首次推出了針對大模型訓練的AI芯片Tranium。客戶以通過AWS租用該芯片。該芯片首個用戶是蘋果公司。

Google自2015年以來,一直在使用所謂的張量處理單元(TPU)來訓練和部署AI模型。已經有六個版本的Trillium芯片,用於開發其模型包括Gemini和Imagen。谷歌還使用英偉達芯片並通過其雲提供它們。

微軟正在構建自己的AI加速器和處理器,名爲Maia和Cobalt。OpenAI 的定製芯片設計已接近完成,與Broadcom合作設計,由臺積電製造,使用其3納米工藝技術,以確保芯片可以進行大規模生產。如果成功,該芯片將於2026年在臺積電開始量產。

摩根大通分析師估計,爲大型雲提供商構建定製芯片的市場價值可能高達300億美元,每年可能增長20%。

開發人員越來越多地將AI工作從服務器轉移到個人擁有的筆記本電腦、PC和手機。像OpenAI開發的大模型需要大量強大的GPU集羣來進行推理一樣,像Apple和微軟這樣的公司正在開發“小模型”,需要更少的電力和數據,並且可以在電池供電的設備上運行。Apple和Qualcomm正在更新他們的芯片,以更有效地運行AI,爲AI模型添加了神經處理器的專門部分。

4.讓模型變小有章可循,小模型應用前景喜人

越來越多的企業正在推出SLM,挑戰AI模型開發中“越大越好”的流行觀念。而DeepSeek R1推理模型在首次亮相後,以低廉的訓練成本展示了領先的性能。DeepSeek的崛起表明,規模更大並不意味着更好,規模更小、更靈活的玩家可以與AI巨頭大模型相媲美,並有可能戰勝它們。

SLM以更低的成本,更高的效率,可能會改變企業AI部署的格局,使預算有限的中小企業企業更容易獲得AI模型的高級功能。

DeepSeek也有許多小模型。如DeepSeek-Coder,由一系列代碼語言模型組成,從1B到33B版本不等,在2萬億token上訓練,數據集含87%代碼和13%中英文自然語言。主要用於代碼編寫等任務,在多種編程語言和基準測試中達開源代碼模型先進性能。

DeepSeek-VL則是開源視覺-語言模型,採用混合視覺編碼器,能處理高分辨率圖像。有1.3B和7B模型,在視覺-語言基準測試中性能出色,可用於視覺問答等多種視覺與語言結合的任務。

DeepSeek衍生和蒸餾的小模型,包括Qwen系列蒸餾模型、Llama系列蒸餾模型、DeepSeek-R1-Distill模型等,如DeepSeek-R1-Distill-Qwen-7B和DeepSeek-R1-Distill-Llama-70B。前者在多個推理基準測試中超越同規模模型,後者推理速度大幅提升,在GSM8K和HumanEval等領域接近頂級閉源模型。它們的參數量在15B到70B範圍內,相比大模型計算和內存消耗顯著降低。這些小模型繼承了大模型的核心推理能力,可在教育領域自動批改數學作業、醫療領域輔助快速診斷等。

DeepSeek衍生和蒸餾的小模型在多個領域具有廣泛的應用價值,具有很強的示範價值。未來,AI企業可以通過發展不同的小模型,推動AI的應用。

蒸餾模型通過減少參數量和計算複雜度,顯著提升了推理速度。例如,DeepSeek-R1-Distill-Qwen-7B的推理速度比原始模型提高了約50倍,使其能夠在資源受限的設備上高效運行。

小模型的部署成本大幅降低,適合在計算資源有限的場景中使用。DeepSeek的蒸餾模型在保持高性能的同時,訓練和推理成本顯著降低,推動了AI技術的普及。

多任務適應性。蒸餾模型通過多任務適應性機制,能夠根據不同任務優化其性能,適用於自然語言處理、代碼生成、數學推理等多種應用場景。如小模型的輕量化設計使其能夠在智能手機、智能手錶等邊緣設備上運行,實現實時決策和低能耗操作,適用於自動駕駛、健康監測等需要快速響應的場景。

將小模型應用等不同的行業。如在教育領域,蒸餾模型可以提供個性化的學習推薦和智能輔導,幫助學生制定個性化的學習路徑,提升學習效率。蒸餾模型在醫療影像分析和疾病預測中表現出色,能夠提供實時的醫療建議和輔助診斷,提升醫療服務的效率和質量。在金融領域,蒸餾模型可以用於市場趨勢分析、風險評估和智能投顧,提供個性化的投資建議和風險管理方案。

目前,市場上已經出現不少創新技術,通過開源模型和創新技術,大幅降低模型訓練成本和模型小型化成本。

如來自斯坦福大學和華盛頓大學的聯合團隊已經訓練了一個以數學和編碼爲重點的大型語言模型,該模型的性能與OpenAI o1 和DeepSeek R1推理模型一樣好,構建它只需50美元的雲計算積分。

該團隊使用了一個現成的基礎模型,然後將Google Gemini 2.0 Flash Thinking Experimental模型提煉到其中。提煉AI的過程包括從較大的AI模型中提取相關信息以完成特定任務,並將其傳輸到較小的AI模型。

又如Hugging Face發佈OpenAI Deep Research和Google Gemini Deep Research工具的競爭對手,稱爲Open Deep Research,利用免費開源LLM,大約需要20美元的雲計算積分,並且只需不到30分鐘即可完成訓練。

Hugging Face的模型隨後在通用AI助手(GAIA)基準測試中獲得了55%的準確率,該基準測試用於測試代理AI系統的能力。相比之下,OpenAI Deep Research 得分在67– 73%的準確率之間,具體取決於響應方法。

阿里的李飛飛團隊基於阿里雲通義千問(Qwen)模型進行監督微調,成功開發出s1模型。訓練該模型僅花費不到50美元,使用16張英偉達H100 GPU,僅耗時26分鐘。DeepSeek通過蒸餾技術將大模型能力傳遞給小模型,而李飛飛團隊則是微調現有大模型,藉助高質量數據和測試時拓展技術,實現低成本、高性能的模型訓練。

以DeepSeek爲代表的開源模型憑藉低廉API服務費用,對傳統閉源大模型發起挑戰,未來可能重塑AI市場格局。

低成本高效能大模型的出現,給AI應用公司、雲廠商、用戶帶來新機遇。AI應用公司可基於新模型開發創新產品,提高資本回報率;雲廠商則加速佈局開源大模型生態服務,搶佔算力需求市場;用戶可以基於開源大模型,訓練和部署自己專屬的大模型。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10