中國大模型「卷技術」！DeepSeek前腳發布NSA，Kimi立刻跟進MoBA

華爾街見聞

2025/02/19

周二，當全球目光聚焦於馬斯克Grok-3的龐大GPU集羣時，中國大模型公司正在技術創新的道路上默默加速。先是DeepSeek提出了原生稀疏注意力（Native Sparse Attention, NSA）機制。這項梁文鋒親自參與的研究成果，結合了算法創新和硬件優化，旨在解決長上下文建模中的計算瓶頸。 NSA不僅能將大語言模型處理64k長文本的速度最高提升11.6倍，更在通用基準測試中實現了對傳統...

網頁鏈接

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

熱議股票

{"basename":"/hant","ssrTDKData":{"titleTemplate":"%s - 老虎證券","title":"老虎证券全球投资理财平台| 一站式投资美股新股港股A股","description":"老虎证券助您一站式投资美股，新股，港股，A股等全球金融理财产品。新加坡华人最信赖的在线投资平台，现在加入即享低费用，24/5 无时差炒美股投资理财！","keywords":"老虎證券,老虎證券開戶,老虎券商,老虎證券官網,老虎證券app,tigertrade老虎證券,股票,炒股,新加坡股票交易平臺,投資,投資理財","social":{"ogDescription":"老虎证券助您一站式投资美股，新股，港股，A股等全球金融理财产品。新加坡华人最信赖的在线投资平台，现在加入即享低费用，24/5 无时差炒美股投资理财！","ogImage":"https://c1.itigergrowtha.com/portal5/static/media/og-logo.be62fbe1.png","ogUrl":"https://www.itiger.com/hant/news/2512413661"},"companyName":"老虎證券"},"pageData":{"isMobile":false,"isTiger":false,"isTTM":true,"region":"SGP","license":"TBSG","edition":"fundamental"},"isCrawlerRequest":true,"__swrFallback__":{"@#url:\"https://stock-news.skytigris.cn/v3/news\",params:#id:\"2512413661\",edition:\"fundamental\",auth_exemption:1,,,undefined,":{"share":"https://ttm.financial/m/news/2512413661?lang=zh_TW&edition=fundamental","thumbnail":"https://wpimg-wscn.awtmt.com/6a52a6b7-e356-436d-9939-d8f34ff949a7.png","is_english":false,"pubTime":"2025-02-19 11:18","share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","id":"2512413661","market":"us","top_or_hot":-1,"title":"中國大模型「卷技術」！DeepSeek前腳發布NSA，Kimi立刻跟進MoBA","media":"華爾街見聞","content":"<div>\n<p>周二，當全球目光聚焦於馬斯克Grok-3的龐大GPU集羣時，中國大模型公司正在技術創新的道路上默默加速。\n先是DeepSeek提出了原生稀疏注意力（Native Sparse Attention, NSA）機制。這項梁文鋒親自參與的研究成果，結合了算法創新和硬件優化，旨在解決長上下文建模中的計算瓶頸。\nNSA不僅能將大語言模型處理64k長文本的速度最高提升11.6倍，更在通用基準測試中實現了對傳統...</p>\n\n<a href=\"https://wallstreetcn.com/articles/3741396\">網頁鏈接</a>\n\n</div>\n","source":"wallstreetcn_hot_news","html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>中國大模型「卷技術」！DeepSeek前腳發布NSA，Kimi立刻跟進MoBA</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 12.5px; color: #7E829C; margin: 0;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\n中國大模型「卷技術」！DeepSeek前腳發布NSA，Kimi立刻跟進MoBA\n</h2>\n<h4 class=\"meta\">\n<p class=\"head\">\n<strong class=\"h-name small\">華爾街見聞</strong><span class=\"h-time small\">2025-02-19 11:18</span>\n</p>\n</h4>\n</header>\n<article>\n<div>\n<p>周二，當全球目光聚焦於馬斯克Grok-3的龐大GPU集羣時，中國大模型公司正在技術創新的道路上默默加速。\n先是DeepSeek提出了原生稀疏注意力（Native Sparse Attention, NSA）機制。這項梁文鋒親自參與的研究成果，結合了算法創新和硬件優化，旨在解決長上下文建模中的計算瓶頸。\nNSA不僅能將大語言模型處理64k長文本的速度最高提升11.6倍，更在通用基準測試中實現了對傳統...</p>\n\n<a href=\"https://wallstreetcn.com/articles/3741396\">網頁鏈接</a>\n\n</div>\n\n<div class=\"bt-text\">\n\n\n<p> 來源：<a href=\"https://wallstreetcn.com/articles/3741396\">華爾街見聞</a></p>\n<p>為提升您的閱讀體驗，我們對本頁面進行了排版優化</p>\n\n\n</div>\n</article>\n</div>\n</body>\n</html>\n","isBrief":false,"type":0,"news_type":1,"symbol":"NSA","symbol_name":"National Storage Affiliates Trust","start_time":0,"source_url":"https://wallstreetcn.com/articles/3741396","article_id":"2512413661","we_media_id":null,"thumbnails":["https://wpimg-wscn.awtmt.com/6a52a6b7-e356-436d-9939-d8f34ff949a7.png"],"rights":{"source":"wallstreetcn_hot_news","url":"https://wallstreetcn.com/articles/3741396","rn_cache_url":null,"directOrigin":true},"url":"https://stock-news.laohu8.com/highlight/detail?id=2512413661","pubTimestamp":1739935125,"columns":[],"sourceInfo":{"source_id":"wallstreetcn_hot_news","name":"华尔街见闻"},"weMediaInfo":null,"summary":"Kimi聯合清華和浙大推出的稀疏注意力技術MoBA，在長文本處理任務中可以保持相近性能的同時，將注意力計算的時間和內存消耗顯著降低。特別是在處理超長文本（如1000萬token）時，MoBA的優勢更加明顯，可以實現16倍以上的加速。","collect":0,"end_time":0,"defaultTopTitle":"wallstreetcn.com","property":["earning"],"viewcount":null,"language":"zh","relate_stocks":{"NSA":"National Storage Affiliates Trust"},"translate_title":"China's large model \"volume technology\"! DeepSeek releases NSA, Kimi immediately follows up with MoBA","themeId":null,"isJumpTheme":false,"ttsUrl":null,"symbols_score_info":{"NSA":1},"content_text":"周二，當全球目光聚焦於馬斯克Grok-3的龐大GPU集羣時，中國大模型公司正在技術創新的道路上默默加速。\n先是DeepSeek提出了原生稀疏注意力（Native Sparse Attention, NSA）機制。這項梁文鋒親自參與的研究成果，結合了算法創新和硬件優化，旨在解決長上下文建模中的計算瓶頸。\nNSA不僅能將大語言模型處理64k長文本的速度最高提升11.6倍，更在通用基準測試中實現了對傳統全注意力模型的性能反超。這一突破錶明，通過算法和硬件層面的協同創新，可以在不犧牲模型性能的前提下，顯著提升長文本處理效率。\n緊隨DeepSeek的步伐，Kimi也迅速推出了自家的稀疏注意力技術——MoBA（Mixture of Block Attention）。\n據這份由月之暗面、清華大學和浙江大學的研究人員共同發布的技術報告《MOBA: MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS》，MoBA的設計理念是將全上下文劃分為多個塊，每個查詢令牌（query token）學習關注最相關的鍵值（KV）塊，從而實現對長序列的高效處理。\n與DeepSeek創始人梁文鋒參與著作一樣，月之暗面創始人楊植麟的名字也出現這篇論文的作者欄裏。\n\n據論文介紹，在各種長文本處理任務中，採用MoBA技術的模型可以在保持相近性能的同時，將注意力計算的時間和內存消耗顯著降低。在1M token的測試中，MoBA比全注意力快了6.5倍，在處理超長文本（如1000萬token）時，MoBA的優勢更加明顯，可以實現16倍以上的加速。\nMoBA已經部署於支持Kimi的長上下文請求處理，並在大語言模型的高效注意力計算方面取得了顯著進展。更值得一提的是，MoBA可以輕鬆地集成到現有的 LLMs 中，而無需進行大量的訓練。\nMoBA：基於塊的稀疏注意力\n為了實現人工通用智能（AGI），LLMs需要能夠處理長文本序列，這對於歷史數據分析、複雜推理和決策等任務至關重要。\n而傳統的自注意力機制計算複雜度呈二次增長，限制了LLMs處理長文本的能力。現有的解決方案要麼引入了強偏見的結構（如滑動窗口注意力），要麼對注意力機制進行了線性近似，這些方法在複雜推理任務中的表現尚未得到充分驗證。\nMOBA技術的核心思想是將傳統Transformer模型中的全局注意力機制改造為基於塊的稀疏注意力。具體來説，MOBA將輸入序列劃分為多個塊，然後對每個查詢token動態選擇最相關的幾個塊進行注意力計算，而不是像傳統方法那樣對所有token都進行計算。\n\n這種方法既保留了原始Transformer的強大表達能力，又顯著降低了計算複雜度，特別適合處理超長文本輸入。\nMoBA的核心創新點包括：\n\n可訓練的塊稀疏注意力： 全上下文被劃分為多個塊，每個查詢令牌學習關注最相關的KV塊，實現長序列的高效處理。\n無參數門控機制： 引入了一種新穎的無參數top-k門控機制，為每個查詢令牌選擇最相關的塊，確保模型只關注信息量最大的部分。\n全注意力和稀疏注意力之間的無縫切換： MoBA被設計為全注意力的靈活替代品，允許在全注意力和稀疏注意力模式之間無縫切換。\n\n在處理超長文本時，MoBA可以實現16倍以上的加速\n在各種長文本處理任務中，採用MoBA技術的模型可以在保持相近性能的同時，將注意力計算的時間和內存消耗顯著降低。在1M token的測試中，MoBA比全注意力快了6.5倍，在處理超長文本（如1000萬token）時，MoBA的優勢更加明顯，可以實現16倍以上的加速。\nKimi 團隊在多個方面對 MoBA 進行了實驗驗證：\n\n縮放定律實驗（Scaling Law Experiments）： 實驗表明，儘管 MoBA 的注意力模式稀疏度高達 81.25%，但其在語言模型損失方面的表現與全注意力相當。\n長文本縮放能力（Long Context Scalability）： 通過增加序列長度到 32K，MoBA 的稀疏度進一步提高到 95.31%。實驗表明，MoBA 在處理長文本時，其性能與全注意力之間的差距逐漸縮小。\n細粒度塊分割消融研究（Ablation Study on Fine-Grained Block Segmentation）： 實驗表明，更細粒度的塊分割可以進一步提高 MoBA 的性能。\n\nMoBA 與全注意力的混合訓練（Hybrid of MoBA and Full Attention）： 實驗表明，通過混合使用 MoBA 和全注意力進行訓練，可以在訓練效率和模型性能之間取得平衡。\n\n大型語言模型評估（Large Language Modeling Evaluation）： 在多個真實世界的下游任務中，MoBA 的表現與全注意力模型相當，甚至在某些任務上略有優勢。\n\n效率和可擴展性（Efficiency and Scalability）： 實驗表明，MoBA 在處理長序列時比全注意力更高效，計算複雜度為亞平方級。在1M token的測試中，MoBA比全注意力快了6.5倍，在處理 1000 萬 token 的序列時，MoBA 的注意力計算時間減少了 16 倍。\n風險提示及免責條款\n\n            市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。","kind":"news","is_publish_news":true,"is_publish_highlight":false,"is_publish_live":false,"is_publish_wemedia":null,"editions":null,"column":"","sentiment":"0","news_tag":"viewpoints","news_rank":0,"symbols":[],"gpt_button":1,"need_auth":false,"code":"91000000","status":"200"}}}