【華泰證券:DeepSeek有望加速模型訓練與CUDA解耦】金十數據2月21日訊,華泰證券研究認爲,DeepSeek在V3中使用了相比CUDA更底層的PTX 來優化硬件算法,PTX是CUDA編譯的中間代碼,在CUDA和最終機器碼之間起到橋樑作用。而NSA則使用了OpenAl提出的Triton編程語言高效編寫GPU代碼,Triton的底層可調用CUDA,也可調用其他GPU語言,包括AMD的rocm以及國產算力芯片語言,如寒武紀的思元590芯片和海光信息的深算一號(DCU)內置的HYGON ISA指令集。LLM的訓練短期內雖未完全脫離CUDA 生態,但DeepSeek NSA的推出使其初步呈現出與CUDA解耦的趨勢,併爲後續適配更多類型的算力芯片奠定基礎。以異騰爲代表的國產算力已經很好的適配了DeepSeek-R1 等國產模型,並取得了高效推理的效果,華泰證券認爲,伴隨海外算力的受限,針對國產算力的優化或將有持續進展,值得重視。
免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。