人工智能軍備競賽在國內外持續迭代演進。揭秘OpenAI、何突谷歌、破軟瓶頸微軟、硬件阿里巴巴等不斷推出新應用,科創MCP協議、揭秘AI編程、何突具身智能機器人、破軟瓶頸芯片自研等場景多樣拓展。硬件自從年初引起全球震動并激發諸多領域AI變革以來,科創DeepSeek的揭秘一舉一動都備受關注,但其最新R2模型千呼萬喚仍未推出。何突
5月14日,破軟瓶頸DeepSeek團隊發表最新論文,硬件解釋其DeepSeek-V3模型在硬件架構和模型設計方面的科創關鍵創新,公開大規模訓練和推理的降本秘訣,令人矚目的效率突破是如何做到的,又給業內很大啟發。
這篇發表在arXiv平臺的論文Insights into DeepSeek-V3:Scaling Challenges and Reflections on Hardware for AI Architectures,DeepSeek創始人兼CEO梁文鋒出現在合著名單中。
相較此前的DeepSeek-V3技術報告,本篇論文的重點不在算法,而是從硬件架構和模型設計雙重視角出發,探討了硬件和模型兩者如何相互配合,以實現低成本的大規模訓練和推理,主要涵蓋五方面內容,包括DeepSeek模型的設計原則、低精度驅動設計、以互聯為驅動的設計、大規模網絡驅動設計、面向未來的硬件架構設計。
論文重點介紹了多頭潛在注意力(MLA)以提高內存效率、混合專家(MoE)架構以優化計算與通信權衡、FP8混合精度訓練以充分發揮硬件潛力,以及多平面網絡拓撲以最小化集群級網絡開銷等關鍵創新,還為未來AI硬件與模型協同設計提出了建議。
大模型的迅猛擴張暴露了硬件的架構瓶頸:內存容量不足、計算效率低下、互連帶寬受限等。DeepSeek研究團隊通過基礎設施與算法團隊的深度合作,開發了一個適用于MoE模型的FP8混合精度訓練框架。在混合精度訓練中,模型的權重和激活值可以使用FP8進行計算,而關鍵的梯度計算和優化步驟則使用更高的精度(如FP32)來保證訓練的穩定性,從而在不損失模型性能的前提下,充分發揮硬件的計算能力,加速訓練過程,降低訓練成本和內存占用。
論文披露了對通信架構的重構。DeepSeek提出多平面雙層胖樹網絡(MPFT),將傳統三層網絡拓撲壓縮為兩層,通過8個獨立網絡平面實現流量隔離和成本下降。這是DeepSeek首次披露超大規模集群的網絡優化方案。
他們還提出了未來硬件架構設計的前瞻性方