,,

DeepSeek揭秘如何突破軟硬件瓶頸｜科創要聞

2025-05-21 03:56:05 來源：分類：休閑

人工智能軍備競賽在國內外持續迭代演進。揭秘OpenAI、何突谷歌、破軟瓶頸微軟、硬件阿里巴巴等不斷推出新應用，科創MCP協議、揭秘AI編程、何突具身智能機器人、破軟瓶頸芯片自研等場景多樣拓展。硬件自從年初引起全球震動并激發諸多領域AI變革以來，科創DeepSeek的揭秘一舉一動都備受關注，但其最新R2模型千呼萬喚仍未推出。何突

5月14日，破軟瓶頸DeepSeek團隊發表最新論文，硬件解釋其DeepSeek-V3模型在硬件架構和模型設計方面的科創關鍵創新，公開大規模訓練和推理的降本秘訣，令人矚目的效率突破是如何做到的，又給業內很大啟發。

這篇發表在arXiv平臺的論文Insights into DeepSeek-V3:Scaling Challenges and Reflections on Hardware for AI Architectures，DeepSeek創始人兼CEO梁文鋒出現在合著名單中。

相較此前的DeepSeek-V3技術報告，本篇論文的重點不在算法，而是從硬件架構和模型設計雙重視角出發，探討了硬件和模型兩者如何相互配合，以實現低成本的大規模訓練和推理，主要涵蓋五方面內容，包括DeepSeek模型的設計原則、低精度驅動設計、以互聯為驅動的設計、大規模網絡驅動設計、面向未來的硬件架構設計。

論文重點介紹了多頭潛在注意力（MLA）以提高內存效率、混合專家（MoE）架構以優化計算與通信權衡、FP8混合精度訓練以充分發揮硬件潛力，以及多平面網絡拓撲以最小化集群級網絡開銷等關鍵創新，還為未來AI硬件與模型協同設計提出了建議。

大模型的迅猛擴張暴露了硬件的架構瓶頸：內存容量不足、計算效率低下、互連帶寬受限等。DeepSeek研究團隊通過基礎設施與算法團隊的深度合作，開發了一個適用于MoE模型的FP8混合精度訓練框架。在混合精度訓練中，模型的權重和激活值可以使用FP8進行計算，而關鍵的梯度計算和優化步驟則使用更高的精度（如FP32）來保證訓練的穩定性，從而在不損失模型性能的前提下，充分發揮硬件的計算能力，加速訓練過程，降低訓練成本和內存占用。

論文披露了對通信架構的重構。DeepSeek提出多平面雙層胖樹網絡（MPFT），將傳統三層網絡拓撲壓縮為兩層，通過8個獨立網絡平面實現流量隔離和成本下降。這是DeepSeek首次披露超大規模集群的網絡優化方案。

他們還提出了未來硬件架構設計的前瞻性方

文章所屬分類：休閑頻道，點擊進入>>

超碰97人人模-超碰97人人人人人蜜桃-超碰97无码-超碰97资源共享-超碰97资源人人妻人人-超碰福利导航

DeepSeek揭秘如何突破軟硬件瓶頸｜科創要聞

重點關注