人工智能軍備競(jìng)賽在國內(nèi)外持續(xù)迭代演進(jìn)。揭秘OpenAI、何突谷歌、破軟瓶頸微軟、硬件阿里巴巴等不斷推出新應(yīng)用,科創(chuàng)MCP協(xié)議、揭秘AI編程、何突具身智能機(jī)器人、破軟瓶頸芯片自研等場(chǎng)景多樣拓展。硬件自從年初引起全球震動(dòng)并激發(fā)諸多領(lǐng)域AI變革以來,科創(chuàng)DeepSeek的揭秘一舉一動(dòng)都備受關(guān)注,但其最新R2模型千呼萬喚仍未推出。何突
5月14日,破軟瓶頸DeepSeek團(tuán)隊(duì)發(fā)表最新論文,硬件解釋其DeepSeek-V3模型在硬件架構(gòu)和模型設(shè)計(jì)方面的科創(chuàng)關(guān)鍵創(chuàng)新,公開大規(guī)模訓(xùn)練和推理的降本秘訣,令人矚目的效率突破是如何做到的,又給業(yè)內(nèi)很大啟發(fā)。
這篇發(fā)表在arXiv平臺(tái)的論文Insights into DeepSeek-V3:Scaling Challenges and Reflections on Hardware for AI Architectures,DeepSeek創(chuàng)始人兼CEO梁文鋒出現(xiàn)在合著名單中。
相較此前的DeepSeek-V3技術(shù)報(bào)告,本篇論文的重點(diǎn)不在算法,而是從硬件架構(gòu)和模型設(shè)計(jì)雙重視角出發(fā),探討了硬件和模型兩者如何相互配合,以實(shí)現(xiàn)低成本的大規(guī)模訓(xùn)練和推理,主要涵蓋五方面內(nèi)容,包括DeepSeek模型的設(shè)計(jì)原則、低精度驅(qū)動(dòng)設(shè)計(jì)、以互聯(lián)為驅(qū)動(dòng)的設(shè)計(jì)、大規(guī)模網(wǎng)絡(luò)驅(qū)動(dòng)設(shè)計(jì)、面向未來的硬件架構(gòu)設(shè)計(jì)。
論文重點(diǎn)介紹了多頭潛在注意力(MLA)以提高內(nèi)存效率、混合專家(MoE)架構(gòu)以優(yōu)化計(jì)算與通信權(quán)衡、FP8混合精度訓(xùn)練以充分發(fā)揮硬件潛力,以及多平面網(wǎng)絡(luò)拓?fù)湟宰钚』杭?jí)網(wǎng)絡(luò)開銷等關(guān)鍵創(chuàng)新,還為未來AI硬件與模型協(xié)同設(shè)計(jì)提出了建議。
大模型的迅猛擴(kuò)張暴露了硬件的架構(gòu)瓶頸:內(nèi)存容量不足、計(jì)算效率低下、互連帶寬受限等。DeepSeek研究團(tuán)隊(duì)通過基礎(chǔ)設(shè)施與算法團(tuán)隊(duì)的深度合作,開發(fā)了一個(gè)適用于MoE模型的FP8混合精度訓(xùn)練框架。在混合精度訓(xùn)練中,模型的權(quán)重和激活值可以使用FP8進(jìn)行計(jì)算,而關(guān)鍵的梯度計(jì)算和優(yōu)化步驟則使用更高的精度(如FP32)來保證訓(xùn)練的穩(wěn)定性,從而在不損失模型性能的前提下,充分發(fā)揮硬件的計(jì)算能力,加速訓(xùn)練過程,降低訓(xùn)練成本和內(nèi)存占用。
論文披露了對(duì)通信架構(gòu)的重構(gòu)。DeepSeek提出多平面雙層胖樹網(wǎng)絡(luò)(MPFT),將傳統(tǒng)三層網(wǎng)絡(luò)拓?fù)鋲嚎s為兩層,通過8個(gè)獨(dú)立網(wǎng)絡(luò)平面實(shí)現(xiàn)流量隔離和成本下降。這是DeepSeek首次披露超大規(guī)模集群的網(wǎng)絡(luò)優(yōu)化方案。
他們還提出了未來硬件架構(gòu)設(shè)計(jì)的前瞻性方