DeepSeek在8月21日正式發(fā)布V3.1,一則官方補充留言激起千層浪。
是的,因為官方在V3.1的發(fā)布文章里把有關(guān)過程算力支持的描述寫的太隱晦,又自己在評論區(qū)補充了一句。
一夜過去,短短的一句話,A股市場集體“開香檳”。據(jù)財聯(lián)社報道,全市場超2800只個股上漲。從板塊來看,算力股全線爆發(fā),云天勵飛等多股漲停。芯片股集體大漲,寒武紀(jì)漲停創(chuàng)歷史新高,中芯國際大漲14%,海光信息漲停。
資本市場的反應(yīng)并不是對一句口號的追捧,而是看到了國產(chǎn)芯片在算力賽道上真正切入國際前沿的可能。DeepSeek的這句話,不僅被視作一次“技術(shù)換擋”的信號,更是國內(nèi)算力產(chǎn)業(yè)鏈罕見的共振時刻。
DeepSeek這枚炸彈,到底是什么?
要理解“UE8M0 FP8”為何能引發(fā)如此大的關(guān)注,必須將其拆解為兩個部分:作為本體的“FP8”和作為靈魂的“UE8M0”。FP8本身是一種將數(shù)字壓縮到僅用8位(bit)來存儲的浮點格式,旨在用更少的數(shù)據(jù)位寬降低AI大模型訓(xùn)練和推理中對顯存帶寬的空前壓力。
而DeepSeek的模型一直使用的都是這個格式,但有一個問題,國內(nèi)的芯片公司只有極少數(shù)GPU廠商原生支持FP8,比如摩爾線程,其旗艦產(chǎn)品MTT S5000就是國內(nèi)首批原生支持FP8并大規(guī)模量產(chǎn)的GPU。大家普遍支持的都是FP16,這使得國產(chǎn)芯片在跑DeepSeek的模型時,性能至少會折損一半,所以,這也解釋了為什么大家還是喜歡買英偉達的芯片,因為如果是過去的國產(chǎn)芯片,起手就已經(jīng)不是“滿血”了,更別說自己在本地調(diào)配時還有可能因為水平不足再降低性能。
圖|豆包AI生成
有AI infra企業(yè)告訴鳳凰網(wǎng)科技,解決方案就是在軟件上做突破,國內(nèi)有專門針對國產(chǎn)芯片做軟件適配DeepSeek的企業(yè),比如清程極智,其原則是讓國產(chǎn)芯片在用DeepSeek的時可以提升性能。
這里補充一個知識,純粹的FP8(如常見的E4M3或E5M2格式)在動態(tài)范圍和精度上存在固有權(quán)衡,處理具有極端大小值的復(fù)雜數(shù)據(jù)時仍可能面臨精度損失或數(shù)值溢出的挑戰(zhàn)。通俗的說,就是數(shù)據(jù)會有損,就像你壓縮打包一批衣服,可以壓到很小,但衣服會皺的厲害。
而真正的突破來自于由Meta、谷歌等科技巨頭推動的開放計算項目(OCP)所制定的MX(Microscaling)格式,其核心思想不再是整個張量共用一個大縮放因子,而是將其切分為微小的數(shù)據(jù)塊,并為每個塊單獨配備一個輕量級的8位縮放因子,從而在保持8位存儲效率的同時,動態(tài)范圍擴展了數(shù)十倍。通俗說,就是把一批衣服分開打包。
回到DeepSeek這次發(fā)布的“UE8M0”,正是MX格式中為每個數(shù)據(jù)塊指定的那個關(guān)鍵縮放因子的數(shù)據(jù)格式。它是一種極為高效的8位指數(shù)表示法:“U”代表無符號(Unsigned),意味著它永遠是一個正數(shù),無需符號位;“E8”代表8個比特全部用于表示指數(shù)(Exponent);“M0”代表沒有尾數(shù)(Mantissa)。用一個比喻來形容,UE8M0就像一個 “只調(diào)檔位、不調(diào)微刻度”的超級節(jié)能燈泡開關(guān),就像AI芯片里的快進鍵。
這種“全指數(shù)”設(shè)計帶來了兩大根本性優(yōu)勢:其一,硬件在執(zhí)行縮放(即數(shù)據(jù)還原)時異常簡單快捷,只需進行簡單的整數(shù)次冪運算(相當(dāng)于直接移動二進制小數(shù)點),完全規(guī)避了復(fù)雜的浮點乘法與舍入操作,極大縮短了關(guān)鍵計算路徑,提升了能效。其二,其巨大的動態(tài)范圍(從2?¹²?到2¹²?)足以確保任何數(shù)據(jù)塊都能被恰到好處地縮放至FP8的表示范圍內(nèi),從而幾乎完全避免了因數(shù)值過大而溢出或過小而被舍入為零的信息損失問題,錯誤率曲線得以從高位大幅降至一條平坦的低水平線。
所以說UE8M0 FP8是讓國產(chǎn)芯片在跑大模型,尤其是在跑DeepSeek的模型時——更快、更省、更能扛大數(shù)。
許多現(xiàn)有國產(chǎn)AI加速器并未原生支持完整的E4M3/E5M2 FP8計算單元,但其架構(gòu)正在向支持塊縮放(Block Scaling)的MX格式演進。UE8M0作為縮放因子,其本身格式極簡,無需復(fù)雜的專用浮點乘法器即可實現(xiàn),降低了硬件實現(xiàn)門檻。
更重要的是,它為突破“內(nèi)存墻”提供了最優(yōu)解:相較于傳統(tǒng)的為每個數(shù)據(jù)塊配備一個32位FP32縮放因子,UE8M0僅需追加8位,即可高效管理32個FP8數(shù)據(jù),帶寬開銷驟降75%。這對于HBM帶寬仍處于追趕階段的國產(chǎn)芯片而言,是一項通過數(shù)據(jù)格式創(chuàng)新實現(xiàn)“帶寬減負(fù)”的架構(gòu)級優(yōu)化,成為了在下一代競爭中實現(xiàn)效能躍升的關(guān)鍵技術(shù)路徑。因此,這不僅是單純的技術(shù)兼容,更是一次在主流標(biāo)準(zhǔn)框架內(nèi),通過前沿設(shè)計實現(xiàn)差異化競爭力的精準(zhǔn)卡位。
中國算力產(chǎn)業(yè)正在迎來“頓悟時刻”
從產(chǎn)業(yè)層面看,DeepSeek的這次表態(tài)不只是一種技術(shù)選擇,更是一次產(chǎn)業(yè)生態(tài)的確認(rèn)。想想看,中國最好用的大模型產(chǎn)品與英偉達如此緊密的捆綁,本身是一件不樂觀的事情,DeepSeek這一次的發(fā)布,可以看作是一種漸進式的解綁,官方主動下場為國產(chǎn)芯片發(fā)展生態(tài)站位。
UE8M0 FP8的落地,也意味著國產(chǎn)算力廠商已經(jīng)在浮點格式、編譯器優(yōu)化、訓(xùn)練框架適配等環(huán)節(jié)上實現(xiàn)全棧打通,這背后意味著長期積累的軟硬件協(xié)同終于顯現(xiàn)成果。
至于其所提到的下一代國產(chǎn)芯片是誰,鳳凰網(wǎng)科技此前了解到的,目前成熟的頭部國產(chǎn)芯片公司其實都與DeepSeek有所接觸。另外,有不少本身都是支持FP8的,除了摩爾線程,今天漲得最兇猛的寒武紀(jì),旗下的思元590以及最新690系列都支持。鳳凰網(wǎng)科技還了解到,摩爾線程的MUSA架構(gòu)本就原生支持硬件FP8張量加速計算,現(xiàn)在還能夠很好地支持UE8M0 FP8 Scale,利用硬件原生FP8,相對于傳統(tǒng)的FP16計算能夠?qū)崿F(xiàn)兩倍的浮點算力提升、訪存和通信帶寬效率提升和存儲容量利用率提升,同時最優(yōu)化張量表達精度。
所以說,其實利好誰并不需要猜測,因為DeepSeek此次就是要普遍支持國產(chǎn)芯片生態(tài)。
DeepSeek一句話背后,是對未來大模型算力效率的重新定義,也是國產(chǎn)芯片廠商獲得國際話語權(quán)的起點。資本市場的集體狂歡,既有情緒成分,更折射出一個信號:中國芯片正迎來前所未有的窗口期,而這一次,它們有機會真正站到技術(shù)潮水的前沿。