華為創(chuàng)始人任正非近期在深圳接受了《人民日報》的專訪,深入探討了華為在芯片技術領域的現(xiàn)狀與策略。面對芯片技術的挑戰(zhàn),任正非坦誠地表示,華為的單芯片技術相較于美國仍有一代的差距。但他緊接著提出了華為的創(chuàng)新策略:“我們通過數(shù)學強化物理、非摩爾定律補充摩爾定律、系統(tǒng)補充單點,從而在最終結果上達到實用水平?!?/p>
近年來,華為技術團隊圍繞“數(shù)學補物理”、“非摩爾補摩爾”、“系統(tǒng)補單點”三大核心理念,成功研發(fā)出“超節(jié)點+集群”系統(tǒng)算力解決方案。這一方案的核心是華為的昇騰CloudMatrix 384超節(jié)點,作為全球最大的全棧100%國產(chǎn)化自研AI超節(jié)點,它打破了英偉達的市場壟斷。
在2025年4月的華為云生態(tài)大會上,華為常務董事、云計算CEO張平安正式介紹了CloudMatrix 384。這個由384張昇騰算力卡組成的超節(jié)點集群,單集群算力高達300PFlops,比英偉達NVL72的180PFlops高出67%,在內存帶寬、互聯(lián)帶寬以及斷點恢復時間等多項指標上均創(chuàng)下全球商用AI算力集群的新紀錄。
盡管單顆昇騰芯片的性能約為英偉達Blackwell架構GPU的三分之一,但華為通過超大規(guī)模集群設計,實現(xiàn)了系統(tǒng)級的突破。依托6812個400G光模塊構建的超高速互聯(lián)網(wǎng)絡,數(shù)據(jù)在384張卡之間近乎無損流動,訓練效率接近單卡性能的90%,遠超傳統(tǒng)架構60%-70%的水平。
據(jù)SemiAnalysis披露,華為云CM384基于384顆昇騰芯片,可提供高達300 PFLOPs的密集BF16算力,性能接近英偉達GB200 NVL72系統(tǒng)的兩倍。這一技術突破是在美國持續(xù)技術封鎖的背景下取得的,硅基流動基于該平臺部署的DeepSeek-R1模型,實現(xiàn)了單卡解碼吞吐1920Tokens/s,與英偉達H100部署性能相當。
華為CloudMatrix 384的迅猛崛起引起了英偉達高層的警覺。英偉達CEO黃仁勛多次提及華為,并將其視為最大的競爭對手之一。黃仁勛甚至公開承認:“從技術參數(shù)來看,華為的CloudMatrix 384超節(jié)點性能已經(jīng)超越了英偉達,我們必須高度重視這家實力雄厚的公司?!边@一表態(tài)被業(yè)界視為美國AI芯片巨頭首次公開認可中國競爭對手的技術實力。
華為CloudMatrix 384的野心不僅在于技術上的對標,更在于推動中國科技產(chǎn)業(yè)參與全球規(guī)則制定的深層戰(zhàn)略。華為計劃通過超節(jié)點架構,引導行業(yè)從關注單卡性能轉向關注集群效率、總擁有成本和生態(tài)協(xié)同度。這意味著,未來算力市場的競爭焦點將發(fā)生變化,先進工藝將不再是唯一關注點,算力集群的有效利用率、斷點恢復速度和生態(tài)協(xié)同度將成為新的競爭焦點。
華為正利用集群優(yōu)勢吸引AI企業(yè)加入昇騰體系,形成硬件、軟件和模型的閉環(huán)。目前,華為的開發(fā)者規(guī)模已超過1200萬,合作伙伴數(shù)量達到4.5萬,云商店應用數(shù)量達到1.2萬。華為正在打造可與CUDA抗衡的替代方案,全球算力市場的格局有望因此發(fā)生重構。