登錄
微信登錄
打開手機微信,掃描二維碼
掃描成功
請勿刷新本頁面,按手機提示操作
中科曙光不會以任何理由要求您轉賬匯款,謹防詐騙
您的微信還未注冊
中科曙光不會以任何理由要求您轉賬匯款,謹防詐騙
您可以同時關注中科曙光微信公眾號
使用微信掃一掃即可登錄! 查閱資料更方便、 快捷!
您已經注冊賬號和
關注微信公眾號
2025年1月
服務熱線:400-810-0466
發布時間: 2026-02-25
在全球AI大模型和科學智能加速演進的當下,算力基礎設施正從幕后走向決定競爭格局的臺前。而中國在這一輪超大規模算力集群的升級中,正通過萬卡級超集群的集中落地,完成從“補短板”到“建體系”的關鍵跨越。

回顧中國智算基礎設施的發展歷程,我們可以清晰看到一個由淺入深的演進軌跡。
在最初階段,產業的核心目標是補齊“有沒有”的短板。在該階段中彼時,圍繞高性能計算超算中心和人工智能計算智算中心建設,大量以千卡規模為主的集群在各地落地,為科研和部分行業應用提供了基礎支撐。而這一階段的重點是解決算力供給不足的問題。
此后,隨著大模型技術的快速突破,這一邏輯開始發生變化。具體表現為模型參數規模呈指數級增長,訓練過程需要的并行度不斷提高,算力需求從“可選項”變成“剛需項”。與此同時,越來越多的行業開始探索大模型應用落地,算力不再只服務于少數科研機構,而是面向更廣泛的產業用戶。
正是在這一背景下,此前單純增加服務器數量的方式逐漸顯露出局限性,例如規模越大,系統復雜度越高;節點越多,通信瓶頸越突出;集群越大,運維和調度難度越高。基于此,超節點和萬卡級超集群成為新的發展方向。
放眼全球,美國國家實驗室體系、頭部科技公司自建AI集群,均在向這一方向演進。共性是圍繞高速互聯網絡、統一調度體系和高效能耗控制,構建能夠支撐數萬千乃至數十萬加速卡器協同工作的計算系統。而具體到中國,在這一賽道也呈加速追趕趕超之勢,并集中體現在全國一體化算力網絡和國家超算互聯網的推進上,而國家超算互聯網核心節點正是承擔全國算力資源匯聚、調度和服務樞紐的角色。
從結果看,中科曙光提供的3套scaleX萬卡超集群在國家超算互聯網核心節點實現同步建設、同步上線、同步對外提供服務,表明國產超大規模算力基礎設施正在完成從“示范工程”向“產業一線生產級系統”的跨越。背后所體現的,是國產算力體系開始具備平臺化供給能力,即算力不再以項目為單位交付,而是以持續服務能力的形態融入國家算力網絡體系之中。
▍scaleX率先落地三套萬卡,從系統級能力工程到開放體系的積淀與演進
眾所周知,建設和部署萬卡超集群是一場對系統極限的挑戰,而在眾多算力方案中,scaleX之所以能率先實現三套萬卡超集群同步落地,并成為國家級算力樞紐平臺的核心支撐底座,并非源于單一指標的“偏科領先”,而是長期圍繞系統工程級能力+開放架構能力的積淀與演進。
以物理形態與能效層面的極致壓縮為例,scaleX萬卡超集群以640卡超節點為基礎,首創憑借單機柜集成640張AI加速卡的高密度單柜方案,通過超高密度刀片設計配合浸沒相變液冷,將單機柜算力密度提升到傳統模式的約20倍,PUE壓低至接近1.04的高效水平,使萬卡規模在機房空間與電力成本上真正可落地、可持續。具體到核心節點,scaleX萬卡超集群以高密度超節點為基礎,通過高速互聯網絡構建單套萬卡級AI計算系統,三套系統疊加形成超3萬卡規模的國產AI算力池,全面覆蓋萬億參數模型訓練、高通量推理以及AI for Science等大規模計算場景,并已進入實際運營階段。
又如在高速互聯網絡對大規模協同效率保障方面,scaleX成功在架構層面選擇以原生RDMA高速網絡作為核心互聯方式,并結合國產400G網絡設備,構建起高帶寬、低時延、可擴展的集群互聯體系,使萬卡規模下的通信效率能夠保持在可控區間。更重要的是,這一網絡體系在設計之初即面向十萬卡、百萬卡級擴展預留空間,避免在規模繼續放大時出現“推倒重來”的架構瓶頸。而這種前置式系統工程設計,是萬卡集群能夠從一次性工程走向長期演進平臺進入國家級核心樞紐的關鍵前提。
最后是在“存、算、傳”全鏈路緊耦合優化對系統效率的拉升方面,鑒于當下大模型訓練并非單點算力之爭,而是存儲帶寬、計算性能和數據傳輸能力的“系統平衡”,scaleX通過從芯片級、系統級到應用級的多級數據傳輸協同設計,構建起“存、算、傳”緊耦合的架構,使萬卡并發讀寫時仍能滿足極致帶寬需求。
在實際應用中,scaleX萬卡超集群已支持萬億參數模型整機訓練與容錯恢復;在高通量推理場景,持續服務多家頭部互聯網企業的核心智能化業務,并通過聯合深度優化不斷提升推理效能;在AI for Science領域,支撐國內某材料研發大模型登頂國際權威榜單,助力某頂級科研團隊將蛋白質研究效率提升3—6個數量級。
此外,從更深的層面看,scaleX率先落地的背后,是從高性能計算到智能計算的路徑遷移,即企業在傳統超級計算機領域積累的大規模系統設計、集群管理、可靠性保障經驗,被系統性遷移到AI場景,通過數字孿生、智能運維和智能調度,實現對萬級節點、十萬級用戶的精細化管理和每秒萬級作業的調度能力,使集群長期可用性達到或接近“電力級”的穩定水平。具體到國家超算互聯網核心節點,其需要的不是“實驗室樣機”,是可7×24穩定輸出算力服務的基礎設施,而scaleX萬卡超集群獲得國家級算力樞紐認可的關鍵差異化所在。
值得一提的是,在架構原則上,scaleX基于AI計算開放架構設計,可兼容CUDA等主流軟件生態,支持多品牌國產AI加速卡混合部署,并已針對大量主流大模型、世界模型完成適配優化,為國家級平臺在模型選擇與芯片路線選擇上保留了更高靈活度。
如果說萬卡級集群在表層呈現的是算力規模的躍遷,那么真正決定中國算力產業未來走向的是背后“開放架構+協同生態”所釋放的產業激活能力和協同增效能力。而在這一點上,三套scaleX萬卡超集群的同步落地,實際上可被視為中國算力產業從追趕式發展邁向體系化構建的一個分水嶺,并通過技術組織、產業供給方式和應用創新效率等方面得以體現。
例如從技術組織方式看,開放架構首先打破了“算力孤島”。眾所周知,過去不同芯片廠商、系統廠商和應用開發者各自封閉演進,導致國產算力生態呈現碎片化格局,適配成本高、重復建設多,嚴重制約了大規模集群的成型速度。
相比之下,AI計算開放架構通過分層解耦和統一接口,將芯片、系統、框架和應用拆解到各自最適合發力的層次,比如芯片廠商專注算力與能效;系統廠商專注集群架構與網絡設計;軟件與應用廠商專注算法與場景創新。而scaleX萬卡超集群支持多品牌加速卡和主流計算生態的能力,本質上體現的就是這一分層協同的開放邏輯。
至于產業供給方式,開放架構正在把算力,從資本密集型資產加速轉化為普惠型服務。具體表現為,依托國家超算互聯網,核心節點的三套scaleX萬卡集群以算力服務的方式面向社會開放,面向大模型訓練、高通量推理、AI for Science、金融風控、地質能源勘探等多元場景提供普惠算力。這對中小企業,意味著其不再需要自建昂貴的集群即可獲得萬卡級算力資源;對科研機構,則可以按需調用高性能算力,而不必承擔長期的硬件折舊壓力。正所謂算力使用成本在技術進步和生態協同作用下被“踝斬”,其才真正具備了類似水電氣的基礎設施屬性。
最后從應用創新效率方面看,開放架構帶來的協同增效已經在核心節點體現為可量化的收益逐步顯現。例如依托scaleX萬卡超集群,已完成400多個主流大模型與世界模型的適配優化,并通過國家超算互聯網可接入上千款應用,實現“算力+應用”一體化交付,應用開發效率實現倍數級大幅提升,算力使用成本顯著下降,創新迭代周期持續縮短。
更值得關注的是,當我們站在更高的維度,三套萬卡超集群同步落地的意義,不僅在于一次性把中國國產AI算力規模推到新的高度,更是用工程化可復制的方式,為未來十萬卡、百萬卡級超集群奠定了技術和生態范式。
文章來源:觀察者網
原標題:三套萬卡集群同時上線,開放架構正在重塑中國算力版圖

津公網安備 12011602000521號



注冊 /