巨人財經 - 專業科技行業財經媒體

國產AI算力新突破:國家超算互聯網核心節點三套萬卡集群同步上線

   發布時間:2026-02-06 19:11 作者:劉敏

在AI算力競爭愈發激烈的全球背景下,國內AI算力建設迎來重要里程碑——由中科曙光研發的3套scaleX萬卡超集群系統,正式在國家超算互聯網核心節點投入試運行。這一突破標志著我國成為全球首個實現超3萬張AI加速卡規模化部署并進入實際運營階段的國家,國產AI算力池規模躍居世界前列。

此次上線的萬卡集群并非孤立存在,而是作為國家超算互聯網的"動力心臟",承擔著連接全國算力資源的關鍵角色。該平臺已整合30余家超算與智算中心,形成覆蓋材料科學、生命科學、工業仿真等領域的算力網絡,服務用戶超百萬,日均處理作業量突破百萬次。三套萬卡集群的同步部署,創造了從設備交付到全系統調通僅用不到兩個月的工程奇跡,展現了我國在超大規模智能計算系統集成領域的領先能力。

技術層面,scaleX萬卡集群突破了三大核心難題。在通信架構上,采用自主研發的scaleFabric高速互聯網絡,基于400G類InfiniBand原生RDMA技術,實現端到端延遲低于1微秒、帶寬達400Gb/s的性能指標,較傳統方案提升200%通信效率的同時降低30%成本。該架構設計預留了向十萬卡規模擴展的接口,為未來算力升級奠定基礎。

針對高密度算力部署的物理挑戰,系統創新采用浸沒相變液冷與超高密度刀片架構,使單機柜算力密度提升20倍,能源利用效率(PUE)降至1.04的行業新低。這意味著在同等機房空間內,可部署的AI算力規模提升一個數量級,同時將運營能耗控制在可持續范圍,解決了萬卡集群長期穩定運行的關鍵瓶頸。

在運維管理方面,系統構建了"數字孿生+智能調度"的立體化管控體系。通過物理集群的數字化映射,實現故障定位精度達芯片級、資源狀態實時可視;智能調度引擎可同時管理萬級節點、服務十萬級用戶,支持每秒萬級作業調度,系統可用性達到99.99%。這種將硬件資源轉化為標準化算力服務的能力,使萬卡集群真正融入國家算力基礎設施體系。

值得關注的是,該平臺采用開放架構設計,支持多品牌AI加速卡混合部署,全面兼容CUDA等主流生態,已完成400余個主流大模型的適配優化。這種"軟硬解耦"的設計理念,既降低了用戶遷移成本,也為國產算力生態的協同發展開辟了新路徑。目前,平臺已支撐起萬億參數大模型訓練、高通量推理等前沿應用,在科研領域助力材料發現周期縮短70%,在產業側為互聯網企業提供普惠算力服務。

全球AI算力競賽正從硬件堆砌轉向體系化運營階段。此次國家超算互聯網核心節點的上線,不僅展示了我國在超大規模智能計算領域的工程實力,更通過標準化算力服務模式的創新,為全球AI基礎設施建設提供了中國方案。隨著更多國產萬卡集群接入國家算力網絡,一個覆蓋研發、訓練、推理的全鏈條AI算力生態正在加速形成。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新