國家超算互聯網鄭州核心節點近日迎來重大技術突破——中科曙光自主研發的3套萬卡級超算集群系統正式投入試運行。該系統以3萬張國產加速卡的規模實現穩定運營,成為全球范圍內已投入使用的最大規模國產AI算力基礎設施,可全面支撐萬億參數大模型訓練、海量數據實時推理及AI驅動的科學研究等前沿領域。
這套名為scaleX的萬卡超算系統突破了多項核心技術瓶頸。研發團隊通過創新高速互聯網絡架構,將計算節點間的通信延遲降低至微秒級;采用存算傳一體化設計,使數據傳輸效率提升3倍;獨創的高密度供電與液冷散熱方案,在保證系統穩定性的同時將能耗降低40%。更值得關注的是,該系統兼容CUDA等國際主流軟件生態,支持多品牌國產加速卡混合部署,開發者可無縫遷移現有應用,大幅降低技術轉型成本。
在應用適配方面,scaleX系統已完成對400余個主流大模型的優化,通過國家超算互聯網平臺可調用上千款AI應用。這種"算力+應用"的交付模式,已形成覆蓋互聯網、科研、制造等領域的完整生態。某頭部互聯網企業利用該系統進行智能推薦模型訓練,將訓練周期從30天縮短至7天;國內頂尖科研團隊借助其強大的科學計算能力,在蛋白質結構預測領域取得突破性進展,研究效率提升達1000倍。
針對不同場景需求,scaleX系統展現出卓越的適應性。在超大規模模型訓練場景中,其獨有的容錯恢復機制可確保萬億參數模型連續訓練720小時無中斷;高通量推理場景下,通過軟硬件協同優化,單卡推理性能較傳統方案提升2.3倍;在AI for Science領域,該系統支撐的材料研發大模型近日登頂國際權威榜單,標志著我國在智能計算驅動的科學研究方面達到世界領先水平。
中科曙光高級副總裁李斌透露,鄭州節點的成功運行只是起點。公司正研發面向十萬卡、百萬卡規模的下一代超算架構,計劃通過國家超算互聯網實現全國算力資源的動態調配。這種分布式算力網絡模式,將使偏遠地區也能獲得頂級AI算力支持,為數字經濟均衡發展提供技術保障。























