巨人財經 - 專業科技行業財經媒體

鄔賀銓:2026年推理算力主導,智能體驅動云網算全面升級變革

   發布時間:2026-04-17 07:36 作者:馮璃月

隨著人工智能與大模型技術的飛速發展,智能體正逐漸成為行業焦點。中國工程院院士鄔賀銓指出,到2026年,全球推理算力預計將占AI算力總負載的70%至80%,而中國的推理需求將是訓練需求的8倍。這一趨勢標志著算力應用正從訓練主導轉向推理和智能體主導,推動算力架構、應用場景和商業模式發生深刻變革。智能體不再局限于簡單的問答,而是向深度思考、多步規劃和持續執行方向發展,算力架構也從注意力經濟轉向生產力經濟,商業模式則從成本中心轉變為價值引擎。

鄔賀銓強調,智能體并非單一的主機,而是一種能力和資源。在大模型的支持下,單個智能體通過感知、記憶、規劃、工具調用和行動執行形成閉環,成為專注于特定任務的智能單元。然而,單一智能體的應用邊界和能力上限有限,缺乏跨智能體協作能力。因此,構建多智能體協同系統成為突破局限的關鍵。通過統一協調器的調度,相關智能體可以組織起來,共享記憶和高級規劃,實現分布式、多角色、強協作的集體智能,處理復雜目標。

多智能體在開放網絡中的規模化互聯形成了智能體互聯網(IoA)。與傳統互聯網實現主機和信息互聯不同,IoA擴展為智能體和能力的互聯。基于IPv6+,疊加新應用層協議,IoA實現智能體的唯一標識、自主發現、可信交互、協同執行和按需組網。智能體互聯網以智能體群為互聯對象,支撐智能體即服務(AaaS)。AaaS將智能體和智能體群的能力云化封裝,通過API、SDK和低代碼平臺對外提供,支持租戶化、彈性調度、托管運維和按需計費服務。

面向消費者的智能體(To C)主要有三種應用模式。第一種是云上APP寄生智能體,依賴微信、釘釘等宿主APP,依托云端算力運行,斷網不可用。這類智能體作為APP內的AI插件和被動助手,可基于用戶偏好自動完成操作,將聊天工具升級為具備思考、寫作、讀文件和控制設備能力的智能助手,但用戶無法選擇模型。第二種是終端OS原生智能體,預裝于手機操作系統,如中興通訊與字節跳動聯合推出的豆包手機。這類智能體通過端云協同,按用戶意圖和偏好調度和聚合APP,自動執行業務流程,用戶可控性強,斷網仍可基礎運行,但可能弱化APP界面,遭到應用廠商抵制,且過度主動可能違背用戶意愿。第三種是本地自治加云端輔助的智能體,不依賴APP,但需手動安裝獨立PC軟件,如“龍蝦”AI私人管家。這類智能體決策和權限管理本地化,由用戶驅動,基于授權按任務執行,不主動感知場景或服務,通過云上AaaS發現并協同其他智能體。

面向企業的智能體(To B)則有四大應用模式。第一種是流程自動化智能體,復刻人工邏輯,替代生產、運維等標準化流程,提升效率。第二種是行業專家智能體,依托行業知識庫和知識圖譜,提供決策參謀方案。第三種是多智能體協同,整合供應鏈、生產和物流等多領域智能體,實現跨環節協同。第四種是具身智能,支撐工業機器人等實體設備,完成感知、推理和物理執行的閉環。

鄔賀銓指出,不同應用模式在算力、精度和網絡需求上差異顯著。針對中小企業自建算力不足和數據隱私風險高的痛點,本地初算加云端精算成為最優解,相當于存算分離或聯邦計算,平衡成本與安全,實現算力應用的平權化。

智能體業務與傳統互聯網業務存在本質差異。驅動主體從人工操作變為機器自主循環,時間節律從晝夜分明變為7×24小時不間斷運行,空間分布從集中式變為多點網狀、多并發級聯調用,會話從短對話、分鐘級變為長上下文、小時或天級,流量從平穩變為“Token核爆”特征,單智能體Token消耗可達普通用戶的10至1000倍。

這些差異對算力、云和網絡提出了顛覆性要求。智能體需要GPU或NPU專用加速器,多智能體需同時占用多個隔離的“沙箱或進程”,并發密度激增,長上下文、多模態和批量推理對顯存和帶寬提出極高要求。盡管Token流量年增速高達330%,但通過小模型普及、極致壓縮與稀疏化、長上下文優化,智能體時代算力增速可控制在41%左右,實現效率與成本的平衡。云服務方面,智能體時代要求智能體原生云,優先布局智能體原生架構,構建全局智能調度,搭建分布式記憶與向量引擎,深化“云—邊—端”協同,強化算力與網絡優化。網絡方面,智能體使網絡流量從南北向為主轉為東西向占比80%,QPS提升10至100倍。網絡需從行政區組網轉向智算中心、區域云、邊緣和終端四級架構,采用SRv6、云網虛擬化與編排技術、流量AI預測與調度等技術,保障確定性與高可靠性。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新