鄔賀銓：2026年推理算力主導，智能體驅動云網算全面升級變革

發布時間：2026-04-17 07:36 來源：快訊作者：馮璃月

隨著人工智能與大模型技術的飛速發展，智能體正逐漸成為行業焦點。中國工程院院士鄔賀銓指出，到2026年，全球推理算力預計將占AI算力總負載的70%至80%，而中國的推理需求將是訓練需求的8倍。這一趨勢標志著算力應用正從訓練主導轉向推理和智能體主導，推動算力架構、應用場景和商業模式發生深刻變革。智能體不再局限于簡單的問答，而是向深度思考、多步規劃和持續執行方向發展，算力架構也從注意力經濟轉向生產力經濟，商業模式則從成本中心轉變為價值引擎。

鄔賀銓強調，智能體并非單一的主機，而是一種能力和資源。在大模型的支持下，單個智能體通過感知、記憶、規劃、工具調用和行動執行形成閉環，成為專注于特定任務的智能單元。然而，單一智能體的應用邊界和能力上限有限，缺乏跨智能體協作能力。因此，構建多智能體協同系統成為突破局限的關鍵。通過統一協調器的調度，相關智能體可以組織起來，共享記憶和高級規劃，實現分布式、多角色、強協作的集體智能，處理復雜目標。

多智能體在開放網絡中的規模化互聯形成了智能體互聯網（IoA）。與傳統互聯網實現主機和信息互聯不同，IoA擴展為智能體和能力的互聯。基于IPv6+，疊加新應用層協議，IoA實現智能體的唯一標識、自主發現、可信交互、協同執行和按需組網。智能體互聯網以智能體群為互聯對象，支撐智能體即服務（AaaS）。AaaS將智能體和智能體群的能力云化封裝，通過API、SDK和低代碼平臺對外提供，支持租戶化、彈性調度、托管運維和按需計費服務。

面向消費者的智能體（To C）主要有三種應用模式。第一種是云上APP寄生智能體，依賴微信、釘釘等宿主APP，依托云端算力運行，斷網不可用。這類智能體作為APP內的AI插件和被動助手，可基于用戶偏好自動完成操作，將聊天工具升級為具備思考、寫作、讀文件和控制設備能力的智能助手，但用戶無法選擇模型。第二種是終端OS原生智能體，預裝于手機操作系統，如中興通訊與字節跳動聯合推出的豆包手機。這類智能體通過端云協同，按用戶意圖和偏好調度和聚合APP，自動執行業務流程，用戶可控性強，斷網仍可基礎運行，但可能弱化APP界面，遭到應用廠商抵制，且過度主動可能違背用戶意愿。第三種是本地自治加云端輔助的智能體，不依賴APP，但需手動安裝獨立PC軟件，如“龍蝦”AI私人管家。這類智能體決策和權限管理本地化，由用戶驅動，基于授權按任務執行，不主動感知場景或服務，通過云上AaaS發現并協同其他智能體。

面向企業的智能體（To B）則有四大應用模式。第一種是流程自動化智能體，復刻人工邏輯，替代生產、運維等標準化流程，提升效率。第二種是行業專家智能體，依托行業知識庫和知識圖譜，提供決策參謀方案。第三種是多智能體協同，整合供應鏈、生產和物流等多領域智能體，實現跨環節協同。第四種是具身智能，支撐工業機器人等實體設備，完成感知、推理和物理執行的閉環。

鄔賀銓指出，不同應用模式在算力、精度和網絡需求上差異顯著。針對中小企業自建算力不足和數據隱私風險高的痛點，本地初算加云端精算成為最優解，相當于存算分離或聯邦計算，平衡成本與安全，實現算力應用的平權化。

智能體業務與傳統互聯網業務存在本質差異。驅動主體從人工操作變為機器自主循環，時間節律從晝夜分明變為7×24小時不間斷運行，空間分布從集中式變為多點網狀、多并發級聯調用，會話從短對話、分鐘級變為長上下文、小時或天級，流量從平穩變為“Token核爆”特征，單智能體Token消耗可達普通用戶的10至1000倍。

這些差異對算力、云和網絡提出了顛覆性要求。智能體需要GPU或NPU專用加速器，多智能體需同時占用多個隔離的“沙箱或進程”，并發密度激增，長上下文、多模態和批量推理對顯存和帶寬提出極高要求。盡管Token流量年增速高達330%，但通過小模型普及、極致壓縮與稀疏化、長上下文優化，智能體時代算力增速可控制在41%左右，實現效率與成本的平衡。云服務方面，智能體時代要求智能體原生云，優先布局智能體原生架構，構建全局智能調度，搭建分布式記憶與向量引擎，深化“云—邊—端”協同，強化算力與網絡優化。網絡方面，智能體使網絡流量從南北向為主轉為東西向占比80%，QPS提升10至100倍。網絡需從行政區組網轉向智算中心、區域云、邊緣和終端四級架構，采用SRv6、云網虛擬化與編排技術、流量AI預測與調度等技術，保障確定性與高可靠性。

更多>同類內容