螞蟻百靈Ling-2.6-flash模型揭曉：高效推理，百萬字長篇輕松生成

發布時間：2026-04-22 18:03 來源：快訊作者：孫明

螞蟻集團旗下百靈團隊近日宣布，其研發的Instruct模型Ling-2.6-flash正式對外發布。這款總參數量達104B、激活參數7.4B的模型此前以匿名形式在OpenRouter平臺測試，連續多日占據熱榜首位，日均tokens調用量突破百億級別，引發開發者社區廣泛關注。

技術團隊通過引入混合線性架構，使模型在4卡H20硬件環境下實現每秒340tokens的推理速度，Prefill吞吐量達到同類產品Nemotron-3-Super的2.2倍。在token效率優化方面，該模型在Artificial Analysis完整評測中僅消耗15M tokens，較主流模型降低90%以上，形成顯著的智效比優勢。針對Agent場景的定向增強訓練，使其在工具調用、多步規劃等核心能力上達到同尺寸模型領先水平。

實測數據顯示，在前端開發任務中，模型能自動規劃網站核心組件并添加明暗模式切換等擴展功能，1分鐘內完成原型開發。當用戶要求修改主色調時，模型可在10秒內精準定位并調整相關代碼，較傳統模型幾分鐘的修改耗時形成質的飛躍。在長文本生成場景，基于該模型的長篇寫作助手可實現每秒200+tokens的穩定輸出，百萬字級作品僅需數十分鐘即可完成。

架構設計層面，研發團隊在Ling 2.0基礎上創新采用MLA+Lightning Linear混合架構，配合高度稀疏化的MoE架構，使模型在長上下文處理場景中保持優勢。通過系統性優化BF16、FP8等精度模式的推理鏈路，模型在真實交互場景中的系統吞吐和單用戶TPS顯著提升，首字響應時間縮短至行業領先水平。

在強化學習訓練階段，團隊構建大規模高保真交互環境，重點提升模型的指令遵循、工具調用和長程執行能力。評測數據顯示，該模型在BFCL-V4、TAU2-bench等專業榜單中表現優異，在Claude Code、Kilo Code等主流開發框架中展現出良好兼容性。盡管在復雜指令遵循和中英雙語切換方面仍有優化空間，但其在通用知識、數學推理等基礎能力上已對齊國際頂尖水平。

目前，Ling-2.6-flash已在OpenRouter平臺及官方渠道開放免費API調用服務，首周提供全量免費額度，后續將維持每日50萬tokens的免費配額，超出部分按輸入0.6元/百萬tokens、輸出1.8元/百萬tokens計費。BF16、FP8、INT4等量化版本將于近期開源，為開發者提供更多部署選擇。

更多>同類內容