巨人財經 - 專業科技行業財經媒體

螞蟻百靈Ling-2.6-flash模型揭曉:高效推理,百萬字長篇輕松生成

   發布時間:2026-04-22 18:03 作者:孫明

螞蟻集團旗下百靈團隊近日宣布,其研發的Instruct模型Ling-2.6-flash正式對外發布。這款總參數量達104B、激活參數7.4B的模型此前以匿名形式在OpenRouter平臺測試,連續多日占據熱榜首位,日均tokens調用量突破百億級別,引發開發者社區廣泛關注。

技術團隊通過引入混合線性架構,使模型在4卡H20硬件環境下實現每秒340tokens的推理速度,Prefill吞吐量達到同類產品Nemotron-3-Super的2.2倍。在token效率優化方面,該模型在Artificial Analysis完整評測中僅消耗15M tokens,較主流模型降低90%以上,形成顯著的智效比優勢。針對Agent場景的定向增強訓練,使其在工具調用、多步規劃等核心能力上達到同尺寸模型領先水平。

實測數據顯示,在前端開發任務中,模型能自動規劃網站核心組件并添加明暗模式切換等擴展功能,1分鐘內完成原型開發。當用戶要求修改主色調時,模型可在10秒內精準定位并調整相關代碼,較傳統模型幾分鐘的修改耗時形成質的飛躍。在長文本生成場景,基于該模型的長篇寫作助手可實現每秒200+tokens的穩定輸出,百萬字級作品僅需數十分鐘即可完成。

架構設計層面,研發團隊在Ling 2.0基礎上創新采用MLA+Lightning Linear混合架構,配合高度稀疏化的MoE架構,使模型在長上下文處理場景中保持優勢。通過系統性優化BF16、FP8等精度模式的推理鏈路,模型在真實交互場景中的系統吞吐和單用戶TPS顯著提升,首字響應時間縮短至行業領先水平。

在強化學習訓練階段,團隊構建大規模高保真交互環境,重點提升模型的指令遵循、工具調用和長程執行能力。評測數據顯示,該模型在BFCL-V4、TAU2-bench等專業榜單中表現優異,在Claude Code、Kilo Code等主流開發框架中展現出良好兼容性。盡管在復雜指令遵循和中英雙語切換方面仍有優化空間,但其在通用知識、數學推理等基礎能力上已對齊國際頂尖水平。

目前,Ling-2.6-flash已在OpenRouter平臺及官方渠道開放免費API調用服務,首周提供全量免費額度,后續將維持每日50萬tokens的免費配額,超出部分按輸入0.6元/百萬tokens、輸出1.8元/百萬tokens計費。BF16、FP8、INT4等量化版本將于近期開源,為開發者提供更多部署選擇。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新