AI視覺新突破：強化學習打破傳統瓶頸，LENS引領技術新方向

發布時間：2026-01-04 22:04 來源：快訊作者：顧雨柔

在人工智能視覺領域，一場關于技術路徑的深刻變革正在悄然展開。傳統監督式微調方法長期占據主導地位，但其靜態模式匹配的特性導致泛化能力受限，尤其在處理復雜推理任務時表現乏力。近期AAAI 2026會議上，LENS框架的提出為突破這一瓶頸提供了全新思路，其通過強化學習機制重新定義了視覺分割的范式。

傳統方法的核心問題在于將"思考"與"執行"過程割裂。以同期Seg-Zero為代表的非端到端架構，需先由推理模型生成邊界框，再由分割模型執行操作。這種分離式設計導致誤差單向傳播——初始定位偏差會直接導致最終失敗，且缺乏自我修正能力。實驗數據顯示，在復雜指令場景下，此類方法的性能衰減幅度超過30%。

LENS框架通過端到端聯合優化機制破解了這一難題。其核心創新在于構建了"推理-橋接-分割"三位一體架構：多模態大語言模型（如Qwen2.5-VL-3B-Instruct）作為認知中樞，負責生成思維鏈推理和初步定位；上下文模塊充當信息轉換器，將推理軌跡轉化為分割提示；SAM2-Large分割模型則完成最終像素級輸出。這種設計使系統具備動態糾錯能力，即便初始定位存在偏差，仍能通過反饋閉環實現自我優化。

研究團隊特別設計的統一強化學習獎勵機制是關鍵突破。該機制包含三個監督維度：格式獎勵確保推理過程符合結構規范，邊界框IoU獎勵監控定位精度，分割掩碼IoU獎勵評估像素級質量。通過將Group Relative Policy Optimization目標與監督損失結合，LENS實現了推理改進與分割優化的雙向驅動。實驗表明，這種設計使系統在定位錯誤率達15%時仍能保持82%的分割準確率。

在性能驗證環節，LENS展現出顯著優勢。RefCOCO系列基準測試中，其平均cIoU達到81.2%，刷新世界紀錄；在更具挑戰性的GroundingSuite-eval零樣本測試中，以78.3%的cIoU領先第二名近10個百分點。特別在處理長尾指令和域外數據時，LENS的泛化能力較傳統方法提升40%以上，驗證了強化學習路徑的普適價值。

這項研究重新定義了視覺語言系統的構建邏輯。不同于傳統方法依賴海量標注數據的模式，LENS通過獎勵機制實現動態學習，更接近人類認知過程。其端到端特性不僅解決了誤差傳播難題，更開創了推理與分割協同優化的新范式。隨著強化學習在視覺領域的深入應用，這類自適應系統有望推動人工智能向更通用、更穩健的方向發展。

更多>同類內容