巨人財經 - 專業科技行業財經媒體

AI視覺新突破:強化學習打破傳統瓶頸,LENS引領技術新方向

   發布時間:2026-01-04 22:04 作者:顧雨柔

在人工智能視覺領域,一場關于技術路徑的深刻變革正在悄然展開。傳統監督式微調方法長期占據主導地位,但其靜態模式匹配的特性導致泛化能力受限,尤其在處理復雜推理任務時表現乏力。近期AAAI 2026會議上,LENS框架的提出為突破這一瓶頸提供了全新思路,其通過強化學習機制重新定義了視覺分割的范式。

傳統方法的核心問題在于將"思考"與"執行"過程割裂。以同期Seg-Zero為代表的非端到端架構,需先由推理模型生成邊界框,再由分割模型執行操作。這種分離式設計導致誤差單向傳播——初始定位偏差會直接導致最終失敗,且缺乏自我修正能力。實驗數據顯示,在復雜指令場景下,此類方法的性能衰減幅度超過30%。

LENS框架通過端到端聯合優化機制破解了這一難題。其核心創新在于構建了"推理-橋接-分割"三位一體架構:多模態大語言模型(如Qwen2.5-VL-3B-Instruct)作為認知中樞,負責生成思維鏈推理和初步定位;上下文模塊充當信息轉換器,將推理軌跡轉化為分割提示;SAM2-Large分割模型則完成最終像素級輸出。這種設計使系統具備動態糾錯能力,即便初始定位存在偏差,仍能通過反饋閉環實現自我優化。

研究團隊特別設計的統一強化學習獎勵機制是關鍵突破。該機制包含三個監督維度:格式獎勵確保推理過程符合結構規范,邊界框IoU獎勵監控定位精度,分割掩碼IoU獎勵評估像素級質量。通過將Group Relative Policy Optimization目標與監督損失結合,LENS實現了推理改進與分割優化的雙向驅動。實驗表明,這種設計使系統在定位錯誤率達15%時仍能保持82%的分割準確率。

在性能驗證環節,LENS展現出顯著優勢。RefCOCO系列基準測試中,其平均cIoU達到81.2%,刷新世界紀錄;在更具挑戰性的GroundingSuite-eval零樣本測試中,以78.3%的cIoU領先第二名近10個百分點。特別在處理長尾指令和域外數據時,LENS的泛化能力較傳統方法提升40%以上,驗證了強化學習路徑的普適價值。

這項研究重新定義了視覺語言系統的構建邏輯。不同于傳統方法依賴海量標注數據的模式,LENS通過獎勵機制實現動態學習,更接近人類認知過程。其端到端特性不僅解決了誤差傳播難題,更開創了推理與分割協同優化的新范式。隨著強化學習在視覺領域的深入應用,這類自適應系統有望推動人工智能向更通用、更穩健的方向發展。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新