阿里近日宣布開源一款名為Qwen-Image-Layered的全新圖像生成模型,該模型首次在行業內實現了類似Photoshop的圖層理解與生成能力,標志著視覺大模型技術邁入新階段。通過創新架構設計,該模型可將圖像分解為獨立圖層,支持近乎零誤差的精準編輯,有效解決了傳統AI生成圖像在一致性方面的核心難題。

傳統視覺大模型普遍采用"扁平化"處理方式,將圖像視為像素矩陣的簡單疊加,導致物體遮擋、空間關系等物理特性難以被準確捕捉。這種技術局限使得AI生成的圖像在編輯時往往牽一發而動全身——例如調整畫面中某個元素的位置時,背景內容會同步發生不可控變化,嚴重制約了其在專業設計領域的應用價值。商業廣告、UI界面設計等需要高精度控制的場景,至今仍依賴傳統設計工具完成最終制作。
Qwen-Image-Layered通過引入分層處理機制,構建起對三維空間的立體認知。研發團隊開發的RGBA-VAE編碼技術,在傳統RGB色彩模式基礎上新增透明度通道(Alpha),使模型具備圖層分離能力。配合創新的VLD-MMDiT架構與3D位置編碼系統,模型能夠自動推斷被遮擋區域的背景紋理,實現從"像素預測"到"結構重組"的技術跨越。這種處理方式更接近人類設計師的思維模式,為圖像編輯提供了前所未有的操作自由度。
為訓練這種空間理解能力,研究團隊從海量專業PSD文件中提取圖層邏輯數據,構建起包含復雜空間關系的訓練樣本庫。這種數據驅動的方式使模型從誕生之初就掌握分層處理的專業技能,能夠精準識別不同圖層間的交互關系。測試數據顯示,該模型在物體位移、局部重繪等場景中,可保持97%以上的背景一致性,編輯效率較傳統方法提升4-6倍。

行業分析師指出,這項突破將重塑數字內容創作流程。設計師可直接在AI生成的分層圖像上進行精細化調整,無需手動摳圖或重建背景,使創作過程從"開盲盒"式的隨機生成轉變為可控的模塊化組裝。影視后期、動畫制作等領域可借此技術顯著縮短制作周期,降低人力成本。某影視公司技術負責人表示:"該模型讓AI真正成為創作伙伴,而非簡單的素材生成器。"
目前,Qwen-Image-Layered已通過魔搭社區和HuggingFace平臺開源,允許企業和開發者免費商用。這是阿里開源戰略的最新成果,其千問系列模型累計開源數量已接近400個,全球下載量突破7億次,衍生模型超過18萬個。在企業級市場,通義大模型以顯著優勢占據國內市場份額首位,服務客戶數量突破100萬家,形成覆蓋多行業的AI應用生態。





















