阿里云宣布推出新一代圖像生成基礎模型 Qwen-Image-2.0,該模型在文字渲染、真實質感、語義遵循和模型架構等方面實現了顯著突破。作為一款生圖編輯二合一的模型,Qwen-Image-2.0 在同一模型中實現了文生圖和圖生圖任務的優越性能,為開發者提供了更強大的創作工具。
Qwen-Image-2.0 的核心創新之一是更專業的文字渲染能力。該模型支持 1k token 指令,能夠直接生成專業信息圖,包括 PPT、海報、漫畫等。例如,用戶可以通過簡單的提示詞生成一頁包含時間軸、圖片和文字說明的 PPT,模型不僅能準確渲染文字,還能實現復雜的"畫中畫"效果,確保文字與圖像的完美融合。在漫畫生成任務中,模型能夠自動將對話框中的文字規整排版并居中對齊,使生成的漫畫更加自然和專業。
在真實質感方面,Qwen-Image-2.0 支持 2k 分辨率輸出,能夠細膩刻畫寫實場景,包括人物、自然和建筑等。模型通過建模多種綠色和自然細節,實現了生態真實性的顯著提升。例如,在生成夏日森林場景時,模型能夠精確區分 23 種以上不同明度、飽和度、冷暖傾向與材質表現的綠色,營造出充滿生物細節的森林秘境。這種真實感的提升也體現在人物渲染上,模型能夠捕捉皮膚紋理、發絲細節和光影變化,生成高度逼真的人物圖像。
語義遵循能力的增強是 Qwen-Image-2.0 的另一大亮點。該模型實現了理解生成一體化和生圖編輯二合一,能夠在同一模型中完成圖像生成和編輯任務。例如,用戶可以通過自然語言指令在圖像上添加文字、修改元素或調整布局,模型能夠準確理解指令意圖并生成符合預期的結果。這種能力在圖片題詞任務中表現尤為突出,模型能夠根據提示詞在圖像的指定位置添加書法文字,并保持文字與圖像風格的協調統一。
Qwen-Image-2.0 還采用了更輕量的模型架構,在保持高性能的同時實現了更快的生成速度。阿里云百煉平臺已開通 API 邀測,開發者可以通過該平臺體驗新模型的強大功能。用戶還可以通過 Qwen Chat(chat.qwen.ai)免費體驗 Qwen-Image-2.0,探索其在專業設計、內容創作和圖像編輯等領域的應用潛力。
在圖像編輯任務中,Qwen-Image-2.0 展現了強大的跨模態理解能力。例如,在雙圖編輯任務中,模型能夠將不同圖像中的人物自然合成到同一場景中,并保持光影、透視和比例的一致性。在跨次元編輯任務中,模型能夠將卡通形象與真實城市照片無縫融合,生成具有創意的混合風格圖像。這些能力為圖像編輯帶來了全新的可能性,使非專業用戶也能輕松實現復雜的編輯效果。






















