阿里巴巴近日正式推出新一代圖像生成基礎模型Qwen-Image 2.0,這款模型在文字渲染、長指令遵循及多場景應用方面展現出顯著優勢。相較于前代產品,新模型支持千級token超長指令輸入,分辨率提升至2k級別,同時通過輕量化架構設計大幅壓縮模型體積,推理速度提升明顯。
在文字渲染測試中,Qwen-Image 2.0展現出獨特技術突破。當輸入包含888個token的超長提示詞時,模型能精準還原文字字體、排版及格式要求,在《蘭亭集序》毛筆字渲染任務中,文字與山水畫面的協調性達到新高度,僅存在極少量渲染瑕疵。該模型還支持一次性生成包含24個連貫畫面的漫畫作品,人物形象與畫風保持高度統一。
針對AI生成圖像常見的"油膩感"問題,研發團隊通過優化色彩飽和度與光影效果,使輸出結果更接近真實拍攝質感。在阿里AI盲測平臺AI Arena的基準測試中,Qwen-Image 2.0在文生圖領域位列第三,圖生圖領域排名第二,雖與谷歌Nano Banana Pro存在差距,但已形成差異化競爭優勢。
技術架構層面,新模型將圖像生成與編輯功能深度融合。通過分層訓練機制,文生圖能力有效遷移至編輯任務,例如照片題詩功能即體現這種技術協同。相較于初代200億參數規模,2.0版本在壓縮模型體積的同時,通過改進變分自編碼器(VAE)重構能力,顯著提升了對細小文字的建模精度。
在復雜場景生成測試中,當要求呈現"倒置水晶城市漂浮海面"的超現實畫面時,Qwen-Image 2.0雖在建筑朝向和云層對稱性上存在不足,但整體畫面構圖完整。與之對比,谷歌模型更準確還原了提示詞中的空間關系,字節模型則呈現出更強的科幻風格。
應用場景拓展方面,研發團隊正探索PPT生成、多圖海報設計等復雜任務處理。通過強化分層編輯能力,設計師可結合AI生成與傳統手段進行精細化創作。該模型已與WPS等國民級應用達成合作,未來將通過真實用戶反饋持續優化技術路線,形成應用需求與技術迭代的閉環發展模式。























