阿里Qwen-Image 2.0強勢登場：文字渲染升級，圖像生成邁向生產力新階段

發布時間：2026-02-10 21:02 來源：快訊作者：胡穎

阿里巴巴近日正式推出新一代圖像生成基礎模型Qwen-Image 2.0，這款模型在文字渲染、長指令遵循及多場景應用方面展現出顯著優勢。相較于前代產品，新模型支持千級token超長指令輸入，分辨率提升至2k級別，同時通過輕量化架構設計大幅壓縮模型體積，推理速度提升明顯。

在文字渲染測試中，Qwen-Image 2.0展現出獨特技術突破。當輸入包含888個token的超長提示詞時，模型能精準還原文字字體、排版及格式要求，在《蘭亭集序》毛筆字渲染任務中，文字與山水畫面的協調性達到新高度，僅存在極少量渲染瑕疵。該模型還支持一次性生成包含24個連貫畫面的漫畫作品，人物形象與畫風保持高度統一。

針對AI生成圖像常見的"油膩感"問題，研發團隊通過優化色彩飽和度與光影效果，使輸出結果更接近真實拍攝質感。在阿里AI盲測平臺AI Arena的基準測試中，Qwen-Image 2.0在文生圖領域位列第三，圖生圖領域排名第二，雖與谷歌Nano Banana Pro存在差距，但已形成差異化競爭優勢。

技術架構層面，新模型將圖像生成與編輯功能深度融合。通過分層訓練機制，文生圖能力有效遷移至編輯任務，例如照片題詩功能即體現這種技術協同。相較于初代200億參數規模，2.0版本在壓縮模型體積的同時，通過改進變分自編碼器（VAE）重構能力，顯著提升了對細小文字的建模精度。

在復雜場景生成測試中，當要求呈現"倒置水晶城市漂浮海面"的超現實畫面時，Qwen-Image 2.0雖在建筑朝向和云層對稱性上存在不足，但整體畫面構圖完整。與之對比，谷歌模型更準確還原了提示詞中的空間關系，字節模型則呈現出更強的科幻風格。

應用場景拓展方面，研發團隊正探索PPT生成、多圖海報設計等復雜任務處理。通過強化分層編輯能力，設計師可結合AI生成與傳統手段進行精細化創作。該模型已與WPS等國民級應用達成合作，未來將通過真實用戶反饋持續優化技術路線，形成應用需求與技術迭代的閉環發展模式。

更多>同類內容