過去一年,AI生成圖像與視頻領域的發展速度遠超預期。國際市場上,GPT-Image系列不斷迭代,Nano Banana Pro在多項基準測試中表現突出;國內市場同樣活躍,可靈3.0、Seedance 2.0、Vidu Q3等模型相繼推出,在聲畫同步、視頻生成長度及敘事連貫性方面取得了顯著進展。然而,盡管技術進步迅速,AI生成的視頻在質量穩定性、色彩控制、長文本渲染及多人場景處理等方面仍存在諸多問題,這些問題嚴重影響了創作者的工作效率。
針對這些痛點,阿里巴巴近期發布了圖像生成與編輯統一模型Wan2.7-Image。與以往模型不同,Wan2.7-Image并未僅僅聚焦于提升畫質,而是瞄準了五個關鍵的專業級控制能力:面部多樣性、色彩精準控制、超長文本渲染、交互式局部編輯及多主體一致性。這一發布標志著AI生成圖像技術正從“碰運氣”向“可控可用”邁進。
從技術架構上看,Wan2.7-Image采用了生成與理解統一的模型架構,通過共享隱空間實現語義映射,使文字與畫面在同一語義空間內完成編碼與解碼。在訓練過程中,模型引入了多模態指令及精細標注體系,顯著提升了在長尾場景與復雜指令下的生成穩健性。同時,基于更大規模數據及模型尺寸訓練的Wan2.7-Image-pro版本也同步上線,進一步提升了構圖穩定性與語義理解精準度。
在面部多樣性方面,Wan2.7-Image的表現尤為出色。傳統AI生成圖像常面臨“AI標準臉”問題,即生成的人臉缺乏多樣性,五官比例相似,表情呆滯。Wan2.7-Image通過下鉆至“骨相”與“皮相”的微觀層級,支持對臉型、眼部特征等細微之處的全方位定制。測試中,模型成功生成了具有不同骨相與氣質的多人合影,且面部特征還原度高,皮膚質感自然。
色彩控制是設計師和藝術家使用AI生成圖像時的另一大難題。Wan2.7-Image首創了“調色盤”功能,允許用戶通過HEX色號一鍵提取或輸入參考圖的顏色和占比,自由調控配色方案。測試中,模型在復雜場景下成功遵循了調色盤配色方案,生成了色彩準確、比例合理的圖像,展現了強大的色彩控制能力。
超長文本渲染能力是Wan2.7-Image的另一大亮點。傳統AI在處理長文本時,常出現字母變形、筆畫斷裂等問題。Wan2.7-Image支持業內最長的3K Tokens文字輸入,覆蓋中、英等12種語言。測試中,模型成功生成了結構清晰、排版規整的A4豎版中文科技媒體特刊內頁,展現了強大的長文本處理能力。
交互式編輯功能則解決了AI生成圖像的局部修改難題。傳統AI在局部修改時,常出現“改一處崩全圖”的問題。Wan2.7-Image通過“精準框”的交互方式,允許用戶框選要編輯的區域,實現精準修改。測試中,模型成功完成了物體挪動、替換等復雜編輯任務,且未影響其他區域,展現了強大的交互式編輯能力。
Wan2.7-Image還具備強大的組圖生成能力,可一口氣生成多達12張邏輯連貫的圖像序列,適用于電商、廣告等商業場景。在多主體一致性方面,模型支持最高9張圖片作為參考源,確保生成結果在視覺上高度統一。測試中,模型成功生成了具有不同骨相與氣質的多人合影,且面部特征保留度高,展現了強大的多主體一致性控制能力。






















