在AI圖像生成領域,主流擴散模型常因生成速度緩慢而讓用戶感到不便。如今,阿里智能引擎團隊帶來了一項突破性進展——他們成功將圖像生成時間大幅縮短,僅需5秒即可產出4張2K高清大圖,徹底顛覆了傳統等待體驗。
該團隊針對Qwen最新開源模型,將原本需要80-100步前向計算的SOTA壓縮技術,直接優化至僅需2步完成。這一改進使圖像生成效率提升40倍,過去需要近一分鐘才能生成的圖片,如今眨眼間即可呈現。這一成果不僅解決了傳統模型"磨嘰"的痛點,更為實時創作場景提供了技術支撐。
技術突破的背后,是團隊對蒸餾方案的深度革新。早期軌跡蒸餾方法存在顯著缺陷:當迭代步數降低時,生成的圖像會出現模糊、細節扭曲等問題,尤其在文字、人物五官等精細區域表現不佳。研究發現,這類方法對所有圖像區域"一視同仁"的約束方式,導致細節部分因占比低而學習不足。
為突破這一瓶頸,團隊引入基于概率空間的DMD2算法。該方案將約束從樣本空間轉移至概率空間,通過Reverse-KL損失函數設計,讓模型自主生成圖片后接受教師模型指導。這種"學生生成-教師指導"的模式,顯著提升了生成圖像的細節合理性,成為當前擴散步數蒸餾的主流策略。
面對2步蒸餾場景下的分布退化問題,團隊采用PCM蒸餾進行模型熱啟動。實驗數據顯示,經過熱啟動的模型在形體扭曲問題上改善明顯。通過對比可見,直接使用DMD2訓練的模型存在構圖不合理現象,而熱啟動后的模型則能生成更自然的圖像結構。
為進一步提升細節表現力,團隊創新性地將對抗學習(GAN)引入訓練流程。通過混合高質量真實數據與教師生成圖、引入DINO特征提取器、調整損失函數權重等優化措施,使模型在苔蘚、動物毛發等復雜紋理上的生成效果顯著提升。對比實驗表明,增加GAN監督后的模型,其畫面質感和細節層次均達到新高度。
目前,該團隊的優化成果已通過Checkpoint形式在HuggingFace和ModelScope平臺開放下載,同時集成至嗚哩AI平臺供開發者調用。這項突破不僅展現了團隊在工程優化領域的深厚積累,更體現了其"技術開放共享"的理念——此前他們已貢獻Havenask、RTP-LLM等多個優秀開源項目。
盡管當前模型在多數場景已能媲美原始版本,但在處理復雜場景時仍存在提升空間。團隊表示將持續迭代技術,未來計劃推出更多擴散加速方案,并將持續開源模型權重。這項突破正在重新定義AI圖像生成的效率標準,為創意工作者提供更高效的創作工具。





















