京東探索研究院近日宣布,其自主研發的圖像編輯模型JoyAI-Image-Edit正式開源,成為全球首個深度融合空間智能技術的開源模型。該模型突破傳統AI圖像處理的平面局限,通過三維空間理解與編輯能力,重新定義了AI在復雜場景中的圖像生成與修改方式,為開發者提供了可直接應用的完整推理代碼框架。
傳統圖像模型常因空間邏輯缺失導致物體變形、光影錯亂等問題,而JoyAI-Image-Edit通過構建完整的空間認知體系,從相機視角、物體位移、幾何結構等多維度建模,實現了三大核心突破:其一,支持通過自然語言精準控制相機偏航角、俯仰角及縮放比例,生成符合幾何規律的新視角圖像;其二,可連續生成邏輯連貫的多視角圖像序列,模擬三維空間中的動態漫游效果;其三,在保持場景整體結構穩定的前提下,對特定物體進行位移、縮放等操作,并自動調整遮擋與光影關系,確保視覺效果自然合理。
實驗數據顯示,該模型在物體移動精度、空間一致性等關鍵指標上已達到國際領先水平。其創新之處不僅在于空間編輯技術的突破,更在于將15類通用圖像編輯能力(如物體替換、風格遷移、細節精修等)與空間理解深度融合,形成覆蓋全場景的創作工具鏈。例如,在電商領域,商家可通過文本指令快速調整商品展示角度或場景布局;在創意設計中,藝術家能高效生成多視角概念圖;在3D重建領域,模型可基于單張圖像推導三維結構信息。
尤為值得關注的是,該模型為具身智能(Embodied AI)研發提供了關鍵技術支撐。在機器人視覺感知系統中,空間理解能力是實現環境交互的基礎,JoyAI-Image-Edit通過解析圖像中的深度信息與物體關系,為機器人構建"空間認知大腦"提供了底層能力支持。目前,該模型已開放代碼庫與預訓練權重,開發者可基于其空間編輯框架開發各類垂直領域應用,推動AI圖像技術從平面創作向三維空間智能的跨越式發展。



















