京東開源JoyAI-Image-Edit圖像模型：攻克空間難題，賦能多元領域應用

發布時間：2026-04-09 06:32 來源：快訊作者：陳麗

京東探索研究院近日宣布，其自主研發的圖像編輯模型JoyAI-Image-Edit正式開源，成為全球首個深度融合空間智能技術的開源模型。該模型突破傳統AI圖像處理的平面局限，通過三維空間理解與編輯能力，重新定義了AI在復雜場景中的圖像生成與修改方式，為開發者提供了可直接應用的完整推理代碼框架。

傳統圖像模型常因空間邏輯缺失導致物體變形、光影錯亂等問題，而JoyAI-Image-Edit通過構建完整的空間認知體系，從相機視角、物體位移、幾何結構等多維度建模，實現了三大核心突破：其一，支持通過自然語言精準控制相機偏航角、俯仰角及縮放比例，生成符合幾何規律的新視角圖像；其二，可連續生成邏輯連貫的多視角圖像序列，模擬三維空間中的動態漫游效果；其三，在保持場景整體結構穩定的前提下，對特定物體進行位移、縮放等操作，并自動調整遮擋與光影關系，確保視覺效果自然合理。

實驗數據顯示，該模型在物體移動精度、空間一致性等關鍵指標上已達到國際領先水平。其創新之處不僅在于空間編輯技術的突破，更在于將15類通用圖像編輯能力（如物體替換、風格遷移、細節精修等）與空間理解深度融合，形成覆蓋全場景的創作工具鏈。例如，在電商領域，商家可通過文本指令快速調整商品展示角度或場景布局；在創意設計中，藝術家能高效生成多視角概念圖；在3D重建領域，模型可基于單張圖像推導三維結構信息。

尤為值得關注的是，該模型為具身智能（Embodied AI）研發提供了關鍵技術支撐。在機器人視覺感知系統中，空間理解能力是實現環境交互的基礎，JoyAI-Image-Edit通過解析圖像中的深度信息與物體關系，為機器人構建"空間認知大腦"提供了底層能力支持。目前，該模型已開放代碼庫與預訓練權重，開發者可基于其空間編輯框架開發各類垂直領域應用，推動AI圖像技術從平面創作向三維空間智能的跨越式發展。

更多>同類內容