Xmax AI革新交互：毫秒級響應讓虛擬與現實“無縫貼合”

發布時間：2026-02-09 18:14 來源：快訊作者：吳俊

當全球AI視頻生成領域還在為提升畫質、延長時長而激烈競爭時，一家名為Xmax AI的初創公司正以顛覆性創新重新定義行業規則。這家由前華為"天才少年"領銜的團隊，近日推出了全球首個實現虛實融合的實時交互視頻生成模型X1，通過毫秒級響應與低門檻手勢操作，將AI視頻從"被動觀看"推向"主動共創"的新紀元。

在傳統AI視頻生成場景中，用戶往往需要輸入復雜指令，經歷漫長渲染等待，最終獲得的仍是單向輸出的預制內容。X1模型徹底打破了這種桎梏——通過手機攝像頭對準桌面，用戶選取的滾球獸照片可瞬間"躍出"屏幕，不僅會隨著手勢撫摸轉頭蹭手，被輕捏時還會產生Q彈物理反饋，甚至能被穩穩托在掌心。這種突破次元壁的交互體驗，得益于團隊獨創的端到端流式重渲染架構與幀級自回歸DiT模型，將擴散采樣速度提升百倍的同時，實現了對捏、拖拽等復雜手勢的精準解析。

技術突破的背后是跨學科團隊的協同攻堅。來自清華KEG實驗室、香港科技大學（廣州）及字節跳動的頂尖人才，構建了統一交互模型架構，融合空間三維關系與屏幕二維操作。針對虛實融合數據稀缺的難題，團隊開發出半自動化合成管線，既筑牢技術壁壘，又為我國AI視頻領域儲備了關鍵數字資產。這種硬核實力使X1在四大核心場景中展現驚人表現：上傳任意角色圖可實現次元互動，撫摸屏幕中的兔子會觸發轉頭蹭手的動態響應；選擇梵高畫作或樂高積木圖，現實場景可實時轉化為風格化世界；拖拽照片中角色的耳朵或嘴角，靜態圖像即刻產生搖頭微笑的生動反應；對準朋友選擇Emoji，還能瞬間生成魔性動態表情包。

相較于2024年全球AI視頻生成市場6.148億美元的規模，Xmax AI選擇了一條更具挑戰性的道路。當Sora、Runway等巨頭仍在影視廣告領域爭奪專業用戶時，X1模型通過技術演示應用X-cam已向大眾開放體驗。用戶無需復雜操作，僅憑直覺手勢就能讓幻想掙脫屏幕束縛，這種"人人可玩"的交互范式，或許正預示著下一代內容引擎的雛形。正如團隊Slogan所言"Play the World through AI"，當技術突破想象邊界，每個普通用戶都能成為數字世界的創造者。

更多>同類內容