巨人財經 - 專業科技行業財經媒體

蔡浩宇新加坡再創業:LPM 1.0讓AI虛擬角色“活”起來

   發布時間:2026-04-15 15:21 作者:吳婷

在AI視頻生成賽道上,一場關于技術路線的分野正在悄然形成。當行業普遍聚焦于畫面精度提升時,Anuttacon公司推出的LPM 1.0模型卻以"無限時長"交互能力引發關注。這款由米哈游前董事長蔡浩宇主導研發的模型,通過重構視頻生成的技術范式,在實時交互領域開辟出全新戰場。

傳統AI視頻生成模型長期受困于"表演三難困境":在追求畫面真實度(表現質量)、即時響應速度(實時推理)和持續穩定性(長程穩定性)時,三者往往難以兼得。主流模型在生成30秒以上視頻時,常出現角色面部特征突變、身份錯亂等"自回歸漂移"現象。LPM 1.0通過引入在線流式生成架構,將170億參數的擴散模型壓縮為"主干-精煉器"雙層結構,在內存占用恒定條件下實現身份一致性突破。

技術突破的核心在于分布匹配蒸餾訓練法。該模型將視頻生成過程分解為粗粒度軌跡控制與高保真細節還原兩個階段,主干網絡確保角色身份持續穩定,精煉器則負責捕捉微表情變化。在官方演示中,系統成功生成45分鐘連貫視頻,角色在持續對話中始終保持身份統一,這在現有技術體系中堪稱革命性進展。

交互能力的升級同樣引人注目。LPM 1.0首次實現全雙工音視頻對話,通過雙路音頻流處理技術,使AI既能根據自身話語驅動口型同步,又能實時響應用戶語音。當檢測到用戶語氣變化時,系統可自動生成挑眉、點頭等28種微表情,配合呼吸頻率調整,使虛擬角色呈現出近似真人的交互質感。盡管當前畫面分辨率仍存在提升空間,但這種"數字生命"的進化方向已清晰可見。

支撐技術突破的,是米哈游積累的獨特數據資產。不同于短視頻平臺的海量泛化數據,Anuttacon構建了包含78種情感類別、5000個動作描述符的結構化表演數據庫。其"身份感知參考圖像管線"要求輸入全局外觀、多視角圖像及8類表情范例,這種工業級品控標準源自游戲開發中對角色塑造的嚴苛要求。在訓練階段,系統對傾聽行為進行350萬次標注,使AI掌握對話間隙的呼吸節奏與猶豫停頓,精準命中行業痛點。

商業化路徑選擇凸顯戰略考量。Anuttacon明確拒絕開源模型權重,將LPM定位為虛擬角色交互領域的視覺引擎。在算力成本方面,雖然單GPU可實現0.35秒處理1秒視頻,但大規模并發場景仍面臨硬件壓力。其首款買斷制游戲《星之低語》以33.99元定價試水C端市場,雖因上下文銜接問題暫未引爆市場,卻驗證了技術可行性。當前重點轉向B端場景,虛擬主播、AI客服等需要24小時穩定運行的領域,成為模型落地的首要突破口。

這項技術對內容創作生態的潛在影響正在顯現。當用戶僅需提供照片和文本描述即可驅動AI完成表演,傳統UGC平臺的建模門檻將被徹底打破。Anuttacon的野心不止于技術供應商,其構建的"照片-對話-表演"創作鏈條,正在為新型互動媒體形態奠定基礎。在蔡浩宇的布局中,這場關于數字生命的競賽,或許才剛剛拉開序幕。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新