小米AI新征程：羅福莉首秀，MiMo-V2-Flash開啟AGI新探索

發布時間：2025-12-17 22:06 來源：快訊作者：孫雅

在近日舉辦的小米“人車家全生態合作伙伴大會”上，前DeepSeek核心成員、現小米MiMo團隊負責人羅福莉完成首次公開演講。這位被視為小米AI研發轉型關鍵人物的技術專家，以一場融合生物進化論與AI技術創新的演講，引發行業對下一代智能體系統的深度思考。

面對市場期待的"顛覆性突破"，羅福莉選擇從生命演化視角切入AI發展命題。她通過對比6億年前生命控制身體的原始能力與現代大模型的語言處理能力，指出當前技術路徑的特殊性："生物進化遵循感知-思考-語言的遞進邏輯，而AI發展卻逆向構建，先掌握語言壓縮的人類認知，再反推物理世界模擬能力。"這種倒置式發展雖帶來算力突破，卻導致模型缺乏對重力、摩擦力等基礎物理法則的感知。

針對這一痛點，小米推出的MiMo-V2-Flash模型展現出三大技術突破。在架構層面，該模型采用5:1比例的混合滑動窗口注意力機制，通過鎖定128個token的"神奇窗口"，在保持256K長上下文處理能力的同時，將KV緩存固定化以降低硬件壓力。這種設計使代碼生成能力刷新行業紀錄，在公開評測中與參數規模翻倍的競品持平。

推理效率方面，模型通過三層多令牌預測（MTP）技術實現2.5倍加速，生成速度達150 tokens/秒。這項源自DeepSeek的技術經過創新應用，在微調階段通過增加MTP層數，用不到標準流程1/50的計算量即復刻教師模型性能。測試數據顯示，該模型在云端數據中心實現每秒5000-15000 tokens的吞吐量，單請求處理速度較Gemini 2.5 Pro提升3倍，成本降低20倍。

在訓練范式革新上，團隊提出的MOPD（多教師在線策略蒸餾）技術突破傳統強化學習瓶頸。該技術通過稠密令牌級獎勵信號進行監督學習，使模型在幾十步內快速吸收各領域專家能力。更值得關注的是自進化機制——當學生模型性能超越教師時，系統自動替換更強模型繼續迭代，形成持續優化的閉環。

盡管技術指標亮眼，端側部署仍面臨現實挑戰。以旗艦手機為例，當前端側模型的舒適區停留在3-7B參數區間，而MiMo-V2-Flash的15B激活參數仍需依賴云端算力。這種"云端強模型"與"終端弱交互"的矛盾，暴露出AI手機變革的技術鴻溝。

羅福莉在演講中描繪的智能體藍圖更具顛覆性。她提出下一代系統需具備兩大核心能力：其一，從"回答問題"轉向"完成任務"，通過全模態感知構建動態系統，使AI無縫嵌入智能眼鏡等終端；其二，建立物理模型，打造具備時空連貫性的虛擬宇宙。現場演示中，模型通過HTML代碼生成可交互的太陽系模擬系統，初步展現語言空間模擬物理世界的能力。

隨著MiMo-V2-Flash模型權重和技術報告的開源，小米同步推出Web Coding IDE開發接口和體驗平臺。這場融合生物哲學與工程技術的演講，不僅展現小米在AI領域的技術積淀，更揭示出從語言智能到物理智能的跨越路徑——真正的智能不應是文本空間的投影，而需在真實交互中持續進化。

更多>同類內容