小米認領爆款模型！雷軍稱超越馬斯克xAI，MiMo-V2-Pro將開源引期待

發布時間：2026-03-19 12:45 來源：快訊作者：趙靜

近日，科技圈迎來一則重磅消息：此前在OpenRouter平臺引發廣泛關注的神秘模型Hunter Alpha，終于揭開神秘面紗，其真實身份竟是小米最新發布的MiMo-V2-Pro早期內部測試版本。與此同時，小米正式推出MiMo-V2家族三款全新模型，除MiMo-V2-Pro外，還包括MiMo-V2-Omni和MiMo-V2-TTS，另一備受猜測的匿名模型Healer Alpha也確認對應MiMo-V2-Omni。

一周前，Hunter Alpha悄然上線全球最大的API聚合平臺OpenRouter，憑借出色表現迅速成為焦點。上線后，其調用量持續攀升，連續多日占據日榜榜首，累計調用量突破1T tokens。小米官方介紹，經過一周的持續迭代與優化，MiMo-V2-Pro在長文處理能力以及Agent場景穩定性方面實現顯著提升。雷軍也親自為新品站臺，他表示MiMo-V2-Pro在榜單上的表現已超越馬斯克旗下xAI的Grok，并透露小米在AI領域雖一直保持低調，但實際進展遠超外界想象，今年在AI領域的研發和資本投入將超過160億元。

MiMo-V2家族的三款模型各有側重。MiMo-V2-Pro作為旗艦模型，專為高強度Agent工作場景打造。它總參數量超過1T，激活參數為42B，采用創新的混合注意力架構，支持1M超長上下文。該模型在匿名測試階段就引發大量關注，OpenClaw早早給予支持。從技術規格看，相比前代MiMo-V2-Flash，其總參數量擴大約3倍，混合注意力比例從5:1提升到7:1，在參數規模增大的同時維持較高推理效率，輕量級MTP層也進一步提升了生成速度。在后訓練階段，團隊針對更廣泛的Agent場景持續Scaling，使模型逐漸能勝任真實生產環境中的復雜執行工作，朝著“生產力系統的大腦”定位推進。在大模型綜合智能排行榜Artificial Analysis上，MiMo-V2-Pro位列全球第八、國內第二。在實際使用中，它在OpenClaw、Claude Code等智能體框架中展現出突出的端到端任務完成能力，官方稱其整體使用體感超越Claude Sonnet 4.6，逼近Claude Opus 4.6，且API定價僅為后者的1/5。

MiMo-V2-Pro在編程領域也重點發力。小米內部工程師深度評測顯示，其整體體驗接近Claude Opus 4.6，在系統設計、任務規劃、代碼風格以及問題解決路徑上展現出更高階的代碼智能。在Hunter Alpha測試階段，調用量最高的幾款應用大多是編程工具，側面證明其在真實研發場景中具備較高的可用性和可靠性。目前，MiMo-V2-Pro已正式開放API服務，支持1M上下文長度，并根據使用量分段計價：256K上下文以內，輸入1美元/百萬tokens，輸出3美元/百萬tokens；1M上下文以內，輸入2美元/百萬tokens，輸出6美元/百萬tokens。與智譜面向真實Agent長鏈路任務深度優化的模型GLM-5-Turbo相比，小米模型定價整體略高，但此前Hunter Alpha在Claw-eval測試中擊敗了GLM-5。

MiMo-V2-Omni則瞄準現實世界中復雜的多模態交互與執行場景。在音頻理解方面，它支持從環境聲分類、多說話人分離，到音頻—視覺聯合推理，再到超過10小時長音頻的連續理解，綜合表現超過Gemini 3 Pro，是當前最強的音頻理解基座模型之一。在圖像理解方面，展現出強大的多學科視覺推理與復雜圖表分析能力，效果超過Claude Opus 4.6，逼近Gemini 3 Pro等頂尖閉源模型。在視頻理解方面，支持原生音視頻聯合輸入，實現真正意義上的多模態視頻理解，通過創新性的視頻預訓練，具備更強的情境感知與未來推理能力。在與真實數字環境交互的評測基準上，其整體表現比肩Gemini 3 Pro。目前，MiMo-V2-Omni已正式開放API服務，支持256K上下文長度，定價為輸入0.4美元/百萬tokens，輸出2美元/百萬tokens。

一同發布的MiMo-V2-TTS是一款自研的語音合成大模型。它基于自研Audio Tokenizer與多碼本語音—文本聯合建模架構，經過上億小時語音數據的大規模預訓練和多維度強化學習，具備高度可控的多粒度語音風格控制能力。不僅能完成整體風格定調，還能對局部情緒表達進行精準調節。訓練時先通過超大規模語音—文本混合預訓練建立跨模態對齊、理解和生成能力，再通過少量高質量監督數據微調獲得可泛化的多粒度、多風格指令控制能力。為激發模型在預訓練階段積累的高表現力語音生成潛力，團隊引入多維度強化學習，圍繞更自然的韻律、更穩定的音質、更準確的字詞表達、更高質量的音色克隆以及不同場景下更合適的語氣與表達方式進行持續優化。得益于多層碼本建模架構，它能在高保真的離散token空間中建模語音，最大限度保留原始語音中的豐富信息，讓強化學習階段能更直接地利用語音相關獎勵信號對模型進行優化。

小米此次發布的三款模型，顯示出其押注一套面向Agent時代的通用智能底座的決心。此前匿名爆紅也讓市場對其他模型廠家充滿期待。近日有消息稱，DeepSeek-V4將于4月正式上線，作為梁文鋒打磨已久的多模態大模型，除在Coding能力上躍升外，還將在LTM（long term memory長期記憶）上取得突破，這恰好是智能體當前的短板之一。隨著國內各模型廠家的戰略和人才調整，今年國內大模型市場必將精彩紛呈。

更多>同類內容