meta 近日正式推出 Muse Spark,這是其超級智能實驗室(MSL)成立后的首款產品,也是該公司九個月以來發布的首個新模型。消息發布后,meta 股價在交易中一度上漲超過 10%。公司首席執行官扎克伯格在社交平臺 Threads 上稱贊其為“世界級助手”,但也有高管坦言,Muse Spark 并未突破現有技術邊界,僅在部分任務中具備競爭力。
這款模型的誕生背景特殊。meta 在經歷內部動蕩后,通過重組 AI 部門并重建技術棧,最終推出 Muse Spark。據團隊負責人 Alexandr Wang 透露,研發團隊“從零開始搭建了整個技術體系”。meta 強調,Muse Spark 在達到 Llama 4 Maverick 同等性能時,所需計算量減少了 90%以上,預訓練階段的計算效率也優于 DeepSeek-V3.1 和 Kimi-K2 的基座模型。
盡管 meta 在發布時通過視覺設計突出 Muse Spark 的優勢,但第三方評測顯示其表現存在明顯短板。在編程、抽象推理和智能體任務等熱門領域,該模型落后于 Gemini 和 GPT-5.4。例如,在抽象推理測試中,Muse Spark 僅得 42.5 分,而 Gemini 3.1 Pro 和 GPT-5.4 分別獲得 76.5 分和 76.1 分。meta 也在官方博客中承認,模型在長時序智能體系統和編程工作流方面仍有不足。
評測機構 Artificial Analysis 的綜合評分顯示,Muse Spark 以 52 分位列第四,低于 Gemini 3.1 Pro、GPT-5.4 和 Claude Opus 4.6。在無工具測試中,其成績為 39.9%,不僅低于 meta 自報的 42.8%,也低于 Gemini 的 44.7%。獨立測試者 Ritesh Khanna 的實測表明,該模型在視覺理解和金融分析方面表現突出,但代碼生成能力墊底,甚至在生成雪花玻璃球時,雖然 Three.js 代碼技術完美,渲染結果卻僅為黑色物體。
Muse Spark 的優勢集中在多模態和健康領域。在圖表理解測試中,它以 86.4 分領先所有對手;健康問答得分 42.8,是 Gemini 3.1 Pro 的兩倍多。meta 表示,健康領域的訓練數據由超過 1000 名醫生參與策劃。這些特性與 meta 的產品需求高度契合,例如識別 Instagram 上的食物照片、為 Ray-Ban 智能眼鏡提供物體識別功能,以及增強 AI 助手的健康問答能力。
與 Llama 系列的開源策略不同,Muse Spark 采取閉源模式,僅向“精選合作伙伴”提供私有 API 預覽。該模型已直接部署在 meta AI 聊天助手中,未來將擴展至 Facebook、Instagram、WhatsApp 和 Ray-Ban 眼鏡,并配套推出基于用戶興趣數據的個性化購物推薦功能。沃頓商學院教授 Ethan Mollick 指出,此舉表明 meta 希望通過自有模型從現有用戶中提取更多商業價值,但缺乏開源權重可能限制其長期影響力。
過去三年,Llama 系列憑借開源策略建立了全球最大的生態,累計下載量達 12 億次,日均下載約 100 萬次。然而,截至 2025 年底,中國模型在 Hugging Face 上的下載占比已達 41%,超過美國的 35%。Llama 4 的市場表現下滑加速了這一趨勢。Muse Spark 的閉源發布,被視為 meta 從開源基礎設施供應商轉向聚焦產品競爭力的戰略調整。
盡管 meta 承諾未來將推出開源版本,但當前優先級明顯傾向于產品落地。公司今年的資本支出預算高達 1150 億至 1350 億美元,幾乎是 2025 年的兩倍。Muse Spark 作為首項成果,驗證了 MSL 團隊在九個月內重建技術棧的能力,尤其在計算效率提升和多模態差異化方面取得進展。不過,在 Muse Spark 發布前一天,Anthropic 推出了限量開放的 Claude Mythos,智譜 AI 也發布了編程基準領先的 GLM-5.1,顯示 AI 領域的競爭仍在持續升溫。






















