近日,小米在人工智能領域取得重大突破,其多項AI創新成果成功入選全球音頻領域極具權威性與影響力的國際頂級學術會議ICASSP 2026。ICASSP自1976年在美國費城首次舉辦以來,已有近50年歷史,此次會議將于今年5月在西班牙巴塞羅那舉行。小米入選的成果涵蓋音頻理解、音樂生成評估、通用音頻 - 文本預訓練、視頻到音頻合成等多個AI領域。
在音頻理解領域,小米團隊推出了ACAVCaps數據集。當前主流音頻數據集存在“規模大但描述簡略”或“描述詳盡但規模受限”的局限,ACAVCaps通過創新自動化管線,從多維度、多視角對音頻內容進行精細化刻畫。它構建了多級自動化標注框架,利用多個專家模型并行提取原始音頻中的聲音事件、音樂特征等關鍵元數據,再引入大語言模型并采用思維鏈推理策略整合信息。該數據集包含約470萬條音頻 - 文本對,推動音頻AI從“特征識別”向“語義理解”發展,且近期將全面開源。
音樂生成評估方面,小米提出了FUSEMOS雙編碼器架構。現有自動音樂感知評估方法依賴單一音頻編碼器,捕捉音樂復雜結構與細粒度特征能力有限。FUSEMOS融合CLAP與MERT兩大預訓練模型,CLAP強化音頻與文本語義對齊,MERT有效建模音樂內在結構特征。采用晚期融合策略,引入排名感知復合損失函數,在Musiceval基準上的實驗表明,其在關鍵指標上顯著優于現有方法。
通用音頻 - 文本預訓練領域,小米的GLAP模型實現了跨音頻領域(語音/音樂/環境音)與跨語言的音頻 - 文本對齊,支持RAG形式的音頻搜索。它首次通過單一框架同時優化語音、音樂及聲音事件的檢索與分類性能,解決了傳統CLAP模型領域割裂的問題。在語音檢索上成績優異,還具備多語言泛化能力,無需目標語種微調,在50種語言的關鍵詞識別中展現Zero - shot能力。該模型可直接賦能小米“人車家全生態”中需跨模態理解的場景,降低下游產品線音頻AI研發門檻。
在視頻到音頻合成方面,MeanFlow模型為多模態音頻生成任務構建高效基座模型,實現視頻同步音效生成場景中推理效率與生成質量的雙重突破,還具備跨任務穩定泛化能力。它首次在V2A任務中通過平均速度場建模替代傳統流匹配模型的瞬時速度建模,解決推理速度瓶頸,實現一步生成。引入標量重縮放機制緩解失真問題,實驗驗證其在推理速度大幅提升的同時保障音效生成質量。該模型可直接賦能影視后期、短視頻平臺等實際場景,推動實時音效生成技術規模化落地。
在檢索領域,小米提出統一多任務學習框架,解決傳統檢索中“找圖、找文、意圖理解”三個獨立訓練模型的問題。該框架將三個任務整合到兩個模型、一個架構中,文本編碼器同時對齊圖像和文本語義空間,通過跨注意力機制與NLU模型進行語義交互。此設計節省模型數量、降低系統內存占用,增強模型間語義能力,支持多語言輸入,實現跨模態、跨語言高效語義對齊,為小米手機場景下的多模態檢索提供輕量化、高性能解決方案,在多個數據集上表現優異。






















