ElevenLabs CEO：語音交互崛起，AI發展新戰場與挑戰并存

發布時間：2026-02-07 00:31 來源：快訊作者：鄭浩

在多哈網絡峰會上，ElevenLabs聯合創始人兼首席執行官馬蒂·斯坦尼謝夫斯基向TechCrunch透露，語音正逐漸成為人工智能領域的關鍵交互界面。隨著技術突破文本與屏幕的限制，語音交互有望成為人類與機器溝通的主流方式。他指出，當前語音模型已不再局限于模仿人類語音的語調和情感，而是開始與大語言模型的推理能力深度融合，這種變革正在重塑人機交互的形態。

斯坦尼謝夫斯基描繪了一個未來場景：人們將減少對手機屏幕的依賴，通過語音指令與周圍環境中的智能設備無縫互動。這一愿景正推動ElevenLabs完成5億美元融資，公司估值躍升至110億美元。該趨勢在科技行業引發連鎖反應，OpenAI、谷歌等巨頭均將語音技術列為下一代模型的核心方向，蘋果則通過收購Q.ai等企業布局語音相關的持續在線功能。

隨著人工智能向可穿戴設備、汽車等新硬件領域滲透，語音交互正從輔助功能升級為控制中樞。Iconiq Capital合伙人賽斯·皮埃爾龐在峰會上表示，盡管屏幕在娛樂領域仍具價值，但鍵盤等傳統輸入方式已顯落后。他預測，隨著AI系統智能化程度提升，交互模式將轉向主動響應，模型通過上下文理解和預設規則減少用戶提示需求。

斯坦尼謝夫斯基進一步解釋，未來的語音系統將具備持續記憶能力，通過積累用戶習慣和場景數據實現更自然的交互。這種轉變促使ElevenLabs調整技術架構，從純云端處理轉向混合模式，以支持耳機等可穿戴設備的實時語音交互。目前，該公司已與meta達成合作，將其語音技術應用于Instagram和Horizon Worlds等平臺，并表達了對Ray-Ban智能眼鏡項目的合作興趣。

技術普及的同時，隱私風險成為焦點議題。當語音系統持續運行并嵌入日常硬件時，用戶數據收集范圍可能大幅擴大。批評者指出，這類系統在靠近用戶生活場景時，存在過度存儲個人信息的隱患，而谷歌等企業此前已因數據濫用問題受到質疑。如何在便利性與隱私保護間取得平衡，將成為語音AI發展的關鍵挑戰。

針對技術特性，ElevenLabs的語音模型通過整合情感表達與邏輯推理能力，實現了交互真實性的突破。用戶無需逐字下達指令，系統可根據歷史對話和當前場景推斷需求。這種進化不僅改變了設備使用方式，更預示著人工智能從工具向智能伙伴的角色轉變。隨著混合計算架構的推進，語音交互的響應速度和可靠性將進一步提升，為物聯網時代奠定基礎。

更多>同類內容