在多哈網絡峰會上,ElevenLabs聯合創始人兼首席執行官馬蒂·斯坦尼謝夫斯基向TechCrunch透露,語音正逐漸成為人工智能領域的關鍵交互界面。隨著技術突破文本與屏幕的限制,語音交互有望成為人類與機器溝通的主流方式。他指出,當前語音模型已不再局限于模仿人類語音的語調和情感,而是開始與大語言模型的推理能力深度融合,這種變革正在重塑人機交互的形態。
斯坦尼謝夫斯基描繪了一個未來場景:人們將減少對手機屏幕的依賴,通過語音指令與周圍環境中的智能設備無縫互動。這一愿景正推動ElevenLabs完成5億美元融資,公司估值躍升至110億美元。該趨勢在科技行業引發連鎖反應,OpenAI、谷歌等巨頭均將語音技術列為下一代模型的核心方向,蘋果則通過收購Q.ai等企業布局語音相關的持續在線功能。
隨著人工智能向可穿戴設備、汽車等新硬件領域滲透,語音交互正從輔助功能升級為控制中樞。Iconiq Capital合伙人賽斯·皮埃爾龐在峰會上表示,盡管屏幕在娛樂領域仍具價值,但鍵盤等傳統輸入方式已顯落后。他預測,隨著AI系統智能化程度提升,交互模式將轉向主動響應,模型通過上下文理解和預設規則減少用戶提示需求。
斯坦尼謝夫斯基進一步解釋,未來的語音系統將具備持續記憶能力,通過積累用戶習慣和場景數據實現更自然的交互。這種轉變促使ElevenLabs調整技術架構,從純云端處理轉向混合模式,以支持耳機等可穿戴設備的實時語音交互。目前,該公司已與meta達成合作,將其語音技術應用于Instagram和Horizon Worlds等平臺,并表達了對Ray-Ban智能眼鏡項目的合作興趣。
技術普及的同時,隱私風險成為焦點議題。當語音系統持續運行并嵌入日常硬件時,用戶數據收集范圍可能大幅擴大。批評者指出,這類系統在靠近用戶生活場景時,存在過度存儲個人信息的隱患,而谷歌等企業此前已因數據濫用問題受到質疑。如何在便利性與隱私保護間取得平衡,將成為語音AI發展的關鍵挑戰。
針對技術特性,ElevenLabs的語音模型通過整合情感表達與邏輯推理能力,實現了交互真實性的突破。用戶無需逐字下達指令,系統可根據歷史對話和當前場景推斷需求。這種進化不僅改變了設備使用方式,更預示著人工智能從工具向智能伙伴的角色轉變。隨著混合計算架構的推進,語音交互的響應速度和可靠性將進一步提升,為物聯網時代奠定基礎。




















