開源智慧輪次檢測模型解決語音AI對話中的關鍵挑戰

BigGo Editorial Team
開源智慧輪次檢測模型解決語音AI對話中的關鍵挑戰

AI系統理解人類何時結束講話的能力仍然是基於語音的AI互動中最具挑戰性的方面之一。一個名為 Smart Turn Detection 的新開源專案旨在解決這個問題,引起了開發者和潛在使用者的極大興趣。

對話流程挑戰

輪次檢測——確定一個人何時結束講話並期待回應——已被社群成員確認為建立與AI系統自然感覺語音互動的最大障礙。目前的實現方式從令人沮喪的糟糕(比如 Siri 在稍微停頓時就會打斷)到在更高階系統中如 ChatGPT 語音模式中的適度有效但仍不完美的解決方案。

「在很多情況下,人類就是知道某人尚未完成一個想法,但AI仍然很掙扎,這些錯誤可能會完全破壞對話的效率,或者更糟,導致嚴重的功能錯誤。」

當用戶在句子中途停下來整理思緒或使用非母語說話時,這一挑戰尤為嚴峻。這些自然的語音模式經常使AI系統感到困惑,導致它們要麼過早打斷,要麼在適當的時候未能響應。

技術實現

Smart Turn Detection 專案使用 Meta AI 的 Wav2Vec2-BERT 作為其骨幹——這是一個5.8億引數的模型,經過了45億小時的無標籤音訊資料訓練,涵蓋了143多種語言。當前的實現添加了一個簡單的兩層分類頭,用於確定語音片段是完整還是不完整。

社群討論顯示,該模型使用 CoreML 可以實現低至100毫秒的推理時間,替代實現方案則探索了更小的LSTM模型,大約是原始模型大小的七分之一。在L4 GPU上訓練當前模型大約需要45分鐘,儘管配置為10輪,但通常在大約4輪後完成。

該專案的資料集目前由約8,000個樣本組成——一半來自人類說話者,一半使用 Rime 合成生成。這個相對較小的資料集主要關注英語填充詞,這些填充詞通常表示停頓而非話語完成。

當前模型規格:

  • 基礎模型: Wav2Vec2-BERT (580M 引數)
  • 訓練資料:約 8,000 個樣本(4,000 個人類樣本,4,000 個合成樣本)
  • 支援語言:僅英語
  • 訓練時間:在 L4 GPU 上約 45 分鐘
  • 推理目標:GPU 上 <50 毫秒,CPU 上 <500 毫秒

當前限制:

  • 僅支援英語
  • 推理速度相對較慢
  • 訓練資料主要集中在停頓填充詞上
  • 僅限二元分類(完整/不完整)

開發目標:

  • 多語言支援
  • 更快的推理速度(目標:GPU 上 <50 毫秒,CPU 上 <500 毫秒)
  • 更廣泛的語音模式識別
  • 合成訓練資料流程
  • 特定上下文的文字條件設定(信用卡號碼、地址等)

實際應用和侷限性

社群已經確定了這項技術的幾個實際應用,包括改進語音助手、翻譯應用程式,甚至潛在的個人使用案例。一位患有高功能自閉症的評論者表示有興趣在耳機中使用此類技術,這表明其可訪問性應用超出了一般消費者使用範圍。

當前的限制包括僅支援英語、在某些平臺上推理速度相對較慢,以及對停頓填充詞的狹窄關注。專案路線圖包括擴充套件語言支援、提高推理速度(目標在GPU上<50毫秒,在CPU上<500毫秒)、捕捉更廣泛的語音細微差別,以及開發完全合成的訓練資料流程。

一些社群成員仍然懷疑沒有專用的按鍵通話按鈕,輪次檢測是否能夠完全解決,特別是在具有挑戰性的場景中,如非母語人士構思複雜思想或翻譯應用程式。他們建議綜合解決方案可能需要結合輪次檢測、語音中斷檢測和快速的裝置上語言模型。

未來發展

該專案正在積極尋求貢獻者幫助幾個領域:擴充套件語言支援、收集更多樣化的訓練資料、實驗模型架構變體、支援更多平臺上的訓練(包括 Google Colab 和 Apple 的 MLX),以及透過量化和專門的推理程式碼最佳化效能。

隨著語音介面在人機互動中變得越來越重要,解決輪次檢測問題可能會顯著提高這些互動的自然性和效率。這一開源倡議代表著使語音AI感覺更加人性化且使用起來更少挫折感的重要一步。

參考:Smart turn detection