Nari Labs 釋出了 Dia-1.6B,這是一個開源的文字轉語音模型,因其能夠創建極其自然的對話而在 AI 社群引起了廣泛關注。這次釋出特別值得注意的是,它是由一個僅由兩名工程師組成的小團隊在三個月內開發的,但其質量卻能與更大公司的產品相媲美。
![]() |
---|
由 Nari Labs 開發的 Dia 開源文字轉語音模型的 GitHub 倉庫 |
自然對話生成
與傳統的文字轉語音(TTS)模型不同,傳統模型通常是分別生成每個說話者的臺詞然後將它們拼接在一起,而 Dia 能夠在一次處理中生成整個對話。這種方法產生了更加自然的對話,包含適當的節奏、重疊和情感連貫性。社群成員對該模型生成非語言元素的能力尤為印象深刻,如笑聲、咳嗽和清嗓子。
「這真的很令人印象深刻;我們正在接近我的一個夢想:能夠從 EPUB 生成合適的有聲讀物。不僅僅是一個機器人式的單一聲音,而是為每個主角配上不同的、一致的聲音。」
Dia 輸出的質量讓許多使用者感到驚訝,有幾位評論說這些示例聽起來非常像人類。一些人注意到演示示例具有幾乎戲劇性的質感,一位使用者將這種風格比作電視節目《辦公室》中的角色。這一觀察使另一位評論者發現,其中一個演示示例確實是基於該節目中的一個場景。
語音和情感控制
Dia 的一個突出特點是支援音訊提示,允許使用者根據特定的聲音或情感基調來調整輸出。透過提供一個樣本音訊片段,使用者可以讓模型繼續以相同的風格生成語音。這一功能為有聲讀物、播客和其他創意應用中的一致角色聲音提供了可能性。
一些使用者報告了情感控制功能的混合結果,其中一位提到在嘗試指定歡快的語調時出現了意外的背景音樂等人工痕跡。儘管偶爾有這些怪異現象,但在整個對話中保持一致的聲音特徵的總體能力似乎運作良好。
硬體要求和可訪問性
Dia 的完整版本目前需要約 10GB 的 VRAM 才能執行,這使其超出了擁有較為普通硬體的使用者的能力範圍。然而,開發者表示他們計劃在未來發佈一個量化版本,這將減少這些要求,類似於 Suno 的 Bark 模型如何從需要 16GB 演變為僅需 4GB VRAM 執行。
社群成員已經開始為不同的硬體配置調整模型,一位使用者成功地在 M2 Pro MacBook Pro 上運行了它。另一位確認它在 M4 晶片上也能工作。開發者提到,雖然目前需要 GPU 支援,但很快將新增 CPU 支援。
Dia-1.6B 技術規格
- 模型大小:16億引數
- 硬體要求:約10GB視訊記憶體(需要GPU)
- 已測試平臺:
- 搭載 CUDA 12.6 的 NVIDIA GPU
- M2 Pro MacBook Pro(透過社群適配)
- M4 Apple Silicon
- 生成速度:在 A4000 GPU 上約40個詞元/秒(86個詞元 = 1秒音訊)
- 主要特點:
- 直接對話生成(非拼接單一聲音)
- 音訊提示條件控制聲音/情感
- 非語言交流(笑聲、咳嗽等)
- 多說話者支援
開發時間線
- 由2名工程師建立(1名全職,1名兼職)
- 開發週期約3個月
- 開始專案前沒有語音模型經驗
開源貢獻和未來發展
作為一個在 Apache License 2.0 下發布的開源專案,Dia 已經開始接收社群貢獻。使用者已提交拉取請求以改善與不同硬體平臺的相容性,一些人還討論了 Docker 實現策略。
開發者已經概述了幾個未來改進的領域,包括 Docker 支援、推理速度最佳化和記憶體效率量化。他們還表示有興趣擴充套件對英語以外語言的支援,這是多位社群成員所要求的。
Dia 的釋出代表了民主化訪問先進 AI 語音合成技術的又一重要步驟。透過公開提供他們的 1.6B 引數模型,Nari Labs 為研究人員和開發者提供了一個強大的工具,可以生成令人信服的人類對話,而不需要大型科技公司的資源。