NotebookLlama 嘗試開源播客生成技術，凸顯 NotebookLM 的技術優勢

BigGo Editorial Team

近期釋出的 NotebookLlama 試圖複製 Google 的 NotebookLM 播客生成功能，在技術社群引發了廣泛討論，主要圍繞著建立自然音質AI生成播客的挑戰以及當前文字轉語音（TTS）技術的現狀。


本文件概述了將 PDF 轉換為播客的過程，反映了 NotebookLlama 在生成人工智慧驅動輸出內容時的工作流程

儘管 NotebookLlama 提供了將PDF轉換為播客的四步工作流程，但社群反饋表明其輸出質量與 Google 的 NotebookLM 相比存在顯著差距。這種差距凸顯了 Google 實現方案的sophistication，特別是在處理自然對話流程和說話人互動方面。

多位開發者和使用者指出，NotebookLM 的成功在於其能夠建立自然的對話，其中說話者之間可以互動、打斷並完成彼此的句子。雖然有人認為這些打斷可能存在問題，但也有人認為這些特性增加了對話的真實感。

社群批評 NotebookLlama 選用的TTS引擎（ parler-tts/parler-tts-mini-v1 和 bark/suno ）並不理想。像 XTTSv2 和 F5-TTS 這樣更先進的開源替代方案可能會提供更好的效果，但它們需要大量計算資源。

對於試圖複製 NotebookLM 功能的獨立開發者來說，優質TTS API的高成本是一個重要挑戰。正如一些開發者指出，即使是 OpenAI 相對實惠的TTS API，要免費生成數小時的音訊內容在經濟上也是不可行的。

NotebookLlama 需要大量計算資源：

值得注意的是，儘管在展示中標榜開源，但社群指出 NotebookLlama 缺乏明確的許可證資訊，這可能限制了其在參考用途之外的實際使用。

該專案承認需要在以下幾個方面進行改進：

雖然 NotebookLlama 可能無法匹配 NotebookLM 的sophistication，但它為開發者提供了關於AI驅動的播客生成複雜性的寶貴見解，併為對這項技術感興趣的開發者提供了一個起點。