社群熱議 Meta 的 MILS:LLM 真的能不經訓練就"看見和聽見"嗎?

BigGo Editorial Team
社群熱議 Meta 的 MILS:LLM 真的能不經訓練就"看見和聽見"嗎?

Meta 的 FAIR(Facebook AI Research)最近發表了一篇題為LLMs can see and hear without any training(大語言模型無需訓練即可看見和聽見)的論文,引發了人工智慧社群內的廣泛討論。該論文介紹了 MILS,這是一種使語言模型能夠在沒有針對這些模態進行特定訓練的情況下執行影像、音訊和影片描述等多模態任務的方法。然而,社群的反應表明,論文的標題可能比實際技術成就更具煽動性。

換了名字的 Actor-Critic 架構

從本質上講,MILS 使用了社群中許多人立即認出的 Actor-Critic 設定,儘管有趣的是,論文字身並沒有使用這一術語。該系統採用了一個生成器(Generator,即 LLM)和一個評分器(Scorer,如 CLIP)在一個迭代過程中,LLM 生成描述並從預訓練的評分模型接收反饋。

「是的,顯然他們發明了新名稱:生成器和評分器。這感覺有點像 Tai's Model 現象」

這種方法引發了與 Tai's Model 現象的比較,即已建立的概念被重新命名為新術語。社群指出,雖然該方法很巧妙,但論文的框架暗示了比實際情況更多的創新性。

MILS系統的關鍵組成部分

  • 生成器:一個LLM(具體為 8B Llama 模型),用於生成標題或描述
  • 評分器:預訓練模型,如 CLIP ,用於評估生成器的輸出
  • 工作流程:迭代過程,LLM根據評分器的反饋改進輸出

論文中展示的任務

  • 影像標註
  • 音訊標註
  • 影片標註
  • 高質量影像生成
  • 風格遷移
  • 跨模態算術運算

標題與現實:理解宣告

許多評論者對論文的標題提出質疑,認為它歪曲了實際情況。該系統並不是真正使 LLM 能夠以標題所暗示的方式看見和聽見。相反,它建立了一個反饋迴圈,LLM 根據已經在視覺或音訊資料上訓練過的模型的評分,迭代地改進其輸出。

這種方法有點類似於一個盲人玩捉迷藏遊戲,他們根據熱或冷的反饋向目標前進。LLM 並不是直接處理視覺或音訊輸入,而是使用關於其猜測的文字反饋來收斂到適當的描述。

湧現能力還是巧妙工程?

一些論文的支持者強調,該方法展示了 LLM 的湧現能力。由於語言模型並沒有被明確訓練來解釋視覺模型的反饋並相應地調整,它能夠這樣做可以被視為一種湧現屬性。LLM 有效地在沒有在其訓練資料中包含此特定任務的例子的情況下,找到了通向正確描述的路徑。

然而,批評者指出,該系統仍然嚴重依賴於預訓練的多模態模型,如 CLIP,而這些模型確實已經在大量視覺資料上進行了訓練。爭論的焦點在於,當系統依賴於其他已訓練的元件時,無需任何訓練是否是一個準確的描述。

擬人化 AI 能力

評論中反覆出現的一個主題是對用於描述 AI 系統的擬人化語言的擔憂。一些評論者諷刺性地將其與簡單裝置進行比較,如光敏電阻和恆溫器,它們可以在沒有任何訓練或程式碼的情況下看見黑暗或感覺溫度。

雖然這些類比顯然是誇張的,但它們突顯了一個合理的擔憂,即 AI 研究是如何被傳達的。使用看見和聽見等類人術語可能會造成對這些系統實際在做什麼以及它們如何工作的誤解。

社群對這篇論文的反應反映了 AI 研究傳播中更廣泛的緊張關係,在這種關係中,製作引人注目的標題的壓力有時與精確的技術描述相沖突。隨著大型研究實驗室競爭關注和資金,人們越來越擔心在 AI 能力的框架方式中存在不必要的誇大宣傳。

儘管有這些批評,論文中描述的技術方法確實代表了一種有趣的方法,可以在不進行特定任務微調的情況下利用 LLM 進行多模態任務,即使無需任何訓練的說法需要大量限定條件。

參考:LLMs can see and hear without any training

Meta 的 MILS 專案的 GitHub 倉庫,展示了有關LLM能力的爭議性宣告背後的技術基礎
Meta 的 MILS 專案的 GitHub 倉庫,展示了有關LLM能力的爭議性宣告背後的技術基礎