DeepSeek 釋出 Janus Pro:7B引數模型挑戰AI影像生成領域現狀

BigGo Editorial Team
DeepSeek 釋出 Janus Pro:7B引數模型挑戰AI影像生成領域現狀

DeepSeek 推出了 Janus Pro,這是一個新的多模態AI模型,因其在AI影像生成和理解方面的高效方法在科技界引發了廣泛討論。該模型以雙面羅馬神命名,象徵其在視覺內容理解和生成方面的雙重能力。這個擁有7B引數的模型標誌著 DeepSeek 在AI領域的又一重要里程碑。

高效架構

該模型在架構設計上展現出顯著的效率優勢,所需的計算資源遠少於競爭對手。模型訓練僅用了7-14天,使用了16-32個節點的叢集,每個節點配備8個 NVIDIA A100 GPU。估計訓練成本約為11萬美元,僅為早期模型如 DALL-E 2 報告的100萬美元訓練成本的一小部分。

技術規格:

  • 模型規模:70億引數
  • 訓練基礎設施:16-32個節點,每個節點配備8個 NVIDIA A100 (40GB) GPU
  • 訓練週期:7-14天
  • 影像解析度:384x384
  • 預估訓練成本:約11萬美元

主要特點:

  • 多模態功能(文字生成影像和影像理解)
  • 允許商業使用
  • 限制軍事用途
  • 可本地部署

技術侷限與能力

雖然 Janus Pro 在基準測試中表現出色,但仍存在一些明顯的侷限性。目前,該模型生成的影像解析度僅限於384x384,遠低於某些競爭對手提供的1024x1024解析度。不過,社群討論認為這種限制可能是有意為之,重點關注提示詞理解和生成質量,而非原始解析度,這個問題可以透過升尺度技術來解決。

「生成式AI仍然缺乏強制演繹約束(和組合性)的機制,即在獲得一個輸出後,未來輸出的搜尋空間必然受到約束的情況(以及這些約束如何組合)。」

市場影響

這一發布在科技市場引起了顯著反響,導致AI相關公司股價出現明顯波動。該模型的效率提升特別影響了市場對AI開發硬體需求的認知,挑戰了人們對具有競爭力的AI能力所需基礎設施規模的假設。

許可和可訪問性

DeepSeek 以自有許可方式釋出 Janus Pro,允許商業使用但限制軍事應用。這種相對開放的方式,加上模型的高效架構,可能會降低組織實施先進AI影像功能的門檻。

Janus Pro 的開發代表著AI影像生成技術民主化的重要一步,儘管與現有解決方案相比,其實際效能仍有待驗證。隨著技術的不斷發展,這種注重效率和可訪問性的方向可能會重塑我們對AI模型開發和部署的方式。

參考:Janus Pro 技術報告