DeepSeek 釋出 Janus Pro：7B引數模型挑戰AI影像生成領域現狀

BigGo Editorial Team

DeepSeek 推出了 Janus Pro，這是一個新的多模態AI模型，因其在AI影像生成和理解方面的高效方法在科技界引發了廣泛討論。該模型以雙面羅馬神命名，象徵其在視覺內容理解和生成方面的雙重能力。這個擁有7B引數的模型標誌著 DeepSeek 在AI領域的又一重要里程碑。

該模型在架構設計上展現出顯著的效率優勢，所需的計算資源遠少於競爭對手。模型訓練僅用了7-14天，使用了16-32個節點的叢集，每個節點配備8個 NVIDIA A100 GPU。估計訓練成本約為11萬美元，僅為早期模型如 DALL-E 2 報告的100萬美元訓練成本的一小部分。

技術規格：

主要特點：

雖然 Janus Pro 在基準測試中表現出色，但仍存在一些明顯的侷限性。目前，該模型生成的影像解析度僅限於384x384，遠低於某些競爭對手提供的1024x1024解析度。不過，社群討論認為這種限制可能是有意為之，重點關注提示詞理解和生成質量，而非原始解析度，這個問題可以透過升尺度技術來解決。

「生成式AI仍然缺乏強制演繹約束（和組合性）的機制，即在獲得一個輸出後，未來輸出的搜尋空間必然受到約束的情況（以及這些約束如何組合）。」

這一發布在科技市場引起了顯著反響，導致AI相關公司股價出現明顯波動。該模型的效率提升特別影響了市場對AI開發硬體需求的認知，挑戰了人們對具有競爭力的AI能力所需基礎設施規模的假設。

DeepSeek 以自有許可方式釋出 Janus Pro，允許商業使用但限制軍事應用。這種相對開放的方式，加上模型的高效架構，可能會降低組織實施先進AI影像功能的門檻。

Janus Pro 的開發代表著AI影像生成技術民主化的重要一步，儘管與現有解決方案相比，其實際效能仍有待驗證。隨著技術的不斷發展，這種注重效率和可訪問性的方向可能會重塑我們對AI模型開發和部署的方式。