DeepSeek 推出了 Janus Pro,這是一個新的多模態AI模型,因其在AI影像生成和理解方面的高效方法在科技界引發了廣泛討論。該模型以雙面羅馬神命名,象徵其在視覺內容理解和生成方面的雙重能力。這個擁有7B引數的模型標誌著 DeepSeek 在AI領域的又一重要里程碑。
高效架構
該模型在架構設計上展現出顯著的效率優勢,所需的計算資源遠少於競爭對手。模型訓練僅用了7-14天,使用了16-32個節點的叢集,每個節點配備8個 NVIDIA A100 GPU。估計訓練成本約為11萬美元,僅為早期模型如 DALL-E 2 報告的100萬美元訓練成本的一小部分。
技術規格:
- 模型規模:70億引數
- 訓練基礎設施:16-32個節點,每個節點配備8個 NVIDIA A100 (40GB) GPU
- 訓練週期:7-14天
- 影像解析度:384x384
- 預估訓練成本:約11萬美元
主要特點:
- 多模態功能(文字生成影像和影像理解)
- 允許商業使用
- 限制軍事用途
- 可本地部署
技術侷限與能力
雖然 Janus Pro 在基準測試中表現出色,但仍存在一些明顯的侷限性。目前,該模型生成的影像解析度僅限於384x384,遠低於某些競爭對手提供的1024x1024解析度。不過,社群討論認為這種限制可能是有意為之,重點關注提示詞理解和生成質量,而非原始解析度,這個問題可以透過升尺度技術來解決。
「生成式AI仍然缺乏強制演繹約束(和組合性)的機制,即在獲得一個輸出後,未來輸出的搜尋空間必然受到約束的情況(以及這些約束如何組合)。」
市場影響
這一發布在科技市場引起了顯著反響,導致AI相關公司股價出現明顯波動。該模型的效率提升特別影響了市場對AI開發硬體需求的認知,挑戰了人們對具有競爭力的AI能力所需基礎設施規模的假設。
許可和可訪問性
DeepSeek 以自有許可方式釋出 Janus Pro,允許商業使用但限制軍事應用。這種相對開放的方式,加上模型的高效架構,可能會降低組織實施先進AI影像功能的門檻。
Janus Pro 的開發代表著AI影像生成技術民主化的重要一步,儘管與現有解決方案相比,其實際效能仍有待驗證。隨著技術的不斷發展,這種注重效率和可訪問性的方向可能會重塑我們對AI模型開發和部署的方式。