DeepSeek 推出 Janus-Pro 挑戰 DALL-E 3,打造高效開源多模態人工智慧

BigGo Editorial Team
DeepSeek 推出 Janus-Pro 挑戰 DALL-E 3,打造高效開源多模態人工智慧

在人工智慧行業的一項重大發展中,中國人工智慧初創公司 DeepSeek 釋出了 Janus-Pro,這是一個新的多模態人工智慧模型,展示了高效、低成本的方法如何能夠與行業巨頭競爭。該釋出恰逢業界對人工智慧開發成本和資源需求的討論日益激烈之際。

多模態人工智慧的新方法

DeepSeek 的 Janus-Pro 代表了一個新型的自迴歸框架,可以同時分析和生成影像。該模型系列的引數規模從10億到70億不等,其中旗艦版 Janus-Pro-7B 在 GenEval 和 DPG-Bench 等基準測試中據報道優於 OpenAI 的 DALL-E 3 和 Stability AI 的 Stable Diffusion XL 等成熟解決方案。

模型規格:

  • 引數範圍:1B 到 7B
  • 訓練要求(1.5B 模型):128個 A100 GPU,7天
  • 訓練要求(7B 模型):256個 A100 GPU,14天
  • 影像解析度限制:384 x 384(較小型號模型)

高性價比的創新

Janus-Pro 的開發展示了 DeepSeek 小而精的戰略。訓練過程顯示出顯著的效率,1.5B引數模型需要128個 NVIDIA A100 GPU 執行七天,而7B引數版本需要256個 A100 GPU 執行十四天。這種方法與業界通常的更大就是更好的思維方式和海量計算需求形成鮮明對比。

開源和可訪問性

Janus-Pro 採用 MIT 許可證釋出,可透過 Hugging Face 等人工智慧開發平臺免費用於商業用途。這種開源方式使個人和小型企業都能獲取先進的人工智慧技術,儘管某些模型僅限於分析384 x 384解析度的影像。

市場影響和定價

DeepSeek 的API服務定價結構保持競爭力,快取命中的輸入令牌成本為每百萬個人民幣1元,快取未命中為人民幣4元,而輸出令牌的價格為每百萬個人民幣16元。這種定價模式,加上模型的高效性,挑戰了傳統對競爭性人工智慧開發所需資源的假設。

定價結構:

  • 輸入令牌(快取命中):人民幣¥1/百萬
  • 輸入令牌(快取未命中):人民幣¥4/百萬
  • 輸出令牌:人民幣¥16/百萬

安全性和訪問考慮

在最近的安全挑戰之後,DeepSeek 實施了防禦措施,暫時將註冊限制為+86電話號碼。這一舉措突顯了人工智慧部署中安全性日益增長的重要性,同時確保核心使用者的服務可用性。