最近釋出的 DeepSeek V2.5(一個擁有2360億引數的語言模型)在科技界引發了廣泛討論,特別是關於其與領先人工智慧模型(尤其是 OpenAI 的 GPT-4)的能力對比。雖然基準測試資料令人樂觀,但實際測試結果卻顯示出一個更為複雜的現實。
基準效能與現實表現
根據公佈的基準測試資料,DeepSeek V2.5 在各項指標上展現出令人印象深刻的分數:
- 中文通用能力:8.04
- 英文通用能力:9.02
- 知識能力:80.4
- 推理能力:89.0
然而,社群測試表明基準效能與實際使用之間存在顯著差距。使用者反饋顯示 GPT-4(特別是初始版本)在以下方面表現明顯更優:
- 寫作質量
- 處理速度
- 知識廣度
- 洞察力生成
技術規格與定價
DeepSeek V2.5 提供了一些引人注目的技術特性:
- 2360億引數
- 128K 上下文視窗(API)
- 具有競爭力的定價:輸入令牌0.14美元/百萬,輸出令牌0.28美元/百萬
- 相容 OpenAI API
獨特特徵
DeepSeek V2.5 的一個有趣特點是其內容處理方式。使用者注意到,雖然 GPT-4 傾向於在回答中包含強烈的道德立場,但 DeepSeek 保持著更為中立的態度,作為一個更客觀的工具運作,沒有明顯的內建道德判斷。
技術要求與限制
對於考慮自行部署的使用者,硬體要求相當高:
- 需要8個具有80GB視訊記憶體的GPU用於BF16格式推理
- 影像處理功能似乎存在問題,使用者報告圖片上傳功能經常出錯
資料隱私考慮
作為一個進入全球市場的中國開發的大語言模型,一些使用者對資料隱私和安全性表示擔憂,特別是對於使用雲API服務的使用者。雖然模型本身是開源的,可以自行部署,但託管服務的資料處理實踐需要在敏感應用場景中謹慎考慮。
成本效益
儘管整體質量未能匹配 GPT-4,但 DeepSeek V2.5 具有競爭力的定價使其成為特定使用場景下的有吸引力的替代選擇,特別是在成本效益為優先考慮因素且不需要絕對頂級效能的情況下。
DeepSeek V2.5 的出現代表了大語言模型民主化的又一進步,為現有主流模型提供了一個可行的替代選擇,儘管在實際效能與基準測試結果之間仍存在一些重要差異。