DeepSeek-V3.1-Terminus 回應用戶反饋,修復語言一致性問題並提升代理效能

BigGo 社群部
DeepSeek-V3.1-Terminus 回應用戶反饋,修復語言一致性問題並提升代理效能

DeepSeek 發布了 V3.1-Terminus,這是他們語言模型的更新版本,直接回應了社群對先前 V3.1 版本的反饋意見。此次更新專注於修復語言混用問題並改善代理功能,同時在各項基準測試中維持競爭力表現。

V3.1-Terminus 的主要改進:

  • 語言一致性:消除中英文混用和隨機字符問題
  • 代理程式效能:增強 Code Agent 和 Search Agent 功能
  • 基準測試提升:在基於代理程式的任務和複雜推理方面有顯著改進
  • 可用性:提供 App、Web、API 存取,並在 Hugging Face 上開源權重
  • 授權:採用 MIT 授權,允許商業使用
這張圖片突出了 DeepSeek 模型 V31 和 V31-Terminus 之間的效能比較,強調最新版本的更新和增強功能
這張圖片突出了 DeepSeek 模型 V31 和 V31-Terminus 之間的效能比較,強調最新版本的更新和增強功能

語言一致性問題終於獲得修復

V3.1-Terminus 最重要的改進之一,解決了困擾先前版本的令人沮喪的語言混用問題。用戶一直遇到隨機字符插入以及在對話過程中中英文不當切換的情況。社群對這些問題一直很有意見,許多人發現這些問題嚴重到足以讓他們轉而使用替代模型,儘管 V3.1 在基準測試上表現強勁。

新版本承諾提供更乾淨、更一致的語言輸出,這應該讓它在文字品質與技術能力同等重要的實際應用中更加可靠。

針對真實世界任務提升代理效能

V3.1-Terminus 在基於代理的任務中展現顯著改進,特別是在程式碼生成和網頁瀏覽場景方面。該模型在幾個實用基準測試中展現重大進步,包括在 BrowseComp 上從 30.0 躍升至 38.5,以及在軟體工程任務如 SWE Verified 和 SWE-bench Multilingual 上的改善。

這些代理改進解決了社群對該模型處理需要工具使用和外部互動的複雜多步驟任務能力的另一項關切。

效能比較: DeepSeek-V3.1 vs V3.1-Terminus

基準測試 V3.1 V3.1-Terminus 變化
推理任務
MMLU-Pro 84.8 85.0 +0.2
GPQA-Diamond 80.1 80.7 +0.6
Humanity's Last Exam 15.9 21.7 +5.8
代理任務
BrowseComp 30.0 38.5 +8.5
SimpleQA 93.4 96.8 +3.4
SWE Verified 66.0 68.4 +2.4
Terminal-bench 31.3 36.7 +5.4

社群反應與持續關切

雖然這些更新解決了關鍵技術問題,但一些社群成員對該模型傾向於對用戶輸入做出假設仍保持謹慎態度。用戶回報了一些情況,模型會忽略特定細節或根據它認為合理的內容修正用戶請求,而非精確遵循指示。

「我試過 V3.1,但它忽略用戶輸入的部分內容讓我抓狂,R1 從來不會這樣。」

該模型現在可透過 DeepSeek 的應用程式、網頁介面和 API 取得,開源權重已在 Hugging Face 上以 MIT 授權發布。這種授權方式延續了 DeepSeek 讓其模型可用於研究和商業用途的承諾。

儘管有所改進,AI 社群持續討論基準測試效能與實用性之間的權衡,一些用戶偏好可能在測試中得分較低但在真實世界場景中行為更可預測的舊版模型。

參考資料:DeepSeek-V3.1-Terminus