最近釋出的 Skywork-OR1(Open Reasoner 1)模型在人工智慧社群引發了廣泛討論,特別是關於這些模型的呈現方式與其實際開發方法之間的差異。儘管這些模型在數學和程式設計基準測試上表現出色,但社群成員對模型描述和營銷方式的透明度提出了擔憂。
微調與原創架構的區別
Skywork-OR1 系列,包括 Skywork-OR1-Math-7B、Skywork-OR1-32B-Preview 和 Skywork-OR1-7B-Preview,因其在 AIME24、AIME25 和 LiveCodeBench 等基準測試上的強勁表現而備受推崇。然而,社群成員指出,這些模型實際上是對現有模型的微調版本,而非全新架構——這一事實僅在 Skywork 公告的最底部提及。
「不是要貶低他們的工作,但這不應該被埋在頁面底部——全新模型和微調模型之間存在巨大差異。」
這些模型是基於 DeepSeek-R1-Distill-Qwen-7B 和 DeepSeek-R1-Distill-Qwen-32B 構建的,而這些模型本身就是其他模型的蒸餾版本。這種層層疊加的模型開發方法引發了人工智慧研究社群對命名規範和透明度的討論。一些評論者指出,像 Meta 這樣的公司明確要求衍生作品在新模型名稱的開頭包含原始模型名稱(如 Llama)。
![]() |
---|
Skywork-OR1 模型的 GitHub 倉庫,展示了它們的程式碼和結構,與微調與原始架構討論相關 |
基準測試相關性受質疑
社群討論中另一個爭議點圍繞評估模型所使用的基準測試。一些使用者質疑使用 AIME24 分數的相關性,因為該模型很可能在相同的資料集上進行了訓練。一位評論者指出,這是人工智慧模型評估中的普遍問題,因為大多數基準資料集最終都會成為訓練資料的一部分。
AIME24 和 AIME25 分數之間的顯著下降(例如,Skywork-OR1-Math-7B 在 AIME24 上得分為 69.8,但在 AIME25 上僅為 52.3)似乎驗證了這一擔憂,表明該模型在可能已經見過的訓練資料上表現更好。
模型效能比較 (Avg@32)
模型 | AIME24 | AIME25 | LiveCodeBench (Avg@4) |
---|---|---|---|
DeepSeek-R1-Distill-Qwen-7B | 55.5 | 39.2 | 37.6 |
Light-R1-7B-DS | 59.1 | 44.3 | 39.5 |
Skywork-OR1-Math-7B | 69.8 | 52.3 | 43.6 |
Skywork-OR1-7B-Preview | 63.6 | 45.8 | 43.9 |
DeepSeek-R1-Distill-Qwen-32B | 72.9 | 59.0 | 57.2 |
Skywork-OR1-32B-Preview | 79.7 | 69.0 | 63.9 |
DeepSeek-R1 (671B) | 79.8 | 70.0 | 65.9 |
![]() |
---|
一個折線圖,展示了 Skywork-OR1-Math-7B 在 AIME24 資料集上的表現,說明了討論中提出的關於基準相關性的擔憂 |
本地模型效能權衡
討論還涉及了本地執行人工智慧模型與使用基於雲的服務之間的更廣泛話題。社群成員分享了他們使用各種本地模型的經驗,指出雖然這些模型在某些任務上可能更快,但速度、準確性和多功能性之間通常存在權衡。
對於具有特定硬體限制(如有限的 GPU 記憶體)的使用者來說,選擇合適的模型變得至關重要。幾位評論者提到,雖然沒有本地模型能像 ChatGPT 或 Gemini 這樣的基於雲的模型那樣在各方面都表現不錯,但專門的模型可以在特定任務上表現出色,如程式設計(推薦使用 qwen 2.5 coder 32b 等模型)。
開源承諾
儘管存在這些擔憂,社群對 Skywork 致力於開源工作的態度仍然積極。該公司承諾不僅釋出模型權重,還將釋出他們的訓練資料和程式碼,儘管在公告發布時,其中一些資源仍標記為即將推出。
這種開放方法可能會解決社群提出的一些透明度問題,讓其他人更好地瞭解這些模型是如何開發的,並可能在此基礎上進一步發展。
Skywork-OR1 模型代表了人工智慧模型開發不斷演變的格局中一個有趣的案例研究,其中原創研究、蒸餾和微調之間的界限繼續模糊。隨著這些實踐變得越來越普遍,人工智慧社群似乎正在呼籲制定更明確的標準,規範此類工作的呈現和歸屬方式。