在人工智慧研究領域出現了一個令人驚訝的發現,一篇名為《理解類 R1-Zero 訓練:批判性視角》的新論文挑戰了關於大型語言模型(LLMs)如何發展推理能力的普遍假設。該研究表明,像 DeepSeek-V3-Base 和 Qwen2.5 這樣的基礎模型在經過專門的強化學習訓練之前,已經具備了顯著的推理能力。
基礎模型已經展示高階推理能力
根據這篇研究論文,DeepSeek-V3-Base 模型已經表現出研究人員所稱的頓悟時刻——這是許多人認為只有透過專門的 R1-Zero 訓練技術才能獲得的推理能力突破。更引人注目的是,研究發現 Qwen2.5 基礎模型在沒有提示模板的情況下就展示了強大的推理能力,與傳統提示方法相比,基準測試分數提高了約60%。
這一發現在技術社群引發了廣泛討論,許多專家開始質疑大量強化學習過程的實際價值。
「我想提供一個可能的替代解釋。在訓練了相當多的 LLM 之後,特別是從文字補全模型到指令模型的提升過程中,我注意到指令遵循能力往往不會在 LLM 能夠執行的所有任務中均勻分佈。」
研究的關鍵發現
- DeepSeek-V3-Base 模型在專門訓練之前已經展示出"頓悟時刻"能力
- Qwen2.5 基礎模型在沒有提示模板的情況下基準測試分數提高約60%
- GRPO 演算法導致偏向性最佳化,透過提出的"Dr. GRPO"修復解決
- 極簡主義 R1-Zero 方案僅使用8個 A100 GPU 計算27小時就實現了最先進的效能
- 模板和問題集作為二重奏影響強化學習動態
- Llama 也可以從基礎模型進行強化學習調整,領域特定的預訓練提高強化學習上限
![]() |
---|
這張圖片展示了與基礎模型推理能力相關的數學問題解決場景 |
質疑思維鏈令牌的作用
社群討論強調了對這些模型中所謂表面自我反思的擔憂。許多使用者觀察到,模型輸出的結論並不總是自然地遵循思維鏈過程中生成的思考令牌。這種脫節引發了關於這些思考令牌實際作用的質疑。
一些評論者認為,額外令牌的好處可能比通常認為的要簡單得多——更多的令牌只是減少了最終輸出字串的選項,而不是代表實際思考。其他人則提出,即使新增空格或重複字元也可能透過允許模型進入不同的內部狀態來提高輸出質量,有效地將這些令牌用作處理的路標。
R1-Zero 訓練的效率改進
該論文介紹了一種更高效的 R1-Zero 類訓練方法,提出了對 GRPO(廣義偏好最佳化強化學習)演算法的修復,在保持推理效能的同時提高了令牌效率。這種被稱為 Dr. GRPO(正確實施的 GRPO)的改進方法,使研究人員能夠透過對 Qwen2.5-Math-7B 在 MATH 3-5 級問題上進行 RL 微調,以相當有限的計算資源——僅在 8 個 A100 GPU 上執行 27 小時——就達到了最先進的效能。
對於 AI 社群,特別是那些在消費級硬體上執行開源權重模型的人來說,這種效率提升可能會顯著降低與冗長思維鏈過程相關的推理時間成本,這些過程目前消耗了寶貴的上下文視窗空間。
![]() |
---|
這張圖片展示了 Dr GRPO 公式和令牌效率比較,突出了強化學習訓練的進步 |
需要嚴格評估和減少炒作
這項研究出現在 AI 社群中許多人呼籲對模型能力進行更嚴格評估並減少營銷炒作的時期。評論者指出了其他基準結果被誇大的例子,如主要供應商使用的 SWE-verified 編碼基準據報道只有不到 10% 的問題被正確解決。
一些社群成員對這些模型中真正推理能力的宣告持懷疑態度,認為看似推理的能力可能只是基於大量訓練資料的統計模式匹配。關於數字能力(基本計算能力)和真正數學推理之間的區別仍在爭論中。
這項研究代表了向更透明、更現實地評估 AI 能力邁出的重要一步,強調了需要了解這些模型實際在做什麼,而不是將人類般的推理過程歸因於統計系統。
參考:Understanding R1-Zero-Like Training: A Critical Perspective
![]() |
---|
這個條形圖比較了不同模型在各種基準測試中的表現,強調了在人工智慧能力評估中嚴格評估的重要性 |