大型語言模型悄然破解字元級難題,引發對真正智能的辯論

BigGo 社群部
大型語言模型悄然破解字元級難題,引發對真正智能的辯論

大型語言模型正在它們傳統上被認為較弱的領域——字元級文字處理——展現出驚人的新能力。近期社群測試顯示,像 GPT-5 和 Claude Sonnet 4 這樣的新模型現在能夠處理計算單詞中特定字母數量、解碼 Base64 和解決替換密碼等任務,這些能力過去需要專門工具或人為介入。這項發展引發了激烈討論,關於這些改進對我們理解人工智慧智能的意義,以及我們見證的是真正的能力成長,還是僅僅在針對測試進行優化。

曾難倒早期模型的草莓測試

社群一直對所謂的草莓測試深感興趣——要求大型語言模型計算單詞 strawberry 中字母 r 出現的次數。多年來,這個簡單問題暴露了語言模型的一個根本弱點。早期模型總是無法通過,經常給出像七個字母 R 這樣的答案,或者完全算錯。失敗根源於大型語言模型透過分詞處理文字的方式,其中字元被分組為詞元而非單獨處理。這使得字元級操作對於原本能處理複雜推理任務的模型來說變得異常困難。

最近的變化是,來自多家供應商的新模型現在能持續通過這些測試。測試 GPT-5 模型的社群成員發現,即使未啟用推理功能,這些模型也能正確識別 strawberry 中的三個 r。同樣地,Claude Sonnet 4 成為第一個解決此問題的 Anthropic 模型。時機特別有趣——OpenAI 和 Anthropic 的模型幾乎在同一時期發展出這項能力,儘管它們採用不同的架構方法。這種同步改進暗示著人工智慧發展要麼是趨同演化,要麼是兩家公司都將字元級操作視為需要解決的重要基準。

字元操作測試結果

  • 測試提示:將所有字母「r」替換為「T」,並將所有字母「I」轉換為「:」,測試句子為「I really love a ripe strawberry」
  • GPT-3.5-turbo:失敗 -「I lealll love a liple strallbeelly」
  • GPT-4-turbo:失敗 -「I rearry rove a ripe strawberly」
  • GPT-4.1:首個能持續成功完成此測試的模型
  • GPT-5:無需推理能力即可成功完成

工具使用辯論:智能還是作弊?

關於大型語言模型應如何處理字元級任務,社群存在嚴重分歧。有些人認為模型應自動使用程式設計工具進行精確操作,而其他人則相信真正的智能意味著發展內部能力。一位評論者完美捕捉了這場辯論的本質:

「如果我請你計算 strawberry 中有幾個 r,你會立刻拿出 Python 工具嗎?」

這凸顯了核心問題:在人工智慧系統中,什麼構成真正的智能?主張使用工具的人指出,人類經常使用計算機解決數學問題,並參考資料處理複雜任務。他們認為知道何時使用適當工具是智能的標誌。然而,其他人反駁說,過度依賴外部工具會使人工智慧系統變得脆弱,並依賴完美條件。這場討論揭示了對於我們對人工智慧助手的期望——純粹的推理能力,還是使用所有可用資源的實際問題解決能力——存在根本分歧。

工具使用的討論超越了字元計算,延伸到更複雜的任務,如 Base64 解碼和密碼破解。社群測試顯示,雖然有些模型能內部處理這些任務,但其他模型會生成 Python 程式碼來解決。這引發了疑問:我們衡量的是模型的智能,還是其編寫程式碼的能力?一些社群成員表示沮喪,認為必須透過明確告知何時使用工具來微觀管理人工智慧系統,並主張真正智能的系統應能從上下文推斷出適當方法。

社群關鍵洞察

  • 工具使用與內部能力發展之間的辯論
  • 安全性考量限制了某些模型處理編碼內容的能力
  • 關於改進是否代表真正的智慧或「針對測試教學」的疑問
  • 觀察到中國推理模型在字元級任務中使用大量內部獨白(3K-7K tokens)

編碼內容中的安全與能力之爭

社群測試的一個意外發現涉及不同模型處理編碼和加密內容的方式。當呈現包含 ROT20 密碼的 Base64 編碼文字時,Claude Sonnet 4.5 持續拒絕處理內容,將其標記為潛在不安全。Grok 4 顯示出類似行為,拒絕 Base64 文字但願意直接處理 ROT20 密碼。這種安全優先的方法具有實際影響——它可能使這些模型無法用於處理稀有語言或合法的編碼任務。

安全限制揭示了人工智慧發展中能力與謹慎之間的緊張關係。雖然防止誤用很重要,但過度敏感的過濾器可能限制合法使用案例。社群成員指出,Base64 編碼常用於合法應用,如電子郵件附件和資料儲存,不僅僅用於混淆。不同模型的不同回應表明,各公司正在採取不同方法來平衡這一問題,有些優先考慮能力,而其他則強調安全。

Base64 和 ROT20 解碼效能

  • GPT-4.1:Base64 解碼通過,ROT20 解密失敗
  • GPT-5-mini:完全通過(Base64 + ROT20)
  • GPT-5:完全通過
  • Claude Sonnet 4.5:編碼內容的安全性檢查失敗
  • Gemini-2.5-pro:完全通過
  • Qwen-235b:需要推理才能完全通過

改進的字元處理能力揭示了大型語言模型發展的哪些面向

社群的測試為大型語言模型能力的演變提供了有趣的見解。多家供應商幾乎同時發展出字元級操作能力,這暗示要麼是共享訓練技術,要麼是這種能力在達到特定規模閾值時自然出現。有些人猜測供應商可能在這些任務成為流行基準後,專門訓練模型處理字元計數任務,而其他人則相信這種改進是通用能力擴展的副作用。

Base64 解碼結果特別能說明問題。早期模型僅在 Base64 包含常見英文模式時才能解碼,暗示它們記住了頻繁的轉換而非理解演算法。較新的模型成功解碼了來自 Base64 的類似亂碼的 ROT20 編碼文字,表明它們已經發展出對 Base64 演算法本身的工作理解。這代表了從模式識別到演算法理解的重大飛躍。

關於這些改進是代表真正的智能成長還是專門訓練,社群仍然存在分歧。有些人將其視為更廣泛能力擴展的證據,而其他人則認為這是針對測試進行教學——優化流行基準而非發展通用智能。清楚的是,隨著模型處理它們從未明確設計要處理的任務,專門能力與通用智能之間的界線正變得越來越模糊。

大型語言模型能力的未來

隨著語言模型繼續在它們未設計適用的領域中以能力讓我們驚訝,社群不禁想知道可能出現哪些其他意想不到的能力。字元級操作的改進,雖然看似微小,卻代表了模型理解語言基本構件的重要一步。這是否會導致更好地處理黏著語、改進的程式碼理解,或其他未預見的應用,仍有待觀察。

關於工具使用與內部能力的持續辯論反映了關於我們對人工智慧系統期望的更大問題。正如一位社群成員所指出的,使用工具的能力區分了人類與其他動物——但知道何時使用哪種工具需要複雜的判斷力。下一個前沿可能是模型能夠根據上下文、準確性要求和可用資源,智能地決定何時依賴內部能力 versus 外部工具。

可以肯定的是,快速的改進步伐持續讓該領域的密切觀察者感到驚訝。僅僅幾個月前被認為對大型語言模型不可能的任務,現在正由最新模型可靠地處理。隨著我們繼續推動這些系統能力的界限,我們很可能會看到更多挑戰我們對人工和自然智能理解的能力出現。

參考資料:LLMs are getting better at character-level text manipulation