隨著新工具 Klarity 的釋出,一場關於使用對數機率來衡量生成式模型輸出不確定性的有效性的討論在人工智慧研究人員中展開。這場討論凸顯了理解和量化人工智慧模型對其回應的確信程度所面臨的複雜挑戰。
Klarity 測試過的模型:
- Qwen2.5-0.5B (基礎版)
- Qwen2.5-0.5B-Instruct
- Qwen2.5-7B
- Qwen2.5-7B-Instruct
主要特點:
- 雙重熵分析
- 語義聚類
- 結構化輸出
- 人工智慧驅動分析
根本挑戰
爭論的核心在於逐個詞元(token)的機率分析是否能真正捕捉語義理解。多位研究人員指出,當前逐詞元分析文字的方法在機械測量和真實語義含義之間造成了脫節。這一侷限源於語言模型處理資訊的方式,即將資訊分割成不一定與完整概念或想法相對應的片段。
「使用對數機率衡量大語言模型確定性的根本挑戰在於語言模型處理資訊的方式與實際語義運作方式之間的不匹配...這在機械測量確定性和真實理解之間造成了差距,就像把地圖誤認為是實際地域一樣。」
替代方法
研究人員已經探索了各種更好地衡量模型不確定性的方法。具體詞元機率分析的多項選擇題顯示出了前景,驗證器方法(如詢問答案是否正確?等後續問題)也是如此。一些研究表明,對簡單是/否回答的機率進行標準化可能提供更好的模型置信度校準測量。
支援對數機率的論據
儘管存在質疑,一些研究人員仍然強烈支援對數機率的價值,特別是在取樣應用中。最近被 ICLR 2025 接收的一篇論文表明,截斷點的動態調整(最小機率取樣)可以帶來顯著的效能提升,尤其是在較小的模型中。這表明雖然對數機率可能無法完美對映語義理解,但它們仍然包含可以有效利用的有價值資訊。
實際應用
這場討論突出了不確定性測量的幾個實際應用,包括利用不確定性分數來最佳化模型路由的潛力——允許較簡單的查詢由較小的模型處理,而複雜問題則轉向更強大的系統。這種方法可以在實際應用中同時提高效率和效能。
隨著研究人員努力彌合人工智慧系統中機械測量和語義理解之間的差距,這場爭論仍在繼續發展。雖然完美的解決方案仍然難以企及,但社群在開發更好的不確定性度量方面的努力正在推動理論方法和實際應用的創新。