Anthropic 最新的人工智慧模型 Claude 3.7 Sonnet 不僅因其先進的能力,還因為為人工智慧安全設立了新標準而在人工智慧社群引起轟動。隨著企業和政府越來越嚴格地審查人工智慧模型的潛在漏洞,根據最近的一項獨立評估,Claude 3.7 已成為可能是目前最安全的模型。
前所未有的安全效能
Claude 3.7 Sonnet 在由總部位於倫敦的安全公司 Holistic AI 進行的全面安全評估中獲得了滿分。這項專門與行業觀察者分享的審計顯示,Claude 3.7 成功抵抗了100%的越獄嘗試,並在紅隊測試期間100%提供了安全回應。這一完美表現使 Claude 3.7 成為可能是目前最安全的人工智慧模型。
該評估測試了處於思考模式下、擁有16k令牌預算的 Claude 3.7,對其進行了37個旨在繞過系統限制的策略性設計提示。這些包括眾所周知的對抗性技術,如立即做任何事(Do Anything Now,DAN)、努力避開規範(Strive to Avoid Norms,STAN)和做任何和所有事情(Do Anything and Everything,DUDE)——所有這些都旨在推動模型超越其程式設計的道德準則。
安全評估結果:
- Claude 3.7 Sonnet:100%越獄防禦能力,0%不安全回應
- OpenAI o1:100%越獄防禦能力,2%不安全回應
- DeepSeek R1:32%越獄防禦能力(在37次嘗試中阻止了12次),11%不安全回應
- Grok-3:2.7%越獄防禦能力(在37次嘗試中阻止了1次),未完全評估不安全回應
超越競爭對手
雖然 Claude 3.7 與 OpenAI 的 o1 推理模型在阻止100%的越獄嘗試方面表現相當,但在額外的紅隊部分審計中沒有提供任何不安全的回應,從而領先一步。相比之下,OpenAI 的 o1 展示了2%的不安全回應率,而 DeepSeek R1 的表現則明顯較差,不安全回應率為11%,且僅阻止了32%的越獄嘗試。Grok-3 的表現更差,僅阻止了一次越獄嘗試(2.7%)。
這種安全效能的鮮明對比具有現實意義。包括 NASA、美國海軍和澳大利亞政府在內的幾個組織已經禁止使用像 DeepSeek R1 這樣存在明顯安全風險的模型。在當今人工智慧模型可能被用於虛假資訊、駭客攻擊或其他惡意目的的環境下,Claude 3.7 的安全韌性代表了一項重大進步。
安全之外的先進能力
除了安全證書外,Claude 3.7 Sonnet 代表了 Anthropic 迄今為止最智慧的人工智慧模型。它於上週剛剛釋出,結合了 GPT 模型的方法和鏈式思考推理能力,使其在廣泛的應用中異常多才多藝。
使用者可以利用 Claude 3.7 進行創意任務,如設計謀殺懸疑遊戲或建立動畫;實用應用,如構建生產力應用和簡單的瀏覽器遊戲;以及分析功能,如成本估算。該模型可以處理文字和影像,允許多模態互動,擴充套件了其在不同環境中的實用性。
Claude 3.7 Sonnet 功能:
- 創意任務:設計遊戲、建立動畫
- 實用應用:構建生產力應用程式、瀏覽器遊戲
- 分析功能:從影像中進行成本估算
- 多模態處理:能夠同時分析文字和影像
行業影響和擔憂
儘管 Claude 3.7 在安全效能方面表現出色,但關於 Anthropic 對人工智慧安全的更廣泛承諾仍存在疑問。該公司最近從其網站上刪除了幾項自願安全承諾,儘管後來澄清它仍然致力於拜登政府建立的自願人工智慧承諾。
這一發展發生在人工智慧公司越來越擴大其模型使用範圍的時期,包括在更高風險的應用中,如軍事行動。例如,Scale AI 最近與美國國防部合作,使用人工智慧代理進行軍事規劃和行動,這一舉措引起了人權組織和技術行業內部一些人的擔憂。
為2025年設立標準
隨著人工智慧模型變得更加強大並整合到關鍵系統中,像對 Claude 3.7 進行的安全評估可能會變得越來越重要。Holistic AI 的報告表明,Claude 3.7 完美的對抗性抵抗能力為2025年的人工智慧安全設立了標準,強調了在評估人工智慧系統時,安全與效能指標並重的重要性日益增長。
對於希望利用最安全的人工智慧助手的使用者來說,Claude 3.7 Sonnet 目前似乎是領先選擇,它將先進的能力與無與倫比的安全韌性相結合。隨著人工智慧領域的快速發展,Claude 3.7 的完美安全評分代表了在開發既強大又安全的人工智慧系統的持續努力中的重要里程碑。