OpenAI 最新的人工智慧模型展示了一種不可思議的能力,即能夠透過最少的視覺線索識別照片中的位置,這在使用者和隱私倡導者中引起了既驚歎又擔憂的反應。這一新功能代表了人工智慧視覺推理的重大進步,但也為數字時代的個人隱私帶來了潛在風險。
新興的 GeoGuessr 趨勢
OpenAI 最近釋出的 o3 和 o4-mini 模型引發了一種病毒式傳播的趨勢,使用者挑戰人工智慧識別上傳照片的位置,類似於線上遊戲 GeoGuessr。使用者上傳各種影像,從餐廳選單到圖書館書架,並要求人工智慧確定它們的拍攝地點。結果令人驚訝地準確,這些模型能夠基於大多數人會忽略的看似微不足道的細節正確識別特定位置。
具有影像推理能力的 OpenAI 模型:
- o3 模型
- o4-mini 模型
準確性背後的技術能力
新模型具有增強的影像推理功能,可以全面分析影像。它們可以裁剪、旋轉和放大照片,即使是質量較差的照片也能處理。更令人印象深刻的是,它們可以將影像直接整合到思考鏈中,有效地利用視覺資訊進行思考,而不僅僅是處理它。這使得模型能夠將視覺和文字推理進行復雜融合,從而能夠發現關於位置的微妙線索。
關鍵影像推理能力:
- 裁剪、旋轉和放大照片
- 分析質量較差的影像
- 將影像整合到思維鏈推理中
- 基於微妙的視覺線索識別位置
隱私影響和人肉搜尋擔憂
雖然許多使用者認為這種反向位置搜尋功能很有趣,但它引發了嚴重的隱私擔憂,特別是關於人肉搜尋——公開揭示某人的位置或個人資訊。從社交媒體上釋出的隨意照片中確定精確位置的能力可能被利用來在未經知情或同意的情況下跟蹤個人。一張背景細節最少的自拍照或一個看似無害的社交媒體帖子可能會洩露比釋出者預期更多的資訊。
準確性的真實案例
這些模型的準確性已在社交媒體上分享的眾多例子中得到證明。在一個例子中,ChatGPT 從書架上的書籍的裁剪影像中正確識別出了 University of Melbourne 圖書館。在另一個案例中,它推斷出一張照片是在蘇利南拍攝的,因為它觀察到汽車方向盤在左側但車輛在道路左側行駛——這種組合在全球只有少數幾個國家存在。該模型甚至能夠僅根據酒吧中安裝的紫色犀牛頭識別出 Williamsburg 的一個地下酒吧。
OpenAI 對擔憂的回應
OpenAI 已經承認與這些功能相關的潛在隱私問題。一位發言人表示,該公司已實施保障措施,旨在禁止模型識別影像中的私人個體,並已訓練它們拒絕請求私人或敏感資訊。該公司強調,視覺推理技術在輔助功能、研究和應急響應等領域有有益的應用。
OpenAI 提及的隱私保障措施:
- 訓練模型拒絕請求私人/敏感資訊
- 設定保障措施禁止在影像中識別私人個體
- 積極監控政策違規行為
技術的侷限性
儘管表現令人印象深刻,但這項技術並非萬無一失。兩篇文章都指出,這些模型並不總是能猜對,有時 o3 模型在嘗試確定位置時會陷入迴圈。有趣的是,TechCrunch 報道稱,早期的 GPT-4o 模型雖然缺乏特定的影像推理功能,但在許多情況下能夠提供類似的位置答案,有時甚至比 o3 更快。
對社交媒體使用者的影響
這一發展為社交媒體使用者敲響了警鐘,提醒他們在公開分享影像時應更加謹慎。當被這些日益複雜的人工智慧模型分析時,照片背景中看似無害的細節可能會洩露位置資訊。對於那些關心隱私的人來說,隨著這些技術不斷進步,限制線上分享的視覺資訊量可能變得越來越重要。