Qwen2.5-VL 模型在開源 OCR 基準測試中領先,其邊界框能力令社群驚訝

BigGo Editorial Team
Qwen2.5-VL 模型在開源 OCR 基準測試中領先,其邊界框能力令社群驚訝

最近釋出的 OmniAl OCR 基準測試在人工智慧社群引發了廣泛討論,阿里巴巴的 Qwen2.5-VL 模型在光學字元識別任務中表現突出。該基準測試評估了傳統 OCR 提供商和多模態語言模型在從文件中提取文字和結構化資料方面的能力。

Qwen2.5-VL 模型展示令人印象深刻的效能

根據社群反饋,Qwen2.5-VL 模型,特別是 32B 和 72B 變體,展示了卓越的 OCR 能力。這些模型不僅在文字提取方面表現出色,還提供邊界框功能——這一功能傳統上與專業 OCR 工具相關,而非通用多模態模型。這種能力使模型能夠識別影像中文字的精確位置,這對驗證和糾錯工作流程至關重要。

「實際上 qwen 2.5 已經被訓練提供邊界框」

這種邊界框功能代表了一項重大進步,因為它解決了阻礙基於 LLM 的 OCR 解決方案在生產環境中廣泛應用的關鍵限制之一。對於需要人工驗證的應用程式,能夠快速定位原始文件中的文字大大提高了工作流程效率。

流程圖展示了文字處理方法論以及機器學習模型在文件評估中的作用
流程圖展示了文字處理方法論以及機器學習模型在文件評估中的作用

成本和效能考量

根據評論中分享的基準資料,這些模型顯示出有趣的成本-效能權衡。Qwen 32B 模型處理文件的成本約為每 1000 頁 0.33 美元,每頁延遲 53 秒,而更大的 Qwen 72B 成本約為每 1000 頁 0.71 美元,延遲相似。相比之下,Llama 90B 顯示出明顯更高的成本,達到每 1000 頁 8.50 美元。

社群指出,價格可能因託管提供商而異,這使得標準化成本比較變得具有挑戰性。像 Mistral 這樣的模型提供更快的處理速度(每頁 3 秒)和具有競爭力的價格(每 1000 頁 1.00 美元),突顯了開發者可用的多樣化選擇。

模型效能指標

模型 成本(每1000頁) 延遲(每頁)
Qwen 32B $0.33 53秒
Qwen 72B $0.71 51秒
Llama 90B $8.50 44秒
Llama 11B $0.21 8秒
Gemma 27B $0.25 22秒
Mistral $1.00 3秒

注:成本可能因託管提供商而異

多模態人工智慧的日益競爭

社群成員對 Qwen 模型在視覺相關任務上的快速進步表示驚訝。一些使用者報告說,最新的 Qwen2.5-VL 模型不僅改進了其前身,還展示了更高的穩定性和更容易的微調能力。一些使用者甚至表示,Qwen 2.5 VL 72B 模型現在在通用視覺任務上可與 Google 的 Gemini 相媲美,僅次於 OpenAI 的 GPT-4o。

特別值得注意的是,這些模型可以在本地執行,為專有解決方案提供了開源替代方案。對於具有隱私要求或需要處理敏感文件而不向外部 API 傳送資料的應用程式,這種本地部署選項尤為寶貴。

實際應用和侷限性

使用者報告在各種實際應用中成功使用這些模型,包括從桌遊卡片中提取文字用於文字轉語音轉換以及處理商業文件。然而,社群討論也強調,對於需要 95% 以上準確率的關鍵任務應用,人工驗證仍然是必要的。

該基準測試本身超越了簡單的 OCR 評估,專注於模型從文件中提取結構化 JSON 資料的能力——這是一項結合 OCR 能力和語義理解的任務。這反映了向端到端文件處理系統的發展趨勢,這些系統可以直接提取結構化資訊,而不僅僅是轉錄文字。

隨著這些開源模型的不斷改進,它們在文件處理任務中越來越多地挑戰專有解決方案,這些任務曾經由專業 OCR 提供商主導。對於從事文件自動化的開發人員和企業來說,這些模型的快速發展為構建更強大、更具成本效益的文件處理管道提供了有前途的新選擇。

參考:OmniAl OCR Benchmark

源文件與其真實標準之間的比較,突顯了文件處理中OCR準確性的評估
源文件與其真實標準之間的比較,突顯了文件處理中OCR準確性的評估