FastVLM 突破:承諾裝置端視覺 AI 響應速度提升 85 倍

BigGo Editorial Team
FastVLM 突破:承諾裝置端視覺 AI 響應速度提升 85 倍

Apple 研究人員推出了 FastVLM,這是一種為高效裝置端處理而設計的突破性視覺語言模型,引發了開發者和無障礙倡導者的熱烈討論。這項研究將在 CVPR 2025 上發表,引入了一種新型混合視覺編碼器,在保持高效能的同時大幅減少了處理時間。

FastVLM 的 GitHub 倉庫概覽,展示了其簡潔的介面和對開發者與研究人員有價值的技術內容
FastVLM 的 GitHub 倉庫概覽,展示了其簡潔的介面和對開發者與研究人員有價值的技術內容

視覺 AI 的革命性速度提升

FastVLM 最顯著的成就是其卓越的速度提升,其最小變體與現有解決方案(如 LLAVA-OneVision-0.5B)相比,首個詞元生成時間(TTFT)快了 85 倍。這種延遲的顯著減少代表了視覺 AI 在日常裝置實際應用中的關鍵突破。該技術快速處理視覺資訊的能力解決了當前視覺語言模型中最顯著的瓶頸之一,有可能實現真正響應迅速的 AI 助手,能夠近乎即時地觀察和解釋世界。

「有了這項技術,可以開發出真正有用的盲人輔助工具,僅在手機上執行,透過眼鏡上的攝像頭獲取資訊。那些以前無法獨自行動的人可以在日常生活中變得自主獨立。」

FastVLM 模型變體

模型 引數 顯著效能
FastVLM-0.5B 0.5億 比 LLAVA-OneVision-0.5B 快85倍的首次生成時間(TTFT),視覺編碼器小3.4倍
FastVLM-1.5B 1.5億 提供第2階段和第3階段變體
FastVLM-7B 7億 使用 Qwen2-7B LLM,效能優於 Cambrian-1-8B,首次生成時間快7.9倍

所有模型都提供相容 Apple Silicon 的格式,可用於裝置本地推理。

裝置端處理策略獲得青睞

這項研究與社群中許多人所認為的 Apple 長期 AI 戰略相一致:優先考慮裝置端處理以提高隱私保護、降低成本並減少延遲。FastVLM 的高效設計使其能夠直接在 Apple Silicon 上執行,其程式碼庫提供了將模型匯出為相容 iPhone、iPad 和 Mac 格式的說明。這種方法與依賴雲端的 AI 系統形成對比,後者需要持續的網際網路連線,並在處理敏感視覺資料時引發隱私擔憂。

雖然一些評論者對實現使用 PyTorch 而非 Apple 的 MLX 框架表示失望,但對這項技術的整體反應非常積極,開發者們已經計劃將其整合到從無障礙工具到螢幕解析實用程式等各種應用中。

無障礙領域的變革潛力

圍繞 FastVLM 最引人共鳴的討論可能是它為視障人士帶來的變革潛力。社群成員,包括視障兒童的父母,表達了對這項技術如何提供獨立性和新機會的深切希望。在個人裝置上快速處理視覺資訊的能力可以實現輔助技術,描述周圍環境、識別物體,並幫助導航,而無需專門裝置或持續的網際網路連線。

研究團隊提供了各種規模的模型,從輕量級的 0.5B 引數版本到更強大的 7B 引數變體,使開發者能夠在效能和裝置限制之間取得平衡。程式碼庫包含了推理和微調的詳細說明,有可能加速在各種應用中的採用。

隨著視覺在 AI 系統中變得越來越重要,FastVLM 高效編碼的方法可能是將複雜的視覺理解帶入日常裝置的關鍵進步。隨著 Apple 的神經處理硬體已經部署在數百萬裝置中,新一代響應迅速、保護隱私的視覺 AI 應用似乎已經準備就緒。

參考:FastVLM: Efficient Vision Encoding for Vision Language Models