小米憑藉 MiMo-7B 進軍人工智慧領域,這是一個新的語言模型系列,儘管引數規模相對較小,但展示了卓越的推理能力。該模型專注於數學和程式設計任務,其令人印象深刻的基準效能可與更大型號的模型相媲美,因此在開發者社群引起了廣泛關注。
![]() |
---|
GitHub 倉庫截圖,展示小米 MiMo 的開發和開源可用性詳情 |
為推理而生的基礎模型
MiMo-7B 在模型開發方法上脫穎而出,它從根本上而非僅通過後期訓練來專注於推理能力。小米團隊透過增強資料提取工具包和多維過濾優化了預訓練過程,以提高推理模式密度。該基礎模型在大約25萬億個標記上進行了預訓練——這一規模可與 Meta 的 Llama 4 Maverick(使用了22萬億個標記)相媲美。這一龐大的訓練語料庫代表了通常與更大型科技公司相關的計算資源投入。
「這是一條有趣的發展路徑——不是透過蒸餾模型或透過強化學習層從其他模型中獲取推理能力,而是從頭開始構建具有內建推理能力的強化學習模型;相關宣告似乎表明,採用這種方法可以在每個引數上獲得更高的效率。」
以令人印象深刻的基準成績挑戰更大型號模型
社群對 MiMo-7B 的基準測試結果既感到興奮又持懷疑態度。據報道,該模型在效能上超過了許多更大的模型,包括一些32B引數的模型,特別是在程式設計任務方面。一位使用者指出,MiMo-7B 在程式設計基準測試上的表現(57.8)與 Gemini Pro 2.5(67.8)和 Gemini 2.5 Flash(60.6)非常接近。這種來自7B模型的效能水平非常罕見,導致一些人質疑該模型可能過度擬合了基準測試——這是當前人工智慧領域的一個常見批評,因為許多模型都是在基準資料集上訓練的。
程式碼和數學的訓練創新
小米在程式碼生成強化學習方面的方法引起了特別的興趣。團隊精選了130,000個可透過基於規則的系統驗證的數學和程式碼問題。特別是對於程式設計問題,他們實施了一個基於測試難度驅動的獎勵系統,該系統根據測試用例的複雜性分配精細的分數,透過密集的獎勵訊號提供更有效的最佳化。他們的無縫展開引擎透過整合連續展開、非同步獎勵計算和提前終止來加速強化學習訓練和驗證,據報道實現了超過2倍的訓練速度。
MiMo-7B 模型概覽
模型 | 描述 | 連結 |
---|---|---|
MiMo-7B-Base | 具有推理潛力的基礎模型 | HuggingFace |
MiMo-7B-RL-Zero | 從基礎模型訓練的強化學習模型 | HuggingFace |
MiMo-7B-SFT | 從基礎模型訓練的監督微調模型 | HuggingFace |
MiMo-7B-RL | 從監督微調模型訓練的強化學習模型 | HuggingFace |
主要技術特點:
- 在約25萬億個標記上進行預訓練
- 將多標記預測作為額外訓練目標
- 採用測試難度驅動的程式碼獎勵系統
- 實施資料重取樣策略以提高訓練效率
- 開發了"無縫推出引擎",使訓練速度提高2.295倍
本地模型的崛起
MiMo-7B 的出色表現加入了一個不斷增長的趨勢:更小、可本地執行的模型變得越來越強大。社群成員注意到,小型模型的質量一直在穩步提高,使它們成為許多日常任務中雲服務的可行替代方案。這一發展對隱私、成本和可訪問性具有重要意義——允許開發人員構建應用程式而無需依賴專有服務的API呼叫。
多語言考量
關於小米作為一家中國公司卻選擇釋出精通英語的模型,引發了一個有趣的討論。社群成員指出,英語在網際網路內容中占主導地位(Common Crawl 資料的43%),使其成為訓練資料的實用選擇。此外,科學研究社群和人工智慧基準測試主要使用英語,使其成為模型開發的合理選擇,無論公司的起源如何。一些使用者指出,由於主要企業控制的封閉生態系統,中文網際網路內容更難抓取,這為訓練以中文為主的模型帶來了額外挑戰。
開放權重和可訪問性
小米已開源 MiMo-7B 系列,包括基礎模型、SFT(監督微調)模型和兩個 RL(強化學習)模型的檢查點。社群已經開始將該模型轉換為更易於訪問的格式,如用於 Ollama 和 LM Studio 等工具的 GGUF,擴大了其對希望在本地執行它的開發人員的覆蓋範圍。這一舉措與使人工智慧模型對主要科技公司以外的開發人員和研究人員更加可訪問的不斷增長的趨勢相一致。
隨著小型模型在保持足夠高效以本地執行的同時繼續提高能力,我們可能會看到人工智慧在日常應用中部署方式的轉變。MiMo-7B 代表著另一步邁向強大、可訪問的人工智慧,它不需要龐大的計算資源或雲依賴。
參考:Xiaomi MiMo