最近釋出的開原始碼大語言模型家族 OpenCoder 在開發者社群引發了關於其實際效能和對開源AI發展更廣泛影響的有趣討論。
效能現狀檢視
雖然 OpenCoder 聲稱可以與頂級程式碼大語言模型相媲美,但社群測試揭示了不同的結果。早期使用者反饋表明,與當前領先模型特別是 Qwen 2.5 相比,存在顯著的效能差距。在 HumanEval 基準測試中,Qwen2.5-Coder-7B-Instruct 取得了88.4的優異成績,而 OpenCoder 僅為66.5,這一差距引發了廣泛討論。
經過測試,存在大量幻覺問題,與 Qwen 2.5 相比相形見絀,甚至不如通用模型 Mistral-Nemo。來源
真正的價值所在
儘管存在效能限制,OpenCoder 的重要性在於其全面的開源方法。該專案提供了完整的訪問許可權,包括:
- 訓練資料和處理流程
- 嚴格的實驗消融研究結果
- 詳細的訓練協議
- 模型權重和推理程式碼
資料洞察
社群討論中一個有趣的發現是程式碼庫中的高重複率。近75%的檔案完全重複,這引發了對現代開發實踐的討論。這包括將整個庫匯入程式碼倉庫的常見做法,反映了現代開發方法與20年前相比的演變。
機構背景
該專案源於上海公司 INFTech 與國際自由開源軟體集體 MAP 以及多個學術機構的合作。這種國際合作突顯了開源AI開發,特別是在程式碼生成模型方面的全球性努力。
未來影響
雖然 OpenCoder 目前可能無法匹敵 Qwen 2.5 等頂級模型的效能,但其開源性質和全面的文件使其成為研究人員和開發者理解和構建程式碼大語言模型技術的寶貴資源。社群似乎對未來的發展特別感興趣,包括可能推出的更大規模模型。
來源:OpenCoder 官方頁面 來源:HackerNews 討論