→ 如有資源無法下載,請第一時間聯系站長QQ:23467321處理!誠信讓我們共贏!
→ 為更好的溝通和解決用戶需求,建議新老用戶都采用QQ郵箱來注冊賬號!
IT之家1 月 4 日消息,阿里通義千問 Qwen 最新推出 CodeElo 基準測試,通過和人類程序員對比的 Elo 評級系統,來評估大語言模型(LLM)的編程水平。
項目背景
大語言模型的 AI 場景應用之一,就是生成、補全代碼,只是現階段評估編程真實能力方面存在諸多挑戰。
包括 LiveCodeBench 和 USACO 在內的現有基準測試均存在局限性,缺乏健壯的私有測試用例,不支持專門的判斷系統,并且經常使用不一致的執行環境。
CodeElo:借力 CodeForces,打造更精準的 LLM 評估體系
IT之家注:Qwen 研究團隊為了解決這些挑戰,推出了 CodeElo 基準測試,旨在利用與人類程序員比較的 Elo 評級系統,來評估 LLM 的編程競賽水平。
CodeElo 的題目來自 CodeForces 平臺,該平臺以其嚴格的編程競賽而聞名,通過直接向 CodeForces 平臺提交解決方案,CodeElo 確保了評估的準確性,解決了誤報等問題,并支持需要特殊評判機制的題目。此外,Elo 評級系統反映了人類的排名,可以有效比較 LLM 和人類參賽者的表現。
CodeElo 三大核心要素:全面、穩健、標準化
CodeElo 基于三個關鍵要素:
全面的問題選擇: 題目按比賽分區、難度級別和算法標簽進行分類,提供全面評估。
穩健的評估方法: 提交的代碼在 CodeForces 平臺上進行測試,利用其特殊評估機制確保準確判斷,無需隱藏測試用例,并提供可靠反饋。
標準化的評級計算:Elo 評級系統評估代碼的正確性,考慮問題難度,并對錯誤進行懲罰,激勵高質量的解決方案,為評估編碼模型提供了細致有效的工具。
測試結果
在對 30 個開源 LLM 和 3 個專有 LLM 進行測試后,OpenAI 的 o1-mini 模型表現最佳,Elo 評分為 1578,超過了 90% 的人類參與者;開源模型中,QwQ-32B-Preview 以 1261 分位居榜首。
然而,許多模型在解決簡單問題時仍顯吃力,通常排名在人類參與者的后 20%。分析顯示,模型在數學和實現等類別表現出色,但在動態規劃和樹形算法方面存在不足。
此外,模型使用 C++ 編碼時表現更佳,這與競技程序員的偏好一致,這些結果突出了 LLM 需要改進的領域。