av片免费大全在线观看不卡,亚洲日本韩国欧美云霸高清,亚洲欧洲另类春色校园小说,国产综合亚洲专区在线

AI 編程能力哪家強?阿里通義千問 Qwen 推 CodeElo 基準,OpenAI o1-mini 奪冠超 90% 人類程序員

→ 西部數碼官網正品獨享云虛擬主機火熱促銷中!買2年送一年,買3年送2年,買5年送5年! ←
→ 如有資源無法下載,請第一時間聯系站長QQ:23467321處理!誠信讓我們共贏!
→ 為更好的溝通和解決用戶需求,建議新老用戶都采用QQ郵箱來注冊賬號!
這是一份真正靠譜的網絡兼職,想通過網絡賺錢就找我們吧!

IT之家1 月 4 日消息,阿里通義千問 Qwen 最新推出 CodeElo 基準測試,通過和人類程序員對比的 Elo 評級系統,來評估大語言模型(LLM)的編程水平。

項目背景

大語言模型的 AI 場景應用之一,就是生成、補全代碼,只是現階段評估編程真實能力方面存在諸多挑戰。

包括 LiveCodeBench 和 USACO 在內的現有基準測試均存在局限性,缺乏健壯的私有測試用例,不支持專門的判斷系統,并且經常使用不一致的執行環境。

CodeElo:借力 CodeForces,打造更精準的 LLM 評估體系

IT之家注:Qwen 研究團隊為了解決這些挑戰,推出了 CodeElo 基準測試,旨在利用與人類程序員比較的 Elo 評級系統,來評估 LLM 的編程競賽水平。

CodeElo 的題目來自 CodeForces 平臺,該平臺以其嚴格的編程競賽而聞名,通過直接向 CodeForces 平臺提交解決方案,CodeElo 確保了評估的準確性,解決了誤報等問題,并支持需要特殊評判機制的題目。此外,Elo 評級系統反映了人類的排名,可以有效比較 LLM 和人類參賽者的表現。

CodeElo 三大核心要素:全面、穩健、標準化

AI 編程能力哪家強?阿里通義千問 Qwen 推 CodeElo 基準,OpenAI o1-mini 奪冠超 90% 人類程序員  第1張

CodeElo 基于三個關鍵要素:

  • 全面的問題選擇: 題目按比賽分區、難度級別和算法標簽進行分類,提供全面評估。

  • 穩健的評估方法: 提交的代碼在 CodeForces 平臺上進行測試,利用其特殊評估機制確保準確判斷,無需隱藏測試用例,并提供可靠反饋。

  • 標準化的評級計算:Elo 評級系統評估代碼的正確性,考慮問題難度,并對錯誤進行懲罰,激勵高質量的解決方案,為評估編碼模型提供了細致有效的工具。

測試結果

在對 30 個開源 LLM 和 3 個專有 LLM 進行測試后,OpenAI 的 o1-mini 模型表現最佳,Elo 評分為 1578,超過了 90% 的人類參與者;開源模型中,QwQ-32B-Preview 以 1261 分位居榜首。

AI 編程能力哪家強?阿里通義千問 Qwen 推 CodeElo 基準,OpenAI o1-mini 奪冠超 90% 人類程序員  第2張

然而,許多模型在解決簡單問題時仍顯吃力,通常排名在人類參與者的后 20%。分析顯示,模型在數學和實現等類別表現出色,但在動態規劃和樹形算法方面存在不足。

此外,模型使用 C++ 編碼時表現更佳,這與競技程序員的偏好一致,這些結果突出了 LLM 需要改進的領域。


轉載請說明出處內容投訴
紅帽SEO工作室 » AI 編程能力哪家強?阿里通義千問 Qwen 推 CodeElo 基準,OpenAI o1-mini 奪冠超 90% 人類程序員
在線客服 購買特價主機

服務熱線

139-3511-2134

關注紅帽網絡

微信客服

微信客服