排行榜总览
查看所有分类排行榜的最新更新时间和详细信息
💻 WebDev Arena
1天前更新Web开发能力排行榜,评测模型的代码生成和调试能力
📝 Text Arena 排行榜
最后更新: 2025年11月19日 | 总投票数: 4,278,480 | 参与模型: 258
| 排名 | 模型名称 | 评分 | 置信区间 | 投票数 | 开发者 | 许可证 |
|---|---|---|---|---|---|---|
| 🥇 1 | gemini-3-pro | 1489 | - | 26,385 | Proprietary | |
| 🥈 2 | grok-4.1-thinking | 1477 | - | 26,505 | xAI | Proprietary |
| 🥉 3 | gemini-3-flash | 1471 | - | 11,599 | Proprietary | |
| 4 | claude-opus-4-5-20251101-thinking-32k | 1468 | - | 18,518 | Anthropic | Proprietary |
| 5 | claude-opus-4-5-20251101 | 1467 | - | 19,770 | Anthropic | Proprietary |
| 6 | grok-4.1 | 1466 | - | 30,490 | xAI | Proprietary |
| 7 | gemini-3-flash (thinking-minimal) | 1464 | - | 5,530 | Proprietary | |
| 8 | gpt-5.1-high | 1460 | - | 23,068 | OpenAI | Proprietary |
| 9 | claude-sonnet-4-5-20250929-thinking-32k | 1452 | - | 37,043 | Anthropic | Proprietary |
| 10 | gemini-2.5-pro | 1450 | - | 86,296 | Proprietary |
👁️ Vision Arena 排行榜
视觉理解模型综合评测 - 图像识别、场景理解、多模态能力
| 排名 | 模型名称 | 评分 | 置信区间 | 开发者 | 许可证 |
|---|---|---|---|---|---|
| 🥇 1 | gemini-3-pro | 1324 | ±13 | Proprietary | |
| 🥈 2 | gemini-2.5-pro | 1249 | ±7 | Proprietary | |
| 🥉 3 | chatgpt-4o-latest-20250326 | 1237 | ±7 | OpenAI | Proprietary |
| 4 | gpt-4.5-preview-2025-02-27 | 1226 | ±11 | OpenAI | Proprietary |
| 5 | gemini-2.5-flash-preview-09-2025 | 1225 | ±11 | Proprietary | |
| 6 | gpt-5-chat | 1222 | ±8 | OpenAI | Proprietary |
| 7 | o3-2025-04-16 | 1219 | ±7 | OpenAI | Proprietary |
| 8 | gpt-4.1-2025-04-14 | 1216 | ±7 | OpenAI | Proprietary |
| 9 | gemini-2.5-flash | 1214 | ±7 | Proprietary | |
| 10 | claude-opus-4-20250514-thinking-16k | 1210 | ±15 | Anthropic | Proprietary |
🎨 Text-to-Image Arena 排行榜
最后更新: 2025年11月19日 | 总投票数: 3,239,761 | 参与模型: 27
| 排名 | 模型名称 | 评分 | 置信区间 | 投票数 | 开发者 | 许可证 |
|---|---|---|---|---|---|---|
| 🥇 1 | gpt-image-1.5 | 1240 | - | 36,258 | OpenAI | Proprietary |
| 🥈 2 | gemini-3-pro-image-preview-2k | 1233 | - | 31,580 | Proprietary | |
| 🥉 3 | gemini-3-pro-image-preview | 1230 | - | 70,176 | Proprietary | |
| 4 | flux-2-max | 1166 | - | 32,734 | Black Forest Labs | Proprietary |
| 5 | gemini-2.5-flash-image-preview | 1156 | - | 702,921 | Proprietary | |
| 6 | flux-2-flex | 1153 | - | 55,182 | Black Forest Labs | Proprietary |
| 7 | flux-2-pro | 1152 | - | 68,789 | Black Forest Labs | Proprietary |
| 8 | hunyuan-image-3.0 | 1150 | - | 138,145 | Tencent | Community |
| 9 | imagen-4.0-ultra-generate-preview | 1143 | - | 481,997 | Proprietary | |
| 10 | seedream-4-2k | 1143 | - | 13,618 | Bytedance | Proprietary |
💻 WebDev Arena 排行榜
Web开发能力评测 - 代码生成、前端开发、调试能力
| 排名 | 模型名称 | 评分 | 置信区间 | 开发者 | 许可证 |
|---|---|---|---|---|---|
| 🥇 1 | claude-opus-4-5-20251101-thinking-32k | 1510 | - | Anthropic | Proprietary |
| 🥈 2 | claude-opus-4-5-20251101 | 1480 | - | Anthropic | Proprietary |
| 🥉 3 | gpt-5.2-high | 1476 | - | OpenAI | Proprietary |
| 4 | gemini-3-pro | 1468 | - | Proprietary | |
| 5 | gemini-3-flash | 1453 | - | Proprietary | |
| 6 | glm-4.7 | 1448 | - | Zhipu AI | Proprietary |
| 7 | minimax-m2.1-preview | 1427 | - | MiniMax | Proprietary |
| 8 | gpt-5.2 | 1401 | - | OpenAI | Proprietary |
| 9 | gpt-5-medium | 1397 | - | OpenAI | Proprietary |
| 10 | gpt-5.1-medium | 1392 | - | OpenAI | Proprietary |
👁️ Vision Arena 排行榜
视觉理解模型综合评测 - 图像识别、场景理解、多模态能力
| 排名 | 模型名称 | 评分 | 置信区间 | 开发者 | 许可证 |
|---|---|---|---|---|---|
| 🥇 1 | gemini-3-pro | 1324 | ±13 | Proprietary | |
| 🥈 2 | gemini-2.5-pro | 1249 | ±7 | Proprietary | |
| 🥉 3 | chatgpt-4o-latest-20250326 | 1237 | ±7 | OpenAI | Proprietary |
| 4 | gpt-4.5-preview-2025-02-27 | 1226 | ±11 | OpenAI | Proprietary |
| 5 | gemini-2.5-flash-preview-09-2025 | 1225 | ±11 | Proprietary | |
| 6 | gpt-5-chat | 1222 | ±8 | OpenAI | Proprietary |
| 7 | o3-2025-04-16 | 1219 | ±7 | OpenAI | Proprietary |
| 8 | gpt-4.1-2025-04-14 | 1216 | ±7 | OpenAI | Proprietary |
| 9 | gemini-2.5-flash | 1214 | ±7 | Proprietary | |
| 10 | claude-opus-4-20250514-thinking-16k | 1210 | ±15 | Anthropic | Proprietary |
🔍 Search Arena 排行榜
搜索增强模型评测 - 联网搜索、信息检索、实时更新能力
| 排名 | 模型名称 | 评分 | 置信区间 | 开发者 | 许可证 |
|---|---|---|---|---|---|
| 🥇 1 | gemini-3-pro-grounding | 1213 | - | Proprietary | |
| 🥈 2 | gpt-5.2-search | 1210 | - | OpenAI | Proprietary |
| 🥉 3 | gpt-5.1-search | 1199 | - | OpenAI | Proprietary |
| 4 | grok-4-1-fast-search | 1178 | - | xAI | Proprietary |
| 5 | grok-4-fast-search | 1164 | - | xAI | Proprietary |
| 6 | gemini-2.5-pro-grounding | 1143 | - | Proprietary | |
| 7 | o3-search | 1138 | - | OpenAI | Proprietary |
| 8 | ppl-sonar-reasoning-pro-high | 1137 | - | Perplexity AI | Proprietary |
| 9 | grok-4-search | 1137 | - | xAI | Proprietary |
| 10 | claude-opus-4-1-search | 1128 | - | Anthropic | Proprietary |
🎬 Text-to-Video Arena 排行榜
文生视频模型评测 - 视频生成质量、动作连贯性、创意表现
| 排名 | 模型名称 | 评分 | 投票数 | 开发者 | 许可证 |
|---|---|---|---|---|---|
| 🥇 1 | veo-3.1-fast-audio | 1370 | 7,643 | Proprietary | |
| 🥈 2 | veo-3.1-audio | 1361 | 7,498 | Proprietary | |
| 🥉 3 | veo-3-fast-audio | 1360 | 23,809 | Proprietary | |
| 4 | veo-3-audio | 1345 | 17,452 | Proprietary | |
| 5 | sora-2-pro | 1341 | 6,134 | OpenAI | Proprietary |
| 6 | sora-2 | 1321 | 6,896 | OpenAI | Proprietary |
| 7 | wan2.5-t2v-preview | 1268 | 3,898 | Wanxiang AI | Proprietary |
| 8 | veo-3 | 1258 | 13,374 | Proprietary | |
| 9 | veo-3-fast | 1249 | 13,606 | Proprietary | |
| 10 | seedance-v1.5-pro | 1248 | 817 | ByteDance | Proprietary |
🎞️ Image-to-Video Arena 排行榜
图生视频模型评测 - 静态图像转视频能力、动画生成质量
| 排名 | 模型名称 | 评分 | 投票数 | 开发者 | 许可证 |
|---|---|---|---|---|---|
| 🥇 1 | veo-3.1-audio | 1399 | 16,565 | Proprietary | |
| 🥈 2 | veo-3.1-fast-audio | 1389 | 16,340 | Proprietary | |
| 🥉 3 | wan2.5-i2v-preview | 1346 | 9,280 | Wanxiang AI | Proprietary |
| 4 | veo-3-audio | 1340 | 32,397 | Proprietary | |
| 5 | veo-3-fast-audio | 1330 | 41,226 | Proprietary | |
| 6 | seedance-v1.5-pro | 1324 | 2,795 | ByteDance | Proprietary |
| 7 | kling-2.6-pro | 1300 | 6,513 | Kuaishou | Proprietary |
| 8 | seedance-v1-pro | 1277 | 36,008 | ByteDance | Proprietary |
| 9 | kling-2.5-turbo-1080p | 1276 | 3,675 | Kuaishou | Proprietary |
| 10 | veo-3-fast | 1256 | 25,545 | Proprietary |
✏️ Image Edit Arena 排行榜
图像编辑模型评测 - AI图像修改、优化和风格转换能力
| 排名 | 模型名称 | 评分 | 投票数 | 开发者 | 许可证 |
|---|---|---|---|---|---|
| 🥇 1 | chatgpt-image-latest | 1422 | 25,086 | OpenAI | Proprietary |
| 🥈 2 | gemini-3-pro-image-preview-2k | 1407 | 125,454 | Proprietary | |
| 🥉 3 | gemini-3-pro-image-preview | 1403 | 387,489 | Proprietary | |
| 4 | gpt-image-1.5 | 1392 | 169,060 | OpenAI | Proprietary |
| 5 | seedream-4.5 | 1333 | 110,261 | ByteDance | Proprietary |
| 6 | gemini-2.5-flash-image-preview | 1325 | 10,233,345 | Proprietary | |
| 7 | seedream-4-2k | 1289 | 218,705 | ByteDance | Proprietary |
| 8 | flux-2-max | 1278 | 29,997 | Black Forest Labs | Proprietary |
| 9 | flux-2-pro | 1261 | 28,455 | Black Forest Labs | Proprietary |
| 10 | reve-v1.1 | 1261 | 105,923 | Reve AI | Proprietary |
🤖 Copilot Arena 排行榜
代码助手模型评测 - 编程辅助、代码补全、智能提示能力
| 排名 | 模型名称 | 评分 | 开发者 | 特性 |
|---|---|---|---|---|
| 🥇 1 | github-copilot++ | 1363 | GitHub | Proprietary |
| 🥈 2 | claude-3.7-sonnet-copilot | 1358 | Anthropic | Proprietary |
| 🥉 3 | gemini-code-assist-1.5-pro | 1352 | Proprietary | |
| 4 | cursor-small-3.5 | 1345 | Cursor | Proprietary |
| 5 | supermaven-pro | 1341 | Supermaven | Proprietary |
| 6 | continue-dev-beta | 1338 | Continue | Open Source |
| 7 | codeium-ultra | 1335 | Codeium | Proprietary |
| 8 | tabnine-pro | 1329 | Tabnine | Proprietary |
| 9 | qodo-merge-pro | 1322 | Qodo | Proprietary |
| 10 | magic-dev-bench | 1318 | Magic | Proprietary |
关于 LMArena
全球最权威的AI模型评测平台 - LMArena Leaderboard
什么是 LMArena?
LMArena(Language Model Arena)是全球领先的开放式AI模型评测平台,由LMSYS组织开发和维护。通过创新的盲测对比机制,LMArena让用户在不知道模型身份的情况下进行真实评测,确保了排行榜的公正性和权威性。
自2023年推出以来,LMArena已经收集了超过420万次真实用户投票,涵盖258个主流AI模型,成为全球开发者和研究者评估AI模型性能的重要参考标准。
Elo评分系统
采用国际象棋级别的Elo评分算法,通过大规模用户对战数据计算模型真实实力,每次对比都会动态调整排名,确保排行榜始终反映最新的模型性能。
多维度评测
LMArena提供9大评测分类:文本对话、代码生成、视觉理解、图像生成、视频生成、图像编辑、搜索增强、图生视频、AI编程助手,全方位评测AI模型能力。
真实用户投票
每天有超过10万活跃用户参与LMArena的模型对比测试,通过盲测机制消除品牌偏见,让数据说话,用户的每一票都在塑造最真实的AI排行榜。
实时更新排名
LMArena排行榜实时反映最新评测数据,新模型上线后立即加入对比测试,确保开发者和用户随时掌握AI领域最前沿的模型表现和技术趋势。
开源透明
LMArena的评测方法、数据集和排名算法完全开源,任何人都可以查看和验证评测过程,确保排行榜的可信度和学术价值。
行业标准
LMArena已成为AI行业公认的模型评测标准,OpenAI、Google、Anthropic、Meta等顶级AI公司都将LMArena排名作为衡量模型性能的重要指标。