排行榜总览
查看所有分类排行榜的最新更新时间和详细信息
💻 WebDev Arena
1天前更新Web开发能力排行榜,评测模型的代码生成和调试能力
📝 Text Arena 排行榜
最后更新: 2025年11月19日 | 总投票数: 4,278,480 | 参与模型: 258
| 排名 | 模型名称 | 评分 | 置信区间 | 投票数 | 开发者 | 许可证 |
|---|---|---|---|---|---|---|
| 🥇 1 | gemini-3-pro | 1324 | +13/-13 | 2,969 | Proprietary | |
| 🥈 2 | grok-4.1-thinking | 1318 | +12/-12 | 3,102 | xAI | Proprietary |
| 🥉 3 | claude-sonnet-4-5-20250929-thinking-32k | 1315 | +11/-11 | 4,312 | Anthropic | Proprietary |
| 4 | gemini-2.5-pro | 1310 | +10/-10 | 5,120 | Proprietary | |
| 5 | gpt-5.1-high | 1308 | +12/-12 | 3,815 | OpenAI | Proprietary |
| 6 | grok-4.1 | 1305 | +11/-11 | 2,980 | xAI | Proprietary |
| 7 | claude-opus-4-1-20250805-thinking-16k | 1302 | +12/-12 | 4,214 | Anthropic | Proprietary |
| 8 | claude-sonnet-4-5-20250929 | 1298 | +11/-11 | 5,312 | Anthropic | Proprietary |
| 9 | gpt-4.5-preview-2025-02-27 | 1295 | +11/-11 | 2,925 | OpenAI | Proprietary |
| 10 | claude-opus-4-1-20250805 | 1290 | +12/-12 | 3,534 | Anthropic | Proprietary |
👁️ Vision Arena 排行榜
视觉理解模型综合评测 - 图像识别、场景理解、多模态能力
| 排名 | 模型名称 | 评分 | 置信区间 | 开发者 | 许可证 |
|---|---|---|---|---|---|
| 🥇 1 | gemini-3-pro | 1324 | ±13 | Proprietary | |
| 🥈 2 | gemini-2.5-pro | 1249 | ±7 | Proprietary | |
| 🥉 3 | chatgpt-4o-latest-20250326 | 1237 | ±7 | OpenAI | Proprietary |
| 4 | gpt-4.5-preview-2025-02-27 | 1226 | ±11 | OpenAI | Proprietary |
| 5 | gemini-2.5-flash-preview-09-2025 | 1225 | ±11 | Proprietary | |
| 6 | gpt-5-chat | 1222 | ±8 | OpenAI | Proprietary |
| 7 | o3-2025-04-16 | 1219 | ±7 | OpenAI | Proprietary |
| 8 | gpt-4.1-2025-04-14 | 1216 | ±7 | OpenAI | Proprietary |
| 9 | gemini-2.5-flash | 1214 | ±7 | Proprietary | |
| 10 | claude-opus-4-20250514-thinking-16k | 1210 | ±15 | Anthropic | Proprietary |
🎨 Text-to-Image Arena 排行榜
最后更新: 2025年10月12日 | 总投票数: 3,239,761 | 参与模型: 27
| 排名 | 模型名称 | 评分 | 置信区间 | 投票数 | 开发者 | 许可证 |
|---|---|---|---|---|---|---|
| 🥇 1 | gemini-3-pro-image-preview | 1242 | ±12 | 3,720 | Proprietary | |
| 🥈 2 | hunyuan-image-3.0 | 1161 | ±5 | 57,245 | Tencent | Community |
| 🥉 3 | gemini-2.5-flash-image-preview | 1158 | ±4 | 579,254 | Proprietary | |
| 4 | seedream-4-2k | 1144 | ±6 | 14,507 | Bytedance | Proprietary |
| 5 | imagen-4.0-ultra-generate-preview | 1143 | ±4 | 478,685 | Proprietary | |
| 6 | imagen-4.0-generate-preview | 1130 | ±4 | 479,234 | Proprietary | |
| 7 | seedream-4-high-res-fal | 1127 | ±5 | 47,180 | Bytedance | Proprietary |
| 8 | wan2.5-t2i-preview | 1124 | ±9 | 5,642 | Alibaba | Proprietary |
| 9 | gpt-image-1 | 1121 | ±4 | 228,474 | OpenAI | Proprietary |
| 10 | seedream-4-fal | 1118 | ±6 | 13,460 | Bytedance | Proprietary |
💻 WebDev Arena 排行榜
Web开发能力评测 - 代码生成、前端开发、调试能力
| 排名 | 模型名称 | 评分 | 置信区间 | 开发者 | 许可证 |
|---|---|---|---|---|---|
| 🥇 1 | gemini-3-pro | 1483 | +12/-12 | Proprietary | |
| 🥈 2 | gpt-5.1-medium | 1407 | +19/-19 | OpenAI | Proprietary |
| 🥉 3 | claude-sonnet-4-5-20250929-thinking-32k | 1400 | +11/-11 | Anthropic | Proprietary |
| 4 | claude-opus-4-1-20250805 | 1399 | +12/-12 | Anthropic | Proprietary |
| 5 | gpt-5-medium | 1396 | +12/-12 | OpenAI | Proprietary |
| 6 | claude-sonnet-4-5-20250929 | 1387 | +11/-11 | Anthropic | Proprietary |
| 7 | glm-4.6 | 1372 | +12/-12 | Z.ai | MIT |
| 8 | gpt-5.1 | 1364 | +12/-12 | OpenAI | Proprietary |
| 9 | gpt-5.1-codex | 1336 | +15/-15 | OpenAI | Proprietary |
| 10 | minimax-m2 | 1305 | +12/-12 | MiniMax | Apache 2.0 |
👁️ Vision Arena 排行榜
视觉理解模型综合评测 - 图像识别、场景理解、多模态能力
| 排名 | 模型名称 | 评分 | 置信区间 | 开发者 | 许可证 |
|---|---|---|---|---|---|
| 🥇 1 | gemini-3-pro | 1324 | ±13 | Proprietary | |
| 🥈 2 | gemini-2.5-pro | 1249 | ±7 | Proprietary | |
| 🥉 3 | chatgpt-4o-latest-20250326 | 1237 | ±7 | OpenAI | Proprietary |
| 4 | gpt-4.5-preview-2025-02-27 | 1226 | ±11 | OpenAI | Proprietary |
| 5 | gemini-2.5-flash-preview-09-2025 | 1225 | ±11 | Proprietary | |
| 6 | gpt-5-chat | 1222 | ±8 | OpenAI | Proprietary |
| 7 | o3-2025-04-16 | 1219 | ±7 | OpenAI | Proprietary |
| 8 | gpt-4.1-2025-04-14 | 1216 | ±7 | OpenAI | Proprietary |
| 9 | gemini-2.5-flash | 1214 | ±7 | Proprietary | |
| 10 | claude-opus-4-20250514-thinking-16k | 1210 | ±15 | Anthropic | Proprietary |
🔍 Search Arena 排行榜
搜索增强模型评测 - 联网搜索、信息检索、实时更新能力
| 排名 | 模型名称 | 评分 | 置信区间 | 开发者 | 许可证 |
|---|---|---|---|---|---|
| 🥇 1 | grok-4-fast-search | 1166 | ±5 | xAI | Proprietary |
| 🥈 2 | ppl-sonar-pro-high | 1149 | ±5 | Perplexity AI | Proprietary |
| 🥉 3 | gemini-2.5-pro-grounding | 1142 | ±4 | Proprietary | |
| 4 | o3-search | 1142 | ±4 | OpenAI | Proprietary |
| 5 | grok-4-search | 1141 | ±5 | xAI | Proprietary |
| 6 | gpt-5-search | 1132 | ±5 | OpenAI | Proprietary |
| 7 | claude-opus-4-1-search | 1132 | ±5 | Anthropic | Proprietary |
| 8 | claude-opus-4-search | 1130 | ±5 | Anthropic | Proprietary |
| 9 | ppl-sonar-reasoning-pro-high | 1127 | ±6 | Perplexity AI | Proprietary |
| 10 | diffbot-small-xl | 1023 | ±8 | Diffbot | Proprietary |
🎬 Text-to-Video Arena 排行榜
文生视频模型评测 - 视频生成质量、动作连贯性、创意表现
| 排名 | 模型名称 | 评分 | 开发者 | 特性 |
|---|---|---|---|---|
| 🥇 1 | veo-3.1-audio | 1382 | 最新版本 | 音频支持 | 高质量 | |
| 🥈 2 | veo-3.1-fast-audio | 1379 | 快速生成 | 音频支持 | 实时渲染 | |
| 🥉 3 | veo-3-fast-audio | 1366 | 音频同步 | 高速处理 | 稳定输出 | |
| 4 | sora-2-pro | 1359 | OpenAI | 专业版 | 高分辨率 | 长视频 |
| 5 | veo-3-audio | 1344 | 音频集成 | 多模态 | 高保真 | |
| 6 | sora-2 | 1321 | OpenAI | 第二代 | 改进质量 | 更长时长 |
| 7 | veo-3-fast | 1263 | 快速模式 | 实时生成 | 效率优先 | |
| 8 | veo-3 | 1255 | 标准版 | 平衡质量 | 稳定可靠 | |
| 9 | kling-2.5-turbo-1080p | 1223 | Kuaishou | 1080p | 快速版 | 中文优化 |
| 10 | ray-3 | 1208 | Ray AI | 第三代 | 创新技术 | 高性能 |
🎞️ Image-to-Video Arena 排行榜
图生视频模型评测 - 静态图像转视频能力、动画生成质量
| 排名 | 模型名称 | 评分 | 开发者 | 特性 |
|---|---|---|---|---|
| 🥇 1 | veo-3.1-audio | 1396 | 音频支持 | 高保真 | 智能转换 | |
| 🥈 2 | veo-3.1-fast-audio | 1395 | 快速处理 | 音频同步 | 高效率 | |
| 🥉 3 | wan2.5-i2v-preview | 1341 | Wanxiang AI | 预览版 | 高质量 | 智能转换 |
| 4 | veo-3-audio | 1333 | 音频集成 | 稳定输出 | 多模态 | |
| 5 | veo-3-fast-audio | 1329 | 快速模式 | 音频支持 | 实时渲染 | |
| 6 | kling-2.5-turbo-1080p | 1277 | Kuaishou | 1080p | Turbo | 中文优化 |
| 7 | seedance-v1-pro | 1275 | ByteDance | 专业版 | 动作自然 | 高保真 |
| 8 | vidu-q2-turbo | 1253 | Vidu AI | 快速版 | 高质量 | 智能优化 |
| 9 | veo-3 | 1247 | 标准版 | 平衡性能 | 稳定可靠 | |
| 10 | veo-3-fast | 1241 | 快速生成 | 效率优先 | 实时处理 |
✏️ Image Edit Arena 排行榜
图像编辑模型评测 - AI图像修改、优化和风格转换能力
| 排名 | 模型名称 | 评分 | 开发者 | 特性 |
|---|---|---|---|---|
| 🥇 1 | gemini-3-pro-image-preview | 1371 | 最新版本 | 智能编辑 | 高质量 | |
| 🥈 2 | gemini-2.5-flash-image-preview | 1330 | 快速预览 | 高效处理 | 实时反馈 | |
| 🥉 3 | seedream-4-2k | 1311 | Bytedance | 2K分辨率 | 细节丰富 | 高保真 |
| 4 | seedream-4-high-res-fal | 1250 | Bytedance | 高分辨率 | 精确编辑 | 快速处理 |
| 5 | reve-v1 | 1234 | Reve AI | V1版本 | 智能修复 | 风格统一 |
| 6 | seedream-4-fal | 1212 | Bytedance | 标准版 | 快速响应 | 稳定输出 |
| 7 | qwen-image-edit | 1202 | Alibaba | 多功能 | 中文优化 | 智能识别 |
| 8 | reve-edit-fast | 1201 | Reve AI | 快速编辑 | 实时处理 | 高效率 |
| 9 | flux-1-kontext-max | 1194 | Black Forest Labs | 最大版本 | 精细控制 | 专业级 |
| 10 | flux-1-kontext-pro | 1183 | Black Forest Labs | 专业版 | 高质量 | 商业可用 |
🤖 Copilot Arena 排行榜
代码助手模型评测 - 编程辅助、代码补全、智能提示能力
| 排名 | 模型名称 | 评分 | 开发者 | 特性 |
|---|---|---|---|---|
| 🥇 1 | github-copilot++ | 1363 | GitHub | Proprietary |
| 🥈 2 | claude-3.7-sonnet-copilot | 1358 | Anthropic | Proprietary |
| 🥉 3 | gemini-code-assist-1.5-pro | 1352 | Proprietary | |
| 4 | cursor-small-3.5 | 1345 | Cursor | Proprietary |
| 5 | supermaven-pro | 1341 | Supermaven | Proprietary |
| 6 | continue-dev-beta | 1338 | Continue | Open Source |
| 7 | codeium-ultra | 1335 | Codeium | Proprietary |
| 8 | tabnine-pro | 1329 | Tabnine | Proprietary |
| 9 | qodo-merge-pro | 1322 | Qodo | Proprietary |
| 10 | magic-dev-bench | 1318 | Magic | Proprietary |
关于 LMArena
全球最权威的AI模型评测平台 - LMArena Leaderboard
什么是 LMArena?
LMArena(Language Model Arena)是全球领先的开放式AI模型评测平台,由LMSYS组织开发和维护。通过创新的盲测对比机制,LMArena让用户在不知道模型身份的情况下进行真实评测,确保了排行榜的公正性和权威性。
自2023年推出以来,LMArena已经收集了超过420万次真实用户投票,涵盖258个主流AI模型,成为全球开发者和研究者评估AI模型性能的重要参考标准。
Elo评分系统
采用国际象棋级别的Elo评分算法,通过大规模用户对战数据计算模型真实实力,每次对比都会动态调整排名,确保排行榜始终反映最新的模型性能。
多维度评测
LMArena提供9大评测分类:文本对话、代码生成、视觉理解、图像生成、视频生成、图像编辑、搜索增强、图生视频、AI编程助手,全方位评测AI模型能力。
真实用户投票
每天有超过10万活跃用户参与LMArena的模型对比测试,通过盲测机制消除品牌偏见,让数据说话,用户的每一票都在塑造最真实的AI排行榜。
实时更新排名
LMArena排行榜实时反映最新评测数据,新模型上线后立即加入对比测试,确保开发者和用户随时掌握AI领域最前沿的模型表现和技术趋势。
开源透明
LMArena的评测方法、数据集和排名算法完全开源,任何人都可以查看和验证评测过程,确保排行榜的可信度和学术价值。
行业标准
LMArena已成为AI行业公认的模型评测标准,OpenAI、Google、Anthropic、Meta等顶级AI公司都将LMArena排名作为衡量模型性能的重要指标。