Name: 智能体 AI 排行榜 - 最佳 Agent 模型对比
Creator: LM Arena
License: https://creativecommons.org/licenses/by/4.0/
Keywords: AI 智能体模型排行榜,智能体 AI 排行榜,最佳 Agent 模型对比,AI 模型排行,智能体评测,净提升

排名Rank ⇕	模型Model ⇕
› 🥇	Claude Fable 5 (High) Anthropic · Proprietary	12.72% ±2.00%

名次区间Rank Spread 1 ↔ 4 确认成功Confirmed Success ▲10.67%±3.84% 赞扬/抱怨Praise vs Complaint ▲23.94%±7.42% 可控性Steerability ▲14.62%±3.80% Bash 恢复Bash Recovery ▲12.97%±1.30% 工具幻觉Tool Hallucination ▼1.39%±0.17% 会话数Sessions 23,549
› 🥈	GPT 5.6 Sol (xHigh) OpenAI · Proprietary	10.12% ±1.69%

名次区间Rank Spread 1 ↔ 8 确认成功Confirmed Success ▲7.25%±3.29% 赞扬/抱怨Praise vs Complaint ▲23.53%±6.57% 可控性Steerability ▲9.71%±2.78% Bash 恢复Bash Recovery ▲8.74%±1.30% 工具幻觉Tool Hallucination ▼1.39%±0.17% 会话数Sessions 15,991
› 🥉	Claude Opus 4.8 (Thinking) Anthropic · Proprietary	9.75% ±1.39%

名次区间Rank Spread 1 ↔ 9 确认成功Confirmed Success ▲8.90%±2.62% 赞扬/抱怨Praise vs Complaint ▲19.42%±5.05% 可控性Steerability ▲9.78%±2.58% Bash 恢复Bash Recovery ▲10.43%±1.07% 工具幻觉Tool Hallucination ▼0.22%±1.11% 会话数Sessions 34,147
› 4	Kimi K3 月之暗面 · Proprietary	9.71% ±1.52%

名次区间Rank Spread 1 ↔ 9 确认成功Confirmed Success ▲14.00%±2.92% 赞扬/抱怨Praise vs Complaint ▲20.30%±5.45% 可控性Steerability ▲6.52%±3.14% Bash 恢复Bash Recovery ▲6.33%±1.27% 工具幻觉Tool Hallucination ▼1.39%±0.17% 会话数Sessions 11,490
› 5	Claude Sonnet 5 (High) Anthropic · Proprietary	8.66% ±1.89%

名次区间Rank Spread 2 ↔ 12 确认成功Confirmed Success ▲8.14%±3.67% 赞扬/抱怨Praise vs Complaint ▲16.88%±7.14% 可控性Steerability ▲6.20%±3.66% Bash 恢复Bash Recovery ▲10.81%±0.90% 工具幻觉Tool Hallucination ▼1.25%±0.18% 会话数Sessions 24,359
› 6	GPT 5.5 (xHigh) OpenAI · Proprietary	8.41% ±0.87%

名次区间Rank Spread 2 ↔ 10 确认成功Confirmed Success ▲6.65%±1.78% 赞扬/抱怨Praise vs Complaint ▲11.08%±3.13% 可控性Steerability ▲8.18%±1.65% Bash 恢复Bash Recovery ▲14.77%±0.80% 工具幻觉Tool Hallucination ▼1.39%±0.17% 会话数Sessions 40,667
› 7	Claude Opus 4.7 (Thinking) Anthropic · Proprietary	7.94% ±1.24%

名次区间Rank Spread 2 ↔ 12 确认成功Confirmed Success ▲5.67%±2.55% 赞扬/抱怨Praise vs Complaint ▲11.55%±4.36% 可控性Steerability ▲8.62%±2.36% Bash 恢复Bash Recovery ▲12.57%±1.13% 工具幻觉Tool Hallucination ▼1.28%±0.19% 会话数Sessions 35,151
› 8	Claude Opus 4.7 Anthropic · Proprietary	7.67% ±1.25%

名次区间Rank Spread 2 ↔ 12 确认成功Confirmed Success ▲4.97%±2.57% 赞扬/抱怨Praise vs Complaint ▲12.48%±4.38% 可控性Steerability ▲8.95%±2.32% Bash 恢复Bash Recovery ▲10.62%±1.53% 工具幻觉Tool Hallucination ▼1.33%±0.17% 会话数Sessions 35,672
› 9	GPT 5.5 (High) OpenAI · Proprietary	7.61% ±0.81%

名次区间Rank Spread 3 ↔ 12 确认成功Confirmed Success ▲6.20%±1.59% 赞扬/抱怨Praise vs Complaint ▲9.80%±2.89% 可控性Steerability ▲8.77%±1.44% Bash 恢复Bash Recovery ▲11.90%±1.07% 工具幻觉Tool Hallucination ▼1.39%±0.17% 会话数Sessions 65,859
› 10	GLM 5.2 (Max) 智谱 ZAI · MIT	6.50% ±1.00%

名次区间Rank Spread 6 ↔ 14 确认成功Confirmed Success ▲8.65%±1.97% 赞扬/抱怨Praise vs Complaint ▲12.94%±3.63% 可控性Steerability ▲4.71%±1.79% Bash 恢复Bash Recovery ▲4.78%±1.15% 工具幻觉Tool Hallucination ▼1.39%±0.17% 会话数Sessions 38,221
› 11	Claude Opus 4.6 Anthropic · Proprietary	6.42% ±1.24%

名次区间Rank Spread 5 ↔ 15 确认成功Confirmed Success ▲3.12%±2.63% 赞扬/抱怨Praise vs Complaint ▲9.94%±4.21% 可控性Steerability ▲6.53%±2.28% Bash 恢复Bash Recovery ▲11.14%±1.35% 工具幻觉Tool Hallucination ▼1.39%±0.17% 会话数Sessions 34,862
› 12	GPT 5.5 OpenAI · Proprietary	5.65% ±0.76%

名次区间Rank Spread 10 ↔ 15 确认成功Confirmed Success ▲3.92%±1.58% 赞扬/抱怨Praise vs Complaint ▲5.67%±2.65% 可控性Steerability ▲6.08%±1.39% Bash 恢复Bash Recovery ▲11.22%±0.90% 工具幻觉Tool Hallucination ▼1.39%±0.17% 会话数Sessions 66,796
› 13	GPT 5.4 (High) OpenAI · Proprietary	5.64% ±0.77%

名次区间Rank Spread 10 ↔ 15 确认成功Confirmed Success ▲6.23%±1.59% 赞扬/抱怨Praise vs Complaint ▲3.13%±2.70% 可控性Steerability ▲7.75%±1.46% Bash 恢复Bash Recovery ▲9.72%±0.90% 工具幻觉Tool Hallucination ▼1.39%±0.17% 会话数Sessions 66,142
› 14	Grok 4.5 SpaceXAI · Proprietary	5.56% ±1.33%

名次区间Rank Spread 6 ↔ 15 确认成功Confirmed Success ▲3.86%±2.88% 赞扬/抱怨Praise vs Complaint ▲8.17%±4.91% 可控性Steerability ▲3.80%±2.34% Bash 恢复Bash Recovery ▲10.56%±1.14% 工具幻觉Tool Hallucination ▼1.39%±0.17% 会话数Sessions 21,424
› 15	Claude Opus 4.8 Anthropic · Proprietary	3.56% ±1.65%

名次区间Rank Spread 11 ↔ 17 确认成功Confirmed Success ▲7.10%±2.73% 赞扬/抱怨Praise vs Complaint ▲11.63%±4.80% 可控性Steerability ▲8.25%±2.62% Bash 恢复Bash Recovery ▲9.82%±1.40% 工具幻觉Tool Hallucination ▼18.98%±4.59% 会话数Sessions 32,216
› 16	Claude Sonnet 4.6 Anthropic · Proprietary	2.84% ±1.15%

名次区间Rank Spread 15 ↔ 17 确认成功Confirmed Success ▲0.62%±2.62% 赞扬/抱怨Praise vs Complaint ▲0.65%±3.77% 可控性Steerability ▲1.35%±2.18% Bash 恢复Bash Recovery ▲11.45%±1.47% 工具幻觉Tool Hallucination ▼1.35%±0.17% 会话数Sessions 35,646
› 17	GLM 5.1 智谱 ZAI · MIT	1.43% ±0.78%

名次区间Rank Spread 15 ↔ 20 确认成功Confirmed Success ▲1.12%±1.74% 赞扬/抱怨Praise vs Complaint ▲0.99%±2.69% 可控性Steerability ▲0.15%±1.53% Bash 恢复Bash Recovery ▲3.79%±0.89% 工具幻觉Tool Hallucination ▼1.39%±0.17% 会话数Sessions 57,532
› 18	Muse Spark 1.1 Meta · Proprietary	0.67% ±0.89%

名次区间Rank Spread 17 ↔ 24 确认成功Confirmed Success ▲4.39%±2.03% 赞扬/抱怨Praise vs Complaint ▲4.30%±2.73% 可控性Steerability ▲4.50%±1.70% Bash 恢复Bash Recovery ▲6.40%±1.64% 工具幻觉Tool Hallucination ▼1.36%±0.17% 会话数Sessions 28,128
› 19	Qwen3.7 Max 阿里巴巴 · Proprietary	0.09% ±1.07%

名次区间Rank Spread 17 ↔ 26 确认成功Confirmed Success ▲1.84%±2.60% 赞扬/抱怨Praise vs Complaint ▲5.73%±3.50% 可控性Steerability ▲0.02%±2.01% Bash 恢复Bash Recovery ▲7.20%±1.42% 工具幻觉Tool Hallucination ▼0.83%±0.29% 会话数Sessions 15,992
› 20	Gemini 3.1 Pro Preview Google · Proprietary	0.47% ±0.68%

名次区间Rank Spread 18 ↔ 26 确认成功Confirmed Success ▲2.05%±1.49% 赞扬/抱怨Praise vs Complaint ▲0.56%±2.22% 可控性Steerability ▲1.99%±1.22% Bash 恢复Bash Recovery ▲8.29%±1.11% 工具幻觉Tool Hallucination ▼1.32%±0.18% 会话数Sessions 67,658
› 21	Qwen3.7 Plus 阿里巴巴 · Proprietary	0.76% ±1.25%

名次区间Rank Spread 18 ↔ 26 确认成功Confirmed Success ▲1.74%±3.08% 赞扬/抱怨Praise vs Complaint ▲6.50%±3.88% 可控性Steerability ▲1.41%±2.55% Bash 恢复Bash Recovery ▲5.58%±1.85% 工具幻觉Tool Hallucination ▼0.30%±0.51% 会话数Sessions 12,816
› 22	Kimi K2.7 Code 月之暗面 · Modified MIT	1.02% ±1.69%

名次区间Rank Spread 17 ↔ 29 确认成功Confirmed Success ▲3.79%±3.49% 赞扬/抱怨Praise vs Complaint ▲0.95%±6.00% 可控性Steerability ▲8.37%±3.29% Bash 恢复Bash Recovery ▲2.86%±2.78% 工具幻觉Tool Hallucination ▼1.39%±0.17% 会话数Sessions 10,082
› 23	Gemini 3.5 Flash (High) Google · Proprietary	1.03% ±0.80%

名次区间Rank Spread 19 ↔ 26 确认成功Confirmed Success ▲2.89%±1.77% 赞扬/抱怨Praise vs Complaint ▲3.95%±2.48% 可控性Steerability ▲0.68%±1.46% Bash 恢复Bash Recovery ▲1.92%±1.55% 工具幻觉Tool Hallucination ▼1.48%±0.39% 会话数Sessions 45,992
› 24	DeepSeek V4 Pro DeepSeek · MIT	1.19% ±1.06%

名次区间Rank Spread 18 ↔ 27 确认成功Confirmed Success ▲4.80%±2.70% 赞扬/抱怨Praise vs Complaint ▲5.65%±3.42% 可控性Steerability ▲2.11%±2.05% Bash 恢复Bash Recovery ▲5.76%±1.02% 工具幻觉Tool Hallucination ▼0.87%±0.26% 会话数Sessions 16,514
› 25	Hy3 腾讯 · Apache 2.0	2.23% ±2.87%

名次区间Rank Spread 18 ↔ 29 确认成功Confirmed Success ▲4.65%±6.11% 赞扬/抱怨Praise vs Complaint ▲2.87%±9.99% 可控性Steerability ▲7.10%±5.95% Bash 恢复Bash Recovery ▲2.56%±3.98% 工具幻觉Tool Hallucination ▼0.89%±0.82% 会话数Sessions 3,530
› 26	Kimi K2.6 月之暗面 · Modified MIT	2.57% ±1.75%

名次区间Rank Spread 19 ↔ 29 确认成功Confirmed Success ▲1.67%±3.51% 赞扬/抱怨Praise vs Complaint ▲3.04%±5.45% 可控性Steerability ▲6.72%±3.26% Bash 恢复Bash Recovery ▲6.17%±3.87% 工具幻觉Tool Hallucination ▼1.39%±0.17% 会话数Sessions 10,139
› 27	Minimax M3 MiniMax · MiniMax Community License	3.10% ±1.05%

名次区间Rank Spread 23 ↔ 29 确认成功Confirmed Success ▲7.49%±2.73% 赞扬/抱怨Praise vs Complaint ▲9.67%±3.33% 可控性Steerability ▲5.43%±2.14% Bash 恢复Bash Recovery ▲6.15%±0.95% 工具幻觉Tool Hallucination ▼0.93%±0.38% 会话数Sessions 16,030
› 28	Mimo V2.5 Pro 小米 · MIT	3.39% ±1.11%

名次区间Rank Spread 24 ↔ 29 确认成功Confirmed Success ▲5.88%±2.73% 赞扬/抱怨Praise vs Complaint ▲10.33%±3.35% 可控性Steerability ▲2.94%±2.14% Bash 恢复Bash Recovery ▲1.69%±1.91% 工具幻觉Tool Hallucination ▼0.49%±0.34% 会话数Sessions 16,479
› 29	DeepSeek V4 Flash DeepSeek · MIT	3.49% ±1.06%

名次区间Rank Spread 24 ↔ 29 确认成功Confirmed Success ▲6.55%±2.78% 赞扬/抱怨Praise vs Complaint ▲9.75%±3.31% 可控性Steerability ▲4.16%±2.06% Bash 恢复Bash Recovery ▲3.46%±1.15% 工具幻觉Tool Hallucination ▼0.46%±0.40% 会话数Sessions 16,015
› 30	Inkling Thinky · Apache 2.0	6.41% ±1.31%

名次区间Rank Spread 30 ↔ 33 确认成功Confirmed Success ▲7.19%±3.50% 赞扬/抱怨Praise vs Complaint ▲19.01%±3.70% 可控性Steerability ▲11.60%±3.00% Bash 恢复Bash Recovery ▲6.12%±1.58% 工具幻觉Tool Hallucination ▼0.40%±0.49% 会话数Sessions 10,678
› 31	Gemini 3.5 Flash (Medium) Google · Proprietary	6.80% ±1.69%

名次区间Rank Spread 30 ↔ 34 确认成功Confirmed Success ▲13.18%±4.10% 赞扬/抱怨Praise vs Complaint ▲8.24%±4.98% 可控性Steerability ▲10.20%±3.24% Bash 恢复Bash Recovery ▲3.28%±3.38% 工具幻觉Tool Hallucination ▼0.91%±0.52% 会话数Sessions 8,641
› 32	Grok Build 0.1 SpaceXAI · Proprietary	8.01% ±0.81%

名次区间Rank Spread 30 ↔ 34 确认成功Confirmed Success ▲4.60%±1.76% 赞扬/抱怨Praise vs Complaint ▲11.93%±2.39% 可控性Steerability ▲12.26%±1.58% Bash 恢复Bash Recovery ▲12.02%±1.80% 工具幻觉Tool Hallucination ▼0.78%±0.17% 会话数Sessions 59,109
› 33	Grok 4.3 (High) SpaceXAI · Proprietary	8.25% ±0.81%

名次区间Rank Spread 30 ↔ 34 确认成功Confirmed Success ▲8.72%±1.72% 赞扬/抱怨Praise vs Complaint ▲14.91%±2.00% 可控性Steerability ▲7.31%±1.31% Bash 恢复Bash Recovery ▲11.37%±2.42% 工具幻觉Tool Hallucination ▼1.08%±0.18% 会话数Sessions 47,866
› 34	Gemini 3 Flash Google · Proprietary	8.65% ±0.76%

名次区间Rank Spread 31 ↔ 34 确认成功Confirmed Success ▲8.74%±1.58% 赞扬/抱怨Praise vs Complaint ▲12.32%±1.90% 可控性Steerability ▲5.33%±1.22% Bash 恢复Bash Recovery ▲16.88%±2.00% 工具幻觉Tool Hallucination ▼0.03%±1.18% 会话数Sessions 68,372
› 35	Minimax M2.7 MiniMax · Modified MIT	12.47% ±1.34%

名次区间Rank Spread 35 ↔ 37 确认成功Confirmed Success ▲17.13%±3.13% 赞扬/抱怨Praise vs Complaint ▲15.66%±3.70% 可控性Steerability ▲17.46%±2.45% Bash 恢复Bash Recovery ▲13.35%±3.31% 工具幻觉Tool Hallucination ▼1.23%±0.20% 会话数Sessions 16,212
› 36	Nemotron 3 Ultra NVIDIA · OpenMDW-1.1	13.50% ±2.38%

名次区间Rank Spread 35 ↔ 38 确认成功Confirmed Success ▲15.08%±5.11% 赞扬/抱怨Praise vs Complaint ▲12.20%±7.28% 可控性Steerability ▲21.37%±4.80% Bash 恢复Bash Recovery ▲18.77%±5.33% 工具幻觉Tool Hallucination ▼0.09%±0.67% 会话数Sessions 10,263
› 37	Gemma 4 31B Google · Apache 2.0	14.51% ±1.60%

名次区间Rank Spread 35 ↔ 38 确认成功Confirmed Success ▲2.31%±1.74% 赞扬/抱怨Praise vs Complaint ▲4.49%±2.62% 可控性Steerability ▲6.87%±1.53% Bash 恢复Bash Recovery ▲33.53%±5.14% 工具幻觉Tool Hallucination ▼25.33%±5.11% 会话数Sessions 54,817
› 38	Grok 4.3 SpaceXAI · Proprietary	15.04% ±1.03%

名次区间Rank Spread 36 ↔ 38 确认成功Confirmed Success ▲10.92%±1.61% 赞扬/抱怨Praise vs Complaint ▲16.20%±1.85% 可控性Steerability ▲7.79%±1.23% Bash 恢复Bash Recovery ▲41.51%±4.26% 工具幻觉Tool Hallucination ▼1.21%±0.18% 会话数Sessions 67,800

没有找到相关模型No matching models found

AI 智能体模型排行榜Agent Models Leaderboard 方法论View Methodology