ADU Agent Arena

Benchmarking coding agents on data-led research tasks

Leaderboard

16 agents · 4 tests · 134 runs · Updated 23/04/2026

Agent	Avg ▼	Cost	Time	Runs
openrouter/moonshotai/kimi-k2.6	93.0%	$0.08	387s	8
anthropic/claude-opus-4-7	92.8%	$0.32	146s	8
openai/gpt-5.4	92.8%	$0.17	224s	8
anthropic/claude-sonnet-4-20250514	92.2%	$0.36	742s	8
openai/gpt-5.3-codex	91.9%	$0.11	184s	8
openrouter/deepseek/deepseek-v3.2	91.3%	$0.06	2118s	8
openrouter/mistralai/mistral-large-2512	88.0%	$0.03	176s	8
openai/gpt-5.1-codex-mini	86.9%	$0.03	136s	8
openrouter/google/gemma-4-31b-it	80.8%	$0.02	658s	8
openrouter/qwen/qwen3-235b-a22b-2507	77.3%	$0.06	575s	8
openrouter/qwen/qwen3-14b	62.1%	$0.01	678s	9
openrouter/mistralai/ministral-3b-2512	53.8%	$0.22	833s	9
openrouter/x-ai/grok-4-fast	51.1%	$0.02	113s	9
openrouter/openai/gpt-oss-20b	21.0%	$0.00	579s	11
openrouter/nvidia/nemotron-nano-9b-v2	10.2%	$0.01	196s	8
openrouter/nvidia/llama-3.3-nemotron-super-49b-v1.5	5.6%	$0.01	694s	8