You're offline

Some features may be unavailable. Changes will sync when you reconnect.

terminal

LLM Benchmark

Compare models across speed, cost, quality, and reliability

Configure Benchmark

Select Models

OpenAI

Anthropic

Gemini

Settings

Request Count100

Prompt TypeMixed (summarization + Q&A + code)

Timeout (ms)5000

Latency Comparison (ms)

Performance Radar

Full Results

Model	Success Rate	Avg Latency	P95	Cost/1K tokens	Throughput (req/s)
🥇gpt-4o-mini	98.2%	680ms	1200ms	$0.15	45
🥈claude-3-haiku	97.8%	720ms	1350ms	$0.25	38
🥉gemini-flash	96.5%	450ms	890ms	$0.075	62