Prompt performance,
not guesswork

Every prompt tested across the same models. Scored by independent AI judges.

Evaluating across GPT-4, Claude 3.5, and Gemini 1.5

Sort By

All scores are aggregated using multi-judge consensus (GPT-4o Mini + Claude 3 Haiku).

How it works →

11 prompts found

simple-rag

Best Modelclaude-3-5-haiku

View details →

pre-top-3-summarization

Best Modelgpt-5-mini

View details →

sport-routine-to-program-short

Best Modelgpt-5-mini

View details →

sport-routine-to-program

Best Modelgpt-5-mini

View details →

assumption-checker

Best Modelclaude-3-5-haiku

View details →

chain-of-density-prompt

Best Modelgpt-5-mini

View details →

librarian_guide

Best Modelclaude-3-5-haiku

View details →

generate_politicans

Best Modelclaude-3-5-haiku

View details →

multi-query-retriever

Best Modelclaude-3-5-haiku

View details →

proposal-indexing

Best Modelgpt-5-mini

View details →

conversation-title-generator

Best Modelgpt-5-mini

View details →

You've reached the end