Prompt performance,
not guesswork

Every prompt tested across the same models. Scored by independent AI judges.

Evaluating across GPT-4, Claude 3.5, and Gemini 1.5

Sort By

All scores are aggregated using multi-judge consensus (GPT-4o Mini + Claude 3 Haiku).

How it works →

24 prompts+ found

rag-qa-with-history

Best Modelgpt-5-mini

View details →

rag-prompt-llama3

Best Modelgemini-2.5-flash-lite

View details →

rag-prompt-med

Best Modelgpt-5-mini

View details →

more-crafted-rag-prompt

Best Modelgemini-2.5-flash-lite

View details →

rag-prompt

Best Modelgemini-2.5-flash-lite

View details →

simple-rag

Best Modelclaude-3-5-haiku

View details →

rag-prompt

Best Modelgpt-5-mini

View details →

sport-routine-to-program-short

Best Modelgpt-5-mini

View details →

rag-prompt

Best Modelgpt-5-mini

View details →

rag-answer-helpfulness

Best Modelgpt-5-mini

View details →

rag-with-history-guidance

Best Modelgemini-2.5-flash-lite

View details →

rag-prompt-chat-history

Best Modelgpt-5-mini

View details →

rag-answer-hallucination

Best Modelclaude-3-5-haiku

View details →

sport-routine-to-program

Best Modelgpt-5-mini

View details →

tnt-llm-taxonomy-generation

Best Modelclaude-3-5-haiku

View details →

rag-context-precision

Best Modelgpt-5-mini

View details →

pre-next-5-summarization

Best Modelclaude-3-5-haiku

View details →

assumption-checker

Best Modelclaude-3-5-haiku

View details →

rag-answer-hallucination

Best Modelgemini-2.5-flash-lite

View details →

my-first-prompt

Best Modelgpt-5-mini

View details →

pairwise-evaluation-2

Best Modelclaude-3-5-haiku

View details →

pre-reflection-summary

Best Modelclaude-3-5-haiku

View details →

chat-langchain-rephrase

Best Modelgemini-2.5-flash-lite

View details →

youtube-transcript-to-article

Best Modelgpt-5-mini

View details →

Scroll for more