Prompt performance,
not guesswork

Every prompt tested across the same models. Scored by independent AI judges.

Evaluating across GPT-4, Claude 3.5, and Gemini 1.5

StructuredPrompt

Sort By

All scores are aggregated using multi-judge consensus (GPT-4o Mini + Claude 3 Haiku).

How it works →

13 prompts found

rag-answer-hallucination

Best Modelgpt-5-mini

View details →

rag-document-relevance

Best Modelgemini-2.5-flash-lite

View details →

rag-answer-helpfulness

Best Modelgpt-5-mini

View details →

rag-answer-hallucination

Best Modelclaude-3-5-haiku

View details →

rag-context-precision

Best Modelgpt-5-mini

View details →

rag-answer-hallucination

Best Modelgemini-2.5-flash-lite

View details →

pairwise-evaluation-2

Best Modelclaude-3-5-haiku

View details →

rag-doc-relevance

Best Modelgemini-2.5-flash-lite

View details →

rag-answer-vs-helpfullness

Best Modelclaude-3-5-haiku

View details →

evaluator-rag-precision

Best Modelclaude-3-5-haiku

View details →

mycelium_relevance

Best Modelgpt-5-mini

View details →

rag-answer-vs-reference

Best Modelgemini-2.5-flash-lite

View details →

test_roche

Best Modelclaude-3-5-haiku

View details →

You've reached the end