Prompt performance,
not guesswork

Every prompt tested across the same models. Scored by independent AI judges.

Evaluating across GPT-4, Claude 3.5, and Gemini 1.5

Sort By

All scores are aggregated using multi-judge consensus (GPT-4o Mini + Claude 3 Haiku).

How it works →

14 prompts found

react-chat

Best Modelgpt-5-mini

View details →

react-chat-json

Best Modelgpt-5-mini

View details →

self-discovery-select

Best Modelgemini-2.5-flash-lite

View details →

self-discovery-structure

Best Modelgemini-2.5-flash-lite

View details →

xml-agent-convo

Best Modelgpt-5-mini

View details →

self-discovery-adapt

Best Modelgemini-2.5-flash-lite

View details →

self-discovery-reasoning

Best Modelclaude-3-5-haiku

View details →

react-multi-input-json

Best Modelclaude-3-5-haiku

View details →

multi-query-retriever

Best Modelclaude-3-5-haiku

View details →

react

Best Modelclaude-3-5-haiku

View details →

openai-tools-agent

Best Modelgpt-5-mini

View details →

self-ask-with-search

Best Modelgpt-5-mini

View details →

react-json

Best Modelgemini-2.5-flash-lite

View details →

structured-chat-agent

View details →

You've reached the end