Prompt performance,
not guesswork

Every prompt tested across the same models. Scored by independent AI judges.

Evaluating across GPT-4, Claude 3.5, and Gemini 1.5

Sort By

All scores are aggregated using multi-judge consensus (GPT-4o Mini + Claude 3 Haiku).

How it works →

12 prompts found

triage_evaluate_community_match

Best Modelgpt-5-mini

View details →

account_from_ocr

Best Modelgpt-5-mini

View details →

triage_assignee_rules

Best Modelgpt-5-mini

View details →

meeting-agent

Best Modelgemini-2.5-flash-lite

View details →

triage_classify

Best Modelgpt-5-mini

View details →

invoices_from_ocr

Best Modelclaude-3-5-haiku

View details →

triage_infer_community

Best Modelgpt-5-mini

View details →

triage_final_result

Best Modelgpt-5-mini

View details →

best_account_for_journal_entry

Best Modelgemini-2.5-flash-lite

View details →

provider-services-description

Best Modelgemini-2.5-flash-lite

View details →

ciudadela-lyra-v0_querier

Best Modelclaude-3-5-haiku

View details →

ocr_generator

Best Modelclaude-3-5-haiku

View details →

You've reached the end