Prompt performance,
not guesswork

Every prompt tested across the same models. Scored by independent AI judges.

Evaluating across GPT-4, Claude 3.5, and Gemini 1.5

Sort By

All scores are aggregated using multi-judge consensus (GPT-4o Mini + Claude 3 Haiku).

How it works →

5 prompts found

medical-docs-summarizer

Best Modelclaude-3-5-haiku

View details →

healthcare-provider-prompt

Best Modelclaude-3-5-haiku

View details →

drug_interaction_checker

Best Modelclaude-3-5-haiku

View details →

cardiology_risk_treatment_guide

Best Modelclaude-3-5-haiku

View details →

diabetes_risk_assessment

Best Modelclaude-3-5-haiku

View details →

You've reached the end