Prompt performance,
not guesswork

Every prompt tested across the same models. Scored by independent AI judges.

Evaluating across GPT-4, Claude 3.5, and Gemini 1.5

Sort By

All scores are aggregated using multi-judge consensus (GPT-4o Mini + Claude 3 Haiku).

How it works →

6 prompts found

evaluation_question

Best Modelgemini-2.5-flash-lite

View details →

generate_questions_by_knowledge_tags

Best Modelclaude-3-5-haiku

View details →

raw_to_json_questions

Best Modelclaude-3-5-haiku

View details →

v3_generate_tutor_questions

Best Modelgemini-2.5-flash-lite

View details →

v3_evaluate_tutor_questions

Best Modelgpt-5-mini

View details →

v3_generate_lesson_summary

Best Modelgemini-2.5-flash-lite

View details →

You've reached the end