Prompt performance,
not guesswork

Every prompt tested across the same models. Scored by independent AI judges.

Evaluating across GPT-4, Claude 3.5, and Gemini 1.5

Sort By

All scores are aggregated using multi-judge consensus (GPT-4o Mini + Claude 3 Haiku).

How it works →

21 prompts found

City Extractor (Few-Shot)

Best Modelgemini-2.5-flash-lite

View details →

Capital City Extractor

Best Modelgemini-2.5-flash-lite

View details →

Legal Document Summarizer

Best Modelgemini-2.5-flash-lite

View details →

RAG Query Answering

Best Modelgpt-5-mini

View details →

Social Media Comment Moderator

Best Modelgemini-2.5-flash-lite

View details →

Guided Legal Summary Generator

Best Modelgemini-2.5-flash-lite

View details →

Investment Memo Editor

Best Modelgpt-5-mini

View details →

Portfolio Manager Investment Memo

Best Modelclaude-3-5-haiku

View details →

Citation Extraction Agent

Best Modelclaude-3-5-haiku

View details →

Recipe Ingredient Extractor

Best Modelgpt-5-mini

View details →

Shopping List Organizer

Best Modelclaude-3-5-haiku

View details →

Customer Support Ticket Classifier

Best Modelgpt-5-mini

View details →

Long Document Sublease Summarizer

Best Modelgemini-2.5-flash-lite

View details →

Essay Grading Evaluator

Best Modelgpt-5-mini

View details →

Text-to-SQL with Chain-of-Thought

Best Modelclaude-3-5-haiku

View details →

Text-to-SQL Converter

Best Modelgpt-5-mini

View details →

Text-to-SQL with Few-Shot Examples

Best Modelgpt-5-mini

View details →

Macro Strategy Report

Best Modelgemini-2.5-flash-lite

View details →

LLM Output Quality Judge

Best Modelgemini-2.5-flash-lite

View details →

Quantitative Analysis Report

Best Modelgemini-2.5-flash-lite

View details →

Fundamental Analysis Report

Best Modelgemini-2.5-flash-lite

View details →

You've reached the end