LIVE · 100 answersLast run: 38h agoJudge: gpt-4o-mini

Trend Over Time

Score trajectory across 4 prompt versions / runs

Per-Metric Trajectory

each line = one of the 7 metrics across runs

Run Log

most recent first

Run	Label	Date	N	Pass
20260509T013000Z-mock-baseline	voice-rule-fix-v2	5/9/2026, 1:30:00 AM	500	64.2%
20260501T030000Z-no-essay	no-essay-rule	5/1/2026, 3:00:00 AM	451	57.2%
20260422T030000Z-voice-tighten	voice-tighten-v1	4/22/2026, 3:00:00 AM	408	55.4%
20260415T030000Z-baseline	baseline-v1	4/15/2026, 3:00:00 AM	312	52.2%