Evaluating Judges as Evaluators: The JETTS Benchmark of LLM-as-Judges as Test-Time Scaling Evaluators

[

Evaluating Judges as Evaluators: The JETTS Benchmark of LLM-as-Judges as Test-Time Scaling Evaluators
Zhou Yilun, Xu Austin, Wang Peifeng, Xiong Caiming, and Joty Shafiq. In International Conference on Machine Learning (ICML-25) 2025.
PDF BibTex Slides