Toda época técnica revela, antes o después, su pregunta más incómoda. No es cuánto puede producir la máquina. Es quién decide si lo que produjo vale la pena.
Mientras la capacidad de generar se multiplica, la capacidad de juzgar lo generado sigue siendo escasa, lenta, cara y profundamente humana. Esa asimetría no es un detalle operativo. Es el problema estructural de la era del copiloto. Y un paper reciente de NIST lo demuestra con una claridad que no tiene escapatoria.
Si construiste un agente que fue a producción, que atiende usuarios reales, en algún momento te enfrentaste a una versión concreta de este problema.
Estás construyendo un sistema RAG. Recupera documentos, los inyecta como contexto, genera respuestas. Funciona. Pero necesitás saber si funciona bien. Para eso necesitás una vara de medición: un conjunto de preguntas con sus respuestas correctas, un gold set que te diga cuándo el sistema acierta y cuándo falla. ¿Quién lo construye?
Opción A: lo genera el LLM. Es rápido, barato, y produce algo que se ve razonable. Opción B: lo construyen crowd workers. Es más lento, más caro, y produce juicios humanos reales. Opción C: lo construyen expertos de dominio entrenados. Es lento, caro, y produce juicios con una profundidad que las otras dos opciones no tienen.
La mayoría elige A o B. Por presupuesto, por timeline, por la presión de entregar. Y ahí, sin saberlo, estableció el techo de lo que su sistema puede llegar a ser.
Lo que Soboroff demostró
En marzo de 2025, Ian Soboroff publicó un paper desde NIST (el Instituto Nacional de Estándares y Tecnología de Estados Unidos) con un título deliberadamente provocador: “Don’t Use LLMs to Make Relevance Judgments”. No es un paper de opinión. Es un argumento formal con un teorema que tiene consecuencias incómodas para cualquiera que construya sistemas de IA.
Soboroff trabaja en TREC (Text Retrieval Conference), el programa que desde 1991 construye las colecciones de evaluación que usa la comunidad de information retrieval. Lleva décadas pensando en cómo se mide la calidad de un sistema de búsqueda. Y su argumento central es simple en su formulación y devastador en sus consecuencias.
El gold set no solo mide el sistema: define el límite de lo que podés medir. Soboroff lo formaliza en un teorema: el ranking ideal es el que se ajusta a los juicios de relevancia, y ningún ranking puede obtener mejor score que ese ideal. Si el gold set lo construyó un experto, el techo es el rendimiento del experto. Si lo construyó un LLM, el techo es el rendimiento del LLM.
La consecuencia más perturbadora: si un sistema es genuinamente mejor que el gold set (encontró documentos relevantes que el evaluador no marcó, recuperó información que el gold set no consideró), ese sistema va a medir peor, no mejor. El gold set lo penaliza por ser demasiado bueno. Encontró algo que la vara no alcanza a ver, y la vara lo cuenta como error.
No podés medir lo que no podés ver.
Soboroff agrega un segundo argumento que refuerza el primero: retrieval y evaluación son el mismo problema. Pedirle a un LLM que juzgue si un documento es relevante es pedirle que haga retrieval con otro nombre. En ambos casos, el modelo predice relevancia a partir de patrones estadísticos. Si usás un LLM para evaluar sistemas basados en LLMs, estás midiendo el modelo contra sí mismo. Es como pedirle a un estudiante que escriba el examen y también lo corrija.
¿Y los datos? Thomas et al. (2024) encontraron que los juicios de LLMs son equivalentes a los de crowd workers, pero no mejores que los de un equipo experto entrenado. Hay una jerarquía medible: experto > crowd ≈ LLM. No es que el LLM sea malo. Es que el expertise humano es cualitativamente distinto.
Más allá del RAG
Soboroff habla de information retrieval. Pero el argumento se extiende a cualquier sistema donde la IA produce y alguien (o algo) evalúa lo producido.
No se trata de trasladar el teorema mecánicamente fuera de information retrieval, sino de reconocer una estructura común: allí donde un sistema optimiza contra un criterio, la calidad de ese criterio fija el horizonte.
Code review como gold set. Cada vez que revisás código generado por un copiloto, estás haciendo algo estructuralmente idéntico a un assessor de TREC: juzgando relevancia, calidad, adecuación. Si tu code review no tiene la profundidad para detectar problemas estructurales, el techo de tu código es el nivel de tu review. Si delegás el review al mismo modelo que generó el código, estás en la circularidad exacta que Soboroff describe. La máquina se evalúa a sí misma, y el resultado siempre se ve razonable.
Arquitectura como gold set. Las decisiones arquitectónicas definen qué es “bueno” para un sistema durante años. Son el gold set más duradero: todo lo que se construye después se mide, implícitamente, contra esas decisiones. Si esas decisiones las toma el copiloto sin intervención de juicio experto, el horizonte arquitectónico es el del modelo. Y como demostró Soboroff: no vas a poder detectar que hay algo mejor, porque tu vara de medición no lo alcanza.
Requisitos como gold set. La definición del problema es el gold set más importante de todos. Antes de que haya código, antes de que haya arquitectura, alguien decide qué problema se está resolviendo. Si el copiloto te ayuda a definir requisitos y no tenés la comprensión de dominio para evaluarlos críticamente, tu sistema va a resolver el problema equivocado con mucha eficiencia. Y va a medir bien contra su propio gold set, porque el gold set tampoco entendía el problema.
El patrón es el mismo en todos los casos: el juicio humano que evalúa define el límite de lo que se puede construir. No el modelo. No la herramienta. No la cantidad de parámetros ni la velocidad de inferencia. El humano que juzga.
El techo invisible
La parte más incómoda del argumento no es que el techo exista. Es que no se ve.
Si el gold set define el techo, y el techo define lo máximo que podés medir, entonces un techo mediocre no se siente como limitación. Se siente como normalidad. El sistema mide bien contra la vara. Los números se ven razonables. Las métricas mejoran con cada iteración. Todo parece funcionar.
Pero la vara está baja. Y no tenés forma de saberlo desde adentro del sistema.
Esto es lo que hace el argumento de Soboroff particularmente perturbador. No es que un gold set mediocre te dé malos resultados. Te da resultados que parecen buenos dentro de su propio marco. La mediocridad del techo es invisible para quien mide contra él. Es el equivalente evaluativo del código que compila, pasa tests y se ve razonable pero tiene un problema estructural que no vas a detectar hasta que sea tarde. La complejidad superficial resuelta, la estructural invisible.
Solo que ahora no hablamos de una función o un módulo. Hablamos del marco entero de evaluación. Del instrumento con el que decidís si lo que construiste vale la pena.
¿Cuántos equipos están optimizando contra gold sets que les ocultan lo que no pueden ver?
Invertir en el evaluador
Si el techo lo pone el humano que evalúa, entonces la inversión más rentable no es en mejores modelos sino en mejor juicio humano.
Esto suena contraintuitivo en una industria que invierte miles de millones en capacidad de modelos y centavos en la calidad del juicio que los evalúa. Soboroff lo describe: en NIST, evaluar un track de TREC requiere un equipo de seis contratistas trabajando entre dos y cuatro semanas, entrenados y monitoreados. “Experience in both the technical and human aspects of the process counts for a lot”, escribe. No es crowd work. No es un prompt. Es inversión sostenida en criterio humano.
¿Qué implica esto en la práctica?
Gold sets hechos por expertos de dominio. Más lento, más caro, pero define un techo que permite distinguir lo bueno de lo excelente. Si tu gold set lo generó el mismo modelo que estás evaluando, o lo armaron personas sin expertise en el dominio, tu techo es el de ellos. Y no vas a poder ver lo que te falta.
Code review como inversión, no como trámite. Si el review define el techo del código, el reviewer importa tanto como el developer. ¿Quién hace los reviews más exigentes en tu equipo? Esa persona no está frenando la entrega. Está definiendo el techo de la calidad.
Formación de gusto como prioridad organizacional. Si el techo es el juicio humano, entonces formar mejores evaluadores es la inversión estratégica. No solo mejores operadores de herramientas: mejores jueces de lo que las herramientas producen. Las disposiciones cognitivas que definen seniority (curiosidad, pensamiento crítico, agencia) no son nice-to-have. Son la infraestructura del criterio.
Man-in-the-loop no es burocracia: es el techo. Man-in-the-loop suele venderse como obligación regulatoria, como concesión a los que “no confían en la IA”, como checkbox de compliance. Soboroff le da otra categoría. No es prudencia ni cumplimiento de normas: es que el teorema dice que no podés medir más allá del evaluador. Sin el humano calificado en el loop, no estás siendo cauto. Estás bajando el horizonte de lo que tu sistema puede llegar a ser. El humano en el loop no es el freno. Es la infraestructura que define hasta dónde puede llegar el sistema. Eso transforma man-in-the-loop de obligación a inversión estratégica.
Y hay una tentación que conviene nombrar: la presión por velocidad y escala empuja a automatizar todo, incluyendo el juicio. Soboroff demuestra el costo formal de esa decisión. Automatizar la evaluación no la hace más eficiente: la hace más baja. A veces, lo lento es lo que protege la calidad.
El paper de Soboroff demuestra algo que la intuición sugería pero que no tenía prueba formal: el juicio humano no es un paso del proceso. Es el techo del proceso. Todo lo que construimos con IA, desde un sistema RAG hasta una arquitectura de software, está limitado por la calidad del juicio que lo evalúa.
La industria está invirtiendo en modelos cada vez más potentes evaluados por gold sets cada vez más baratos. Más motor, menos piloto. Más producción, menos criterio.
El techo no lo pone la máquina. Lo pone el humano que decide si lo que la máquina produjo vale la pena.
¿Quién construyó el gold set con el que medís tu sistema? ¿Cuánto invierte tu organización en capacidad de modelos comparado con la calidad del juicio humano que los evalúa? ¿Cómo sabés si tu techo está bajo, si tu instrumento de medición no tiene la resolución para mostrártelo?
Referencias
- Soboroff, I. (2025). Don’t Use LLMs to Make Relevance Judgments. Information Retrieval Research, 1(1), 29-46. https://arxiv.org/abs/2409.15133
- Thomas, P., Spielman, S., Craswell, N. & Mitra, B. (2024). Large language models can accurately predict searcher preferences. Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval, 1930-1940. https://doi.org/10.1145/3626772.3657707