EQS AI Benchmark Vol. 2: el cumplimiento agentivo ya es una realidad práctica

La segunda edición del benchmark muestra importantes avances en el trabajo de cumplimiento abierto, desplazando el foco de la elección del modelo hacia la implementación en el mundo real

La IA ha cruzado un umbral práctico en cumplimiento y ética. El EQS AI Benchmark Volumen 2 muestra que la última generación de modelos de IA no solo mejora el rendimiento, sino que ahora puede gestionar de forma fiable flujos de trabajo de cumplimiento de múltiples pasos, una capacidad que estaba fuera de alcance hace solo seis meses.

Basándose en el primer volumen publicado en octubre de 2025, EQS Group probó cuatro modelos de IA de frontera recientemente lanzados en el mismo conjunto de 120 tareas reales de cumplimiento. El benchmark actualizado, creado en colaboración con la asociación alemana Berufsverband der Compliance Manager e.V. (BCM), compara ahora un total de diez modelos líderes, proporcionando una visión directa de cómo la última generación rinde frente a la frontera del año pasado.

Los modelos de frontera convergen en la cima
En el Volumen 2, el GPT-5.4 de OpenAI lidera ahora el benchmark con una puntuación del 87,6 %, seguido de cerca por Gemini 3.1 Pro de Google (87,4 %) y Claude Opus 4.6 de Anthropic (86,1 %). Los modelos líderes están ahora separados por poco más de un punto porcentual. Esta agrupación señala un cambio claro: aunque las mejoras de rendimiento continúan, los modelos líderes se acercan a un techo práctico para tareas generales de cumplimiento, lo que hace que la estrategia de despliegue sea más importante que las diferencias marginales en la capacidad del modelo.

Mayores avances en trabajo de cumplimiento abierto
Las mejoras más significativas se observan en tareas abiertas como la redacción de informes, políticas o planes de investigación, tareas que reflejan de cerca el trabajo que los equipos de cumplimiento entregan a partes interesadas internas, dirección y reguladores. En todos los proveedores, el rendimiento en estas tareas aumentó significativamente, con mejoras de hasta +17–18 puntos porcentuales en comparación con el primer informe, pasando de «utilizable con edición intensiva» a «utilizable con una revisión ligera».

Los flujos de trabajo de cumplimiento agentivos superan un umbral clave
El hallazgo más importante del benchmark va más allá del rendimiento en tareas individuales: los modelos de IA están ahora acercándose a la capacidad necesaria para soportar flujos de trabajo de cumplimiento de múltiples pasos de principio a fin. En un proceso simulado de Conflicto de Intereses —que cubre clasificación, evaluación de riesgos, enrutamiento de revisión y mitigación— un único modelo de frontera (GPT-5.4) alcanzó más del 90 % de rendimiento en cada paso individual del flujo de trabajo. Aunque el benchmark no probó un flujo de trabajo agentivo completamente conectado, los resultados indican que dichos flujos de trabajo son significativamente más viables que hace solo seis meses.

«El benchmark muestra lo rápido que la IA se está convirtiendo en un verdadero motor de innovación en Compliance», dijo el Dr. Martin Benda, presidente del BCM. «La oportunidad ahora es traducir estas capacidades en aplicaciones prácticas, de una manera que refuerce tanto la eficacia como la supervisión responsable».

«Hace seis meses, la pregunta era si la IA podía apoyar el trabajo real de cumplimiento. Hoy, la pregunta es cómo diseñamos los flujos de trabajo a su alrededor», dijo Moritz Homann, responsable de IA en EQS Group. «El cumplimiento agentivo ya no es una cuestión de viabilidad, sino de diseño, especialmente en lo que respecta a dónde situar la supervisión humana adecuada. Los últimos modelos son lo suficientemente sólidos como para gestionar procesos de múltiples pasos, pero el verdadero diferenciador es el contexto que los rodea: las herramientas y puntos de control que hacen que la IA sea fiable en la práctica».

Del rendimiento del modelo al despliegue en el mundo real
Los hallazgos del Volumen 2 apuntan a un cambio más amplio para los equipos de cumplimiento: las mejoras en la capacidad de los modelos se están volviendo incrementales, mientras que los mayores avances provienen ahora de cómo se despliega la IA.

Los resultados sugieren que el contexto, la integración de sistemas y el diseño de flujos de trabajo están adquiriendo más importancia que la elección del modelo en sí. Las organizaciones que integran la IA en procesos reales —con los datos, herramientas y supervisión adecuados— obtendrán resultados significativamente mejores que aquellas que la tratan como una herramienta independiente.

Pasar de pilotos a producción para casos de uso probados
Los hallazgos se traducen en un conjunto claro de prioridades para los equipos de cumplimiento: no seguir experimentando de forma aislada, sino operacionalizar la IA de manera responsable dentro de procesos reales de cumplimiento:

Seleccionar modelos en función de la adecuación a la tarea, no solo de su posición en rankings.
Invertir no solo en prompts, sino en el «arnés» de IA en general, incluyendo contexto, sistemas, herramientas y orquestación de flujos de trabajo.
Diseñar puntos de control humanos de forma deliberada en torno a la escalada, el juicio y las decisiones que afectan a empleados.
Comenzar a diseñar flujos de trabajo agentivos para procesos estructurados y de alto volumen.
Reevaluar continuamente las capacidades, ya que el rendimiento de los modelos evoluciona rápidamente.

El informe completo EQS AI Benchmark Volumen 2 está disponible para su descarga aquí: https://www.eqs.com/compliance-wpapers/eqs-ai-benchmark-report-vol-2/

Acerca de EQS Group
EQS Group es un proveedor internacional líder en la nube para compliance y ética, privacidad de datos, gestión de sostenibilidad y relaciones con inversores. Más de 14.000 empresas en todo el mundo utilizan los productos de EQS Group para generar confianza cumpliendo de manera fiable y segura complejos requisitos regulatorios, minimizando riesgos e informando de forma transparente sobre el rendimiento empresarial y su impacto en la sociedad y el medio ambiente. https://www.eqs.com/

Acerca del BCM
Como la principal asociación profesional exclusivamente para responsables internos de compliance de empresas, asociaciones y otras organizaciones, el BCM representa los intereses de sus miembros ante responsables políticos, empresas y la sociedad. El BCM se centra en proporcionar información, fomentar redes y fortalecer la profesión de compliance. www.compliance-verband.de

Recomendado