Gemini 3.1 Pro y la Caída de los Benchmarks: Bienvenidos a la Era del 'Vibe' en IA

por AI Explained

Resumen

AI Explained argumenta que los benchmarks de IA se están volviendo poco confiables debido al entrenamiento post-específico por dominio, donde los modelos sobresalen en algunas áreas pero fallan en otras. Probó Gemini 3.1 Pro extensivamente y encontró que obtiene 77.1% en ARC-AGI-2 pero rinde mal en sus propias pruebas de código, ilustrando cómo los modelos pueden manipular benchmarks mientras fallan en tareas del mundo real.

IntermedioBenchmarksLanzamiento de ModeloÉtica IAAsistentes de Código

Herramientas Discutidas

Gemini 3.1 Pro

Great benchmarks but poor real-world coding performance

Claude Opus

Praised as incredible coding model despite benchmark decline

Cursor

Used as testing platform for Gemini coding abilities

Desglose del Puntaje

Puntaje bruto: 82= 82/100

Verificación Automatizada

40 / 40

Testing de Prompts—

Ejecución de Código—

Validación de Links—

Verificación de Claims8

Precisión de Versiones—

Análisis de Calidad (IA)

31 / 40

Originalidad7

Especificidad6

Completitud5

Densidad de Valor6

Honestidad / Limitaciones7

Modelo: anthropic/claude-sonnet-4

Señales de Contexto

11 / 20

Frescura2

Historial del Autor2

Engagement Real7

Tests de Verificación

APROBADOVerificación de Herramientas13192ms