VerifyStack
← Volver al Registro
82/100Verificado
YouTube·Noticias·

CLAUDE MYTHOS, el modelo MÁS POTENTE y PELIGROSO jamás creado

por Dot CSV Lab
Ver original en YouTube

Resumen

Anthropic anunció Claude Mythos, su modelo de IA más potente hasta la fecha, mostrando saltos dramáticos en benchmarks de programación como SWE-Bench Pro (77% vs 55-57% anterior) y Humanity's Last Exam (56.8% vs 40%). Sin embargo, el modelo no será lanzado públicamente debido a preocupaciones de ciberseguridad después de que investigadores lo usaran para descubrir miles de vulnerabilidades de día cero en sistemas operativos y navegadores principales.

Desglose del Puntaje

Puntaje bruto: 82= 82/100

Verificación Automatizada

40 / 40
Testing de Prompts10
Ejecución de Código
Validación de Links
Verificación de Claims8
Precisión de Versiones

Análisis de Calidad (IA)

28 / 40
Originalidad4
Especificidad7
Completitud6
Densidad de Valor6
Honestidad / Limitaciones5
Model: anthropic/claude-sonnet-4

Señales de Contexto

14 / 20
Frescura5
Historial del Autor2
Engagement Real7

Tests de Verificación

APROBADOTesting de Prompts3324ms
APROBADOVerificación de Herramientas9807ms