Post

🕵️ EL DETALLE:
Anthropic usó Opus 4.7 para probar los safeguards de ciberseguridad que van a usar en Mythos.
O sea: Opus 4.7 es el conejillo de indias de las defensas contra el modelo que puede hackear cualquier sistema del mundo.
Si los safeguards funcionan aquí, los van a escalar a Mythos.
Si no funcionan... ya veremos.
Español

📊 LO QUE DICEN LOS QUE YA LO PROBARON:
• Cursor: 70% vs 58% de Opus 4.6 en coding
• Rakuten: 3x más tareas resueltas en producción
• CodeRabbit: +10% de recall en code review
• XBOW: 98.5% vs 54.5% en visión de alta resolución
Ese último número es absurdo.
De 54% a 98% en visión. En una sola versión.
Español