Diego Camacho 🇨🇴 👾 がリツイート

Le dieron el mismo código, el mismo prompt a MiniMax M3 y a Claude Opus 4.8, su tarea era encontrar 17 bugs reales plantados de antemano.
El resultado fue inesperado.
MiniMax M3 encontró 13 bugs por solo $0.07.
Claude Opus 4.8 encontró los mismos 13 bugs por $1.30.
El prompt fue el mismo:
“Audita el código en seguridad, confiabilidad, correctness y coverage. Escribe un reporte detallado. No modifiques el código.”
Claude en niveles altos (xhigh y max): máximo 15 bugs, pero con costos que llegaron hasta $3.39
Lo interesante es que aumentar el nivel de razonamiento no siempre mejoró los resultados de forma lineal.
En algunos bugs específicos (como transacciones asíncronas), los niveles medios los detectaron mientras que los niveles “max” los pasaron por alto.
Cuando se mira el costo por bug encontrado, MiniMax M3 gana por bastante margen.
Claude en modo máximo fue la opción menos eficiente en relación precio-rendimiento.
Para auditorías de código de alto volumen o revisiones frecuentes, modelos como MiniMax M3 ofrecen una relación costo-beneficio muy superior.
Para una revisión única ultra exhaustiva donde quieres exprimir hasta el último bug posible, Claude en configuraciones altas sigue siendo competitivo.
Los modelos más económicos ya están cerrando la brecha de forma seria en tareas de coding y análisis estático y haciéndolo más sostenible económicamente hablando.

Español


































