
TestSprite
553 posts

TestSprite
@Test_Sprite
Built for modern coders: AI agent that tests, fixes, and validates software.






New blog post: "A sufficiently detailed spec is code" I wrote this because I was tired of people claiming that the future of agentic coding is thoughtful specification work. As I show in the post, the reality devolves into slop pseudocode haskellforall.com/2026/03/a-suff…

🤯 ÚLTIMA HORA: A Alibaba mostrou que a IA não vai tirar seu emprego de programador — ela só está criando o código legado que você vai passar os próximos 10 anos consertando. 🤣x.com/TextoCriativo/… Passar em um teste de programação uma vez é fácil. Manter esse código funcionando por 8 meses sem tudo explodir? Aparentemente, isso é quase impossível para a IA. A Alibaba testou 18 agentes de IA em 100 bases de código reais ao longo de ciclos de 233 dias. Eles não procuraram apenas “correções rápidas” — analisaram a sobrevivência do código no longo prazo. Os resultados foram um verdadeiro massacre: 75% dos modelos quebraram códigos que antes funcionavam durante a manutenção. Apenas Claude Opus 4.5/4.6 manteve uma taxa de zero regressão acima de 50%. Todos os outros modelos acumularam dívida técnica que foi aumentando até o colapso da base de código. Até agora, temos usado benchmarks “instantâneos”, como o HumanEval, que só perguntam: “Funciona agora?” O novo benchmark SWE-CI faz a pergunta mais importante: “Ainda funciona depois de 8 meses de evolução?” A maioria dos agentes de IA são artistas de correções rápidas. Eles escrevem código frágil que passa nos testes hoje, mas vira um pesadelo de manutenção amanhã. Eles não estão construindo software — estão construindo um castelo de cartas. A narrativa finalmente ficou honesta: A maioria dos modelos consegue escrever código. Quase nenhum consegue mantê-lo.







البرمجة بالذكاء الاصطناعي سريعة وتشعرك بانعدام الجاذبية.. لكن ماذا يحدث عندما ترفع الكود للسيرفر؟ كوارث وثغرات منطقية صامتة! 🐞💥 في هذا الفيديو، أشرح كيف تستخدم TestSprite كخادم (MCP) لاختبار الكود أوتوماتيكياً (Agentic Verification) واكتشاف الأخطاء الكارثية قبل أن تكلف عميلك خسائر مالية. 🛡️⚙️ لا تقبل بكود "يعمل على جهازي فقط". جرب الأداة الآن وشارك في الهاكاثون الخاص بهم 👇 🔗 testsprite.com/?via=python-ar… testsprite.com/hackathon #برمجة #ذكاء_اصطناعي #تطوير_الويب #TestSprite

I packaged up the "autoresearch" project into a new self-contained minimal repo if people would like to play over the weekend. It's basically nanochat LLM training core stripped down to a single-GPU, one file version of ~630 lines of code, then: - the human iterates on the prompt (.md) - the AI agent iterates on the training code (.py) The goal is to engineer your agents to make the fastest research progress indefinitely and without any of your own involvement. In the image, every dot is a complete LLM training run that lasts exactly 5 minutes. The agent works in an autonomous loop on a git feature branch and accumulates git commits to the training script as it finds better settings (of lower validation loss by the end) of the neural network architecture, the optimizer, all the hyperparameters, etc. You can imagine comparing the research progress of different prompts, different agents, etc. github.com/karpathy/autor… Part code, part sci-fi, and a pinch of psychosis :)



