

Sylvere Richard 🦀
4.7K posts

@nowheresly
Software is my passion #AWS #GCP #Azure







@siliconcarnesf ce que je comprends pas c'est que techniquement c'est juste un client HTTP qui se connecte en oauth si t'as le mécanisme d'auth,le serveur n'a aucune idée de la provenance du message,pourvu qu'il soit valide. c'est que du pauvre JS, tout méchanisme de crypto peut se faire éventré



📢 ADK for Java 1.0.0 is here! Build your AI agents in Java with powerful tools and services, custom context engineering, #A2A integration, and more. Get the latest details: goo.gle/4dQQXOj



L’idée c’est: Seul le travail crée la richesse, le capital ne fait que multiplier la productivité du travail. Quelque soit la machine, ya toujours un travailleur pour l’actionner. Le milliardaire n’a donc aucune légitimité à s’accaparer les fruits d’1 travail qu’il n’a ps réalisé


Introducing TurboQuant: Our new compression algorithm that reduces LLM key-value cache memory by at least 6x and delivers up to 8x speedup, all with zero accuracy loss, redefining AI efficiency. Read the blog to learn how it achieves these results: goo.gle/4bsq2qI

I just implemented Google’s TurboQuant for vLLM. My USB-charger-sized HP ZGX now fits 4,083,072 KV-cache tokens on GB10. This may be the biggest open inference breakthrough of 2026 so far. Training is the flex. Inference is the forever bill.




Note: Claude Code invalidates the KV cache for local models by prepending some IDs, making inference 90% slower. See how to fix it here: #fixing-90-slower-inference-in-claude-code" target="_blank" rel="nofollow noopener">unsloth.ai/docs/basics/cl…