Pierre

760 posts

Pierre

@serphacker

I build SaaS

🇫🇷 Se unió Kasım 2009

256 Siguiendo3.9K Seguidores

Pierre@serphacker·1 Nis

@dsampaolo @taalas_inc pour le moment c'est pas rentable niveau prix (vs cloud) et je pense pas que ce soit le meilleur argument. Le vrai argument, c'est la privacy, les boites n'ont pas envie d'envoyer leur code/data en chine ou aux USA. C'est aussi ce qui va pousser le local à moyen terme.

Français

Pierre@serphacker·1 Nis

@dsampaolo @taalas_inc perso je ne fais que de l'IA local, niveau intelligence c'est good enough depuis qwen 3 coder next/qwen 3.5, par contre c'est trop lent. Mais le hardware, les modèles et même les drivers s'améliorent de jour en jour, donc c'est de + en + rapide (mais toujours trop lent).

Français

162

Didier Sampaolo@dsampaolo·1 Nis

Je vais "quoter le mec" moi aussi, je veux pas qu'on s'embrouille, mais je tiens ma position. Je parlais de modèles au sens large, pas forcément de frontier LLMs. Et quand tu vois des trucs comme @taalas_inc, ou même les Speech-to-text de Google sur les tel Pixel, 1/3

Julien | Tech & Invests@JulienTechInvst

Je quote le mec parce que je vois passer ce genre de commentaires régulièrement. L’IA locale c’est un fantasme. Globalement, pour faire de l’inférence, il faut 1) charger le modèle, 2) charger le contexte dans le KV-cache. Il y a globalement 3 précisions possibles en inférence: le BF16/FP16, le FP8/INT8 et le FP4/INT4. La majorité des processeurs (CPU ou GPU) ne supportent que le BF16, et seul les modèles professionnels de chez Nvidia (B200/300) supportent le FP4/INT4. Juste sur le chargement du modèle en RAM, 1 paramètre c’est 2 octets en BF16/FP16, 1 octet en FP8/INT8, et 4 bits en FP4/INT4. Donc pour 1B de paramètres (la majorité des modèles font 7B et plus), il faut au moins: - 2Go de RAM en BF16/FP16 - 1Go de RAM en FP8/INT8 - 500Mo de RAM en FP4/INT4 Ça c’est juste pour charger le modèle. Le FP8 est amplement suffisant pour des tâches d’inférence basiques et commencent par être supportés par de plus en plus de GPU/NPUs donc c’est plutôt de bon augure pour l’utilisation de modèles en local. Cependant, 1B de paramètres, comme dit plus haut, ça n’existe pas vraiment et il faut compter au moins 7B de paramètres pour des versions mini. Avec l’augmentation de la taille des modèles, le MoE et autre, faudra plutôt compter 10-20B de paramètres d’ici peu de temps pour un truc utilisable. Donc entre 10 et 20Go de RAM juste pour charger le modèle. À ça, on y ajoute un contexte. Disons 20k tokens de contexte, ce qui n’est objectivement pas grand chose (environ 15k mots - seulement du texte). Là c’est plus compliqué à calculer car il y a des paramètres propres à chaque modèle et à la configuration de ce dernier (cf le papier de Google). La formule simplifiée qu’on peut utiliser est la suivante: KV-cache_size ≈ 2 x L x hidden_size x T x precision Avec L le nombre de couches, hidden_size la configuration du modèle, T le nombre de token de contexte et precision, la précision choisie. Donc avec 20k tokens de contexte et un modèle Llama-like (4096 de hidden_size et 32 couches), on a: - 10,5Go de RAM en BF16/FP16 - 5,2Go de RAM en FP8/INT8 - 2,6Go de RAM en FP4/INT4 Donc il faudrait minimum 15Go de RAM disponible sur le processeur (soit en VRAM si GPU externe, soit en mémoire unifiée) juste pour faire tourner un modèle basique avec des capacités réduites. La majorité des PCs modernes grand public dispos sur le marché n’ont pas la capacité de faire tourner le modèle et l’OS sans taper dans le swap. Et là je parle même pas de la bande passante de la RAM qui limitera de facto l’output dans les 10-20 tokens/seconde maximum. Bref, à moins de mettre de la HBM en masse et donc de voir le prix du parc informatique flamber, personne ne fera tourner de modèle en local pour des tâches sérieuses. C’est déjà suffisamment dur de le faire sur des cartes à plus de 40k$. Et qu’on vienne pas me dire « oui mais pour un usage récréatif », parce que ce que les gens veulent c’est pouvoir balancer des pdfs, des images et autre, et là, le contexte explose et il faudra souvent bien plus de 100 à 200k tokens

Français

2.4K

Pierre@serphacker·29 Mar

@Mohamed__l Je connais pas spécialement ce tool, mais tes ips cloud ont un inbox vraiment limité (meme si claude a associé un domaine + configuré DKIM/SPF/DMARC, ce dont je doute). Avec des ips sans réputation, je doute que tu puisses vérifier la validité des emails, surtout à 2k/min.

Français

205

Mohamed@Mohamed__l·29 Mar

J'ai un problème de verifications d'emails (pour du cold mail) et Claude m'a bien aidé. Il y a ce projet (open source) qui existe : reacher email verify Vous prenez chez OVH du public cloud avec 30 instances d2-2 à 0,0099 de l'heure (car on est des gens raisonnables). Et ensuite ça fait le taff. Est-ce que c'est vraiment fiable ? Ca permet déja de dégrossir et surtout moins cher qu'avec des proxy. Claude Code ensuite permet de kick rapidement via API une instance si flag et de passer à une autre. Et si vous avez un peu de temps, faire de la presta ou monter un SaaS de verif d'emails.

Français

2.1K

Pierre@serphacker·23 Mar

@ivanfioravanti @wu89_j for now I stick with coder next, best intelligence/speed ratio on my hardware for my use case (coding with opencode/intellij).

English

Ivan Fioravanti ᯅ@ivanfioravanti·23 Mar

@wu89_j I use it with OpenCode and PI and it does its job, it’s more coding than planning for sure.

English

722

Ivan Fioravanti ᯅ@ivanfioravanti·23 Mar

I'm not having great luck with NVIDIA Nemotron-Cascade-2-30B-A3B on coding side, am I the only one?

English

12.2K

Pierre@serphacker·22 Mar

@Loran750 @Salemioche @ncapeyronSABA Pas surpris pour le M5/M5 max, c'est que des laptops pour le moment donc... Perso j'entends déjà bien le ventillo car j'ai parfois des grosses tâches de refactoring/code qui tourne pendant 45min/2h (c'est lent). J'aimerai pas faire ça sur un laptop.

Français

Pierre@serphacker·22 Mar

@Loran750 @Salemioche @ncapeyronSABA Clairement, pour ce que j'utilise l'IA, ça me revient bcp plus cher que de l'API, pour des modèles beaucoup moins performants et beaucoup plus lent. C'est pas du tout rentable et c'est pas l'intérêt du local. Le seul intérêt c'est le côté privacy et fun de bidouiller.

Français

Laurent@Loran750·21 Mar

Alors, pour faire de l'IA locale : un laptop surpuissant ou bien un desktop monstre ? 10 jours que je cherchais la réponse. Plateforme Strix Halo ? Mac M3/M4 ? RTX 4090/5090 ? Ma conclusion rigoureuse et objective : un desktop monstre... et un laptop pour pouvoir y accéder de partout. En ai-je envie ou en ai-je besoin ? Oui.

Français

1.6K

Pierre@serphacker·22 Mar

@Loran750 @Salemioche @ncapeyronSABA J'attends de voir le s'il y aura un mac mini/studio avec un M5 ultra pour upgrade. J'attends aussi les futurs CPU AMD/Intel (mais ce sera long ils ont minimum 6mois/1 an de retard sur Apple niveau performance). Je serais toi j'attendrais M5 Ultra, sinon prendre un M5.

Français

181

Pierre@serphacker·22 Mar

@Loran750 @Salemioche @ncapeyronSABA J'ai un minipc strix halo dédié à l'IA, ça sert à rien de prendre une 3090 en +. Pas fan des workstations GPU, il en faut beaucoup, +bruyant, +watts, +cher, +place... Le strix halo 128G c'était le meilleur compromis, (ça reste assez lent), mais maintenant il y a le M5...

Français

Pierre@serphacker·18 Mar

@sudoingX You are missing the AMD strix halo, for me it is the sweet spot. You need too many GPU to run medium (~100B) models, you have to quant a lot which reduce accuracy. But as models become more powerful while shrinking in size, single/dual GPUs config could become more relevant.

English

151

Sudo su@sudoingX·18 Mar

local AI hardware tiers: $4,699 - DGX Spark (NVIDIA wants you here) $1,989 - RTX 4090 (overkill for most) $1000 - RTX 3090 used (sweet spot) $250 - RTX 3060 used (currently testing every model that fits 12GB) $0 - CPU only (it still works) jensen announced the top. i've been posting receipts from the bottom.

English

557

36.4K

Pierre@serphacker·18 Mar

@KuittinenPetri @sudoingX By next I mean the real next gen with more bandwith, AMD medusa halo / AI Max 500 (rumored with DDR6 / 384bits bus), or the Intel serpent lake with nvidia igpu. I agree, the upcoming AMD MAX 4xx series looks like a minor upgrade (if any). We have to wait AMD medusa halo.

English

Petri Kuittinen@KuittinenPetri·18 Mar

@serphacker @sudoingX The local Apple prices are so high that make Nvidia DGX Spark cheap: 128 GB RAM + 4 TB SSD. Nvidia DGX Spark is ~4540 €, Apple M5 Max is 7150 €, but laptop of course includes display. Next AMD AI Ryzens are going to be stripped down 395's, with less CPU cores, same GPU.

English

171

Sudo su@sudoingX·18 Mar

AMD users i need your data. i have almost zero AMD configs in my benchmark collection and i can't answer these questions properly without real numbers. if you're running any model on Vulkan or ROCm drop your GPU, model, tok/s, and engine below. 7900 XTX, R9700, 6800XT, anything. one reply from you fills a gap i can't fill from NVIDIA alone.

Just some person@ThatWolfieGuy

@sudoingX AMD AI Pro R9700x2?

English

10.1K

Pierre@serphacker·18 Mar

@KuittinenPetri @sudoingX Yes 10%/20% slower, but 50%/60% cheaper than DGX spark. Both are too slow anyway, M5 max starts to looks good (especially pp), M5 Ultra would be crazy. But I hate Apple. I'm waiting for next gen intel / AMD.

English

122

Petri Kuittinen@KuittinenPetri·18 Mar

@sudoingX AMD Ryzen™ AI Max+ 395 is generally 10-20% slower than equivalent 128 GB LPDDR5X machines by Apple or Nvidia DGX Spark in token/s. It is faster than old Apple in prefill due much more TOPS, but loses to latest M5 Max. Nvidia is much faster in prefill. I use llama.ccp Vulkan.

English

670

Pierre@serphacker·18 Mar

@sudoingX AMD Ryzen 395+ 128G - Qwen3 Coder Next Q8_0 - rocm - llama-bench 37tg / 700pp

Indonesia

175

Pierre@serphacker·13 Mar

@lmdc45 @iamsupersocks le plus simple c'est de configurer ton strix en utilisant #config" target="_blank" rel="nofollow noopener">strix-halo-toolboxes.com/#config puis après tu installes la toolbox de @dcapitella github.com/kyuz0/amd-stri… Il y a un discord dédié pour faire de l'ia avec le strix halo

Français

louis@lmdc45·13 Mar

@iamsupersocks @serphacker Oui clone le repo llama.cpp et built tous les jours…

Français

Supersocks@iamsupersocks·7 Mar

J’ai failli céder au FOMO et partir sur un Mac mini ou Mac Studio reconditionné pour faire tourner des LLM en local, encore plus depuis la sortie de Qwen 3.5. Finalement, j’ai trouvé mieux. GMKtec EVO-X2 d’occasion (négocié à 1400 €), quasi neuf : - Ryzen AI Max+ 395 (16c/32t Zen 5) - 96 Go LPDDR5X, 256 Go/s de bande passante - Radeon 8060S, 40 CU RDNA 3.5 - 2 To SSD PCIe 4.0 Financé en partie par la revente de ma ROG Ally Z1 Extreme (qui fait tourner mon OpenClaw) et quelques babioles qui traînaient chez moi. Ce que je vais installer dessus : Ollama pour Qwen 3.5 (9B à 70B), n8n pour l’automatisation, Supabase self-hosted pour la base de données, Docker/Portainer, Open WebUI, Traefik. Zéro cloud, tout en local, ~70 €/an d’électricité. Je garde juste Claude en x5 ou x20 pour le code. Je documente tout. RETEX à venir. Y a ceux qui parlent, ceux qui agissent. Je suis un mixte des deux.

Français

381

113.7K

Pierre@serphacker·11 Mar

@alex_buraks Interesting, what chrome extension would you recommend for live edit ?

English

Alex Buraks@alex_buraks·11 Mar

Sometimes its easier not to vibe-code your personal SaaS but to make a Chrome extension that improves your SaaS by adding the visual or functional features you are missing. Just one small cool feature for my PEEC that I had been waiting for a long time and Im absolutely happy.

English

368

Pierre@serphacker·9 Mar

AMD Strix 128G is far cheaper than Mac. Yes you can buy 512G Mac to run huge model, but it will be slow AF and unusable, waste of money. Wait for next gen hardware. Apple next-gen CPU (M5) will be a beast, AMD/Intel will catch up a few months later. x.com/sudoingX/statu…

Sudo su@sudoingX

if you're serious about local AI and actually want to understand it, the language of AI is CUDA. even AMD built ROCm to compete with NVIDIA, not with Apple. that should tell you everything. Mac is a beautiful machine. looks great on your desk. perfect for people who post desk setups and do nothing else. no flags, no tuning, no research, no optimization, no novel architecture work. just photos. when Karpathy drops autoresearch, does he say he runs on a cluster of Macs? when DeepSeek publishes training breakthroughs, is it on Apple Silicon? ask yourself what you actually want to learn. do you want to get your hands dirty, understand AI infrastructure from the metal up, share real findings, test frontier models and actually contribute? or do you want to be the guy farming engagements with a Mac photo on X. no substance. shallow. hollow. 0 depth. single RTX 3090. good PSU. one server board. EPYC. bifurcation cards and cables when you're ready. this is the starting line. my bro once you go GPU you go brrr.

English

192

Pierre@serphacker·8 Mar

@dsampaolo 😂

QME

Didier Sampaolo@dsampaolo·8 Mar

Mais mec, tu t'es fait wipe ton infra par un bot sans contrôle, je crois que tes "insights" on va pouvoir s'en passer. Merci quand même.

Alexey Grigorev@Al_Grigor

If you found this post helpful, follow me for more content like this. I publish a weekly newsletter where I share practical insights on data and AI. It focuses on projects I'm working on + interesting tools and resources I've recently tried: alexeyondata.substack.com

Français

1.2K

Pierre@serphacker·7 Mar

Local AI advances rapidly, improving day by day. We hit a true milestone with Qwen Coder Next and Qwen 3.5. Medium models are now smart enough to handle agents and coding effectively (it was really painful before). The only (big) downside is speed. But progress is coming.

English

142

Pierre@serphacker·24 Şub

At the moment there is no in-between solution (4k$~30k$). Mac may have more RAM than strix halo but it's unusable (too slow) and more expensive. If you go the 3090 road you need a lot of them (it's only 24G), it's noisy, power-hungry, old and used, not that cheap.

English

100

Pierre@serphacker·24 Şub

Or buy a AMD strix halo 128G (2k$-4k$). Then wait for next gen hardware (AMD medusa halo, Intel Serpent lake, or ASIC chip @taalas_inc) If you have budget (>30k$), buy at least 2 or 3 RTX 6000 (not worth it IMO. Too expensive and it will deprecate fast). x.com/TheAhmadOsman/…

Ahmad@TheAhmadOsman

GOAT GPU I tell people this all the time - On a budget? Get yourself 2x RTX 3090s - Have the budget? Get an RTX PRO 6000 (or two) I owe a ridiculous amount of what I’ve learned to the scrappy, cheap 3090s I picked up off r/hardwareswap P.S. Ignore the Mac Studio/Mac mini hype

English

266

Descubrir

@dsampaolo @taalas_inc @Mohamed__l @ivanfioravanti @wu89_j @Loran750 @Salemioche @ncapeyronSABA