Pierre

760 posts

Pierre

Pierre

@serphacker

I build SaaS

🇫🇷 Inscrit le Kasım 2009
256 Abonnements3.9K Abonnés
Pierre
Pierre@serphacker·
@dsampaolo @taalas_inc pour le moment c'est pas rentable niveau prix (vs cloud) et je pense pas que ce soit le meilleur argument. Le vrai argument, c'est la privacy, les boites n'ont pas envie d'envoyer leur code/data en chine ou aux USA. C'est aussi ce qui va pousser le local à moyen terme.
Français
0
0
1
61
Pierre
Pierre@serphacker·
@dsampaolo @taalas_inc perso je ne fais que de l'IA local, niveau intelligence c'est good enough depuis qwen 3 coder next/qwen 3.5, par contre c'est trop lent. Mais le hardware, les modèles et même les drivers s'améliorent de jour en jour, donc c'est de + en + rapide (mais toujours trop lent).
Français
1
0
0
162
Didier Sampaolo
Didier Sampaolo@dsampaolo·
Je vais "quoter le mec" moi aussi, je veux pas qu'on s'embrouille, mais je tiens ma position. Je parlais de modèles au sens large, pas forcément de frontier LLMs. Et quand tu vois des trucs comme @taalas_inc, ou même les Speech-to-text de Google sur les tel Pixel, 1/3
Julien | Tech & Invests@JulienTechInvst

Je quote le mec parce que je vois passer ce genre de commentaires régulièrement. L’IA locale c’est un fantasme. Globalement, pour faire de l’inférence, il faut 1) charger le modèle, 2) charger le contexte dans le KV-cache. Il y a globalement 3 précisions possibles en inférence: le BF16/FP16, le FP8/INT8 et le FP4/INT4. La majorité des processeurs (CPU ou GPU) ne supportent que le BF16, et seul les modèles professionnels de chez Nvidia (B200/300) supportent le FP4/INT4. Juste sur le chargement du modèle en RAM, 1 paramètre c’est 2 octets en BF16/FP16, 1 octet en FP8/INT8, et 4 bits en FP4/INT4. Donc pour 1B de paramètres (la majorité des modèles font 7B et plus), il faut au moins: - 2Go de RAM en BF16/FP16 - 1Go de RAM en FP8/INT8 - 500Mo de RAM en FP4/INT4 Ça c’est juste pour charger le modèle. Le FP8 est amplement suffisant pour des tâches d’inférence basiques et commencent par être supportés par de plus en plus de GPU/NPUs donc c’est plutôt de bon augure pour l’utilisation de modèles en local. Cependant, 1B de paramètres, comme dit plus haut, ça n’existe pas vraiment et il faut compter au moins 7B de paramètres pour des versions mini. Avec l’augmentation de la taille des modèles, le MoE et autre, faudra plutôt compter 10-20B de paramètres d’ici peu de temps pour un truc utilisable. Donc entre 10 et 20Go de RAM juste pour charger le modèle. À ça, on y ajoute un contexte. Disons 20k tokens de contexte, ce qui n’est objectivement pas grand chose (environ 15k mots - seulement du texte). Là c’est plus compliqué à calculer car il y a des paramètres propres à chaque modèle et à la configuration de ce dernier (cf le papier de Google). La formule simplifiée qu’on peut utiliser est la suivante: KV-cache_size ≈ 2 x L x hidden_size x T x precision Avec L le nombre de couches, hidden_size la configuration du modèle, T le nombre de token de contexte et precision, la précision choisie. Donc avec 20k tokens de contexte et un modèle Llama-like (4096 de hidden_size et 32 couches), on a: - 10,5Go de RAM en BF16/FP16 - 5,2Go de RAM en FP8/INT8 - 2,6Go de RAM en FP4/INT4 Donc il faudrait minimum 15Go de RAM disponible sur le processeur (soit en VRAM si GPU externe, soit en mémoire unifiée) juste pour faire tourner un modèle basique avec des capacités réduites. La majorité des PCs modernes grand public dispos sur le marché n’ont pas la capacité de faire tourner le modèle et l’OS sans taper dans le swap. Et là je parle même pas de la bande passante de la RAM qui limitera de facto l’output dans les 10-20 tokens/seconde maximum. Bref, à moins de mettre de la HBM en masse et donc de voir le prix du parc informatique flamber, personne ne fera tourner de modèle en local pour des tâches sérieuses. C’est déjà suffisamment dur de le faire sur des cartes à plus de 40k$. Et qu’on vienne pas me dire « oui mais pour un usage récréatif », parce que ce que les gens veulent c’est pouvoir balancer des pdfs, des images et autre, et là, le contexte explose et il faudra souvent bien plus de 100 à 200k tokens

Français
2
0
3
2.4K
Pierre
Pierre@serphacker·
@Mohamed__l Je connais pas spécialement ce tool, mais tes ips cloud ont un inbox vraiment limité (meme si claude a associé un domaine + configuré DKIM/SPF/DMARC, ce dont je doute). Avec des ips sans réputation, je doute que tu puisses vérifier la validité des emails, surtout à 2k/min.
Français
1
0
0
205
Mohamed
Mohamed@Mohamed__l·
J'ai un problème de verifications d'emails (pour du cold mail) et Claude m'a bien aidé. Il y a ce projet (open source) qui existe : reacher email verify Vous prenez chez OVH du public cloud avec 30 instances d2-2 à 0,0099 de l'heure (car on est des gens raisonnables). Et ensuite ça fait le taff. Est-ce que c'est vraiment fiable ? Ca permet déja de dégrossir et surtout moins cher qu'avec des proxy. Claude Code ensuite permet de kick rapidement via API une instance si flag et de passer à une autre. Et si vous avez un peu de temps, faire de la presta ou monter un SaaS de verif d'emails.
Mohamed tweet media
Français
4
0
3
2.1K
Pierre
Pierre@serphacker·
@ivanfioravanti @wu89_j for now I stick with coder next, best intelligence/speed ratio on my hardware for my use case (coding with opencode/intellij).
English
1
0
3
70
Ivan Fioravanti ᯅ
Ivan Fioravanti ᯅ@ivanfioravanti·
@wu89_j I use it with OpenCode and PI and it does its job, it’s more coding than planning for sure.
English
1
0
1
722
Ivan Fioravanti ᯅ
Ivan Fioravanti ᯅ@ivanfioravanti·
I'm not having great luck with NVIDIA Nemotron-Cascade-2-30B-A3B on coding side, am I the only one?
English
31
0
76
12.2K
Pierre
Pierre@serphacker·
@Loran750 @Salemioche @ncapeyronSABA Pas surpris pour le M5/M5 max, c'est que des laptops pour le moment donc... Perso j'entends déjà bien le ventillo car j'ai parfois des grosses tâches de refactoring/code qui tourne pendant 45min/2h (c'est lent). J'aimerai pas faire ça sur un laptop.
Français
0
0
0
47
Pierre
Pierre@serphacker·
@Loran750 @Salemioche @ncapeyronSABA Clairement, pour ce que j'utilise l'IA, ça me revient bcp plus cher que de l'API, pour des modèles beaucoup moins performants et beaucoup plus lent. C'est pas du tout rentable et c'est pas l'intérêt du local. Le seul intérêt c'est le côté privacy et fun de bidouiller.
Français
1
0
1
34
Laurent
Laurent@Loran750·
Alors, pour faire de l'IA locale : un laptop surpuissant ou bien un desktop monstre ? 10 jours que je cherchais la réponse. Plateforme Strix Halo ? Mac M3/M4 ? RTX 4090/5090 ? Ma conclusion rigoureuse et objective : un desktop monstre... et un laptop pour pouvoir y accéder de partout. En ai-je envie ou en ai-je besoin ? Oui.
Français
6
0
6
1.6K
Pierre
Pierre@serphacker·
@Loran750 @Salemioche @ncapeyronSABA J'attends de voir le s'il y aura un mac mini/studio avec un M5 ultra pour upgrade. J'attends aussi les futurs CPU AMD/Intel (mais ce sera long ils ont minimum 6mois/1 an de retard sur Apple niveau performance). Je serais toi j'attendrais M5 Ultra, sinon prendre un M5.
Français
1
0
2
181
Pierre
Pierre@serphacker·
@Loran750 @Salemioche @ncapeyronSABA J'ai un minipc strix halo dédié à l'IA, ça sert à rien de prendre une 3090 en +. Pas fan des workstations GPU, il en faut beaucoup, +bruyant, +watts, +cher, +place... Le strix halo 128G c'était le meilleur compromis, (ça reste assez lent), mais maintenant il y a le M5...
Français
1
0
2
51
Pierre
Pierre@serphacker·
@sudoingX You are missing the AMD strix halo, for me it is the sweet spot. You need too many GPU to run medium (~100B) models, you have to quant a lot which reduce accuracy. But as models become more powerful while shrinking in size, single/dual GPUs config could become more relevant.
English
0
0
0
151
Sudo su
Sudo su@sudoingX·
local AI hardware tiers: $4,699 - DGX Spark (NVIDIA wants you here) $1,989 - RTX 4090 (overkill for most) $1000 - RTX 3090 used (sweet spot) $250 - RTX 3060 used (currently testing every model that fits 12GB) $0 - CPU only (it still works) jensen announced the top. i've been posting receipts from the bottom.
English
99
24
556
36.4K
Pierre
Pierre@serphacker·
@KuittinenPetri @sudoingX By next I mean the real next gen with more bandwith, AMD medusa halo / AI Max 500 (rumored with DDR6 / 384bits bus), or the Intel serpent lake with nvidia igpu. I agree, the upcoming AMD MAX 4xx series looks like a minor upgrade (if any). We have to wait AMD medusa halo.
English
0
0
0
67
Petri Kuittinen
Petri Kuittinen@KuittinenPetri·
@serphacker @sudoingX The local Apple prices are so high that make Nvidia DGX Spark cheap: 128 GB RAM + 4 TB SSD. Nvidia DGX Spark is ~4540 €, Apple M5 Max is 7150 €, but laptop of course includes display. Next AMD AI Ryzens are going to be stripped down 395's, with less CPU cores, same GPU.
English
1
0
0
171
Sudo su
Sudo su@sudoingX·
AMD users i need your data. i have almost zero AMD configs in my benchmark collection and i can't answer these questions properly without real numbers. if you're running any model on Vulkan or ROCm drop your GPU, model, tok/s, and engine below. 7900 XTX, R9700, 6800XT, anything. one reply from you fills a gap i can't fill from NVIDIA alone.
Just some person@ThatWolfieGuy

@sudoingX AMD AI Pro R9700x2?

English
38
3
85
10.1K
Pierre
Pierre@serphacker·
@KuittinenPetri @sudoingX Yes 10%/20% slower, but 50%/60% cheaper than DGX spark. Both are too slow anyway, M5 max starts to looks good (especially pp), M5 Ultra would be crazy. But I hate Apple. I'm waiting for next gen intel / AMD.
English
1
0
1
122
Petri Kuittinen
Petri Kuittinen@KuittinenPetri·
@sudoingX AMD Ryzen™ AI Max+ 395 is generally 10-20% slower than equivalent 128 GB LPDDR5X machines by Apple or Nvidia DGX Spark in token/s. It is faster than old Apple in prefill due much more TOPS, but loses to latest M5 Max. Nvidia is much faster in prefill. I use llama.ccp Vulkan.
English
1
0
5
670
Pierre
Pierre@serphacker·
@sudoingX AMD Ryzen 395+ 128G - Qwen3 Coder Next Q8_0 - rocm - llama-bench 37tg / 700pp
Indonesia
0
0
0
175
Supersocks
Supersocks@iamsupersocks·
J’ai failli céder au FOMO et partir sur un Mac mini ou Mac Studio reconditionné pour faire tourner des LLM en local, encore plus depuis la sortie de Qwen 3.5. Finalement, j’ai trouvé mieux. GMKtec EVO-X2 d’occasion (négocié à 1400 €), quasi neuf : - Ryzen AI Max+ 395 (16c/32t Zen 5) - 96 Go LPDDR5X, 256 Go/s de bande passante - Radeon 8060S, 40 CU RDNA 3.5 - 2 To SSD PCIe 4.0 Financé en partie par la revente de ma ROG Ally Z1 Extreme (qui fait tourner mon OpenClaw) et quelques babioles qui traînaient chez moi. Ce que je vais installer dessus : Ollama pour Qwen 3.5 (9B à 70B), n8n pour l’automatisation, Supabase self-hosted pour la base de données, Docker/Portainer, Open WebUI, Traefik. Zéro cloud, tout en local, ~70 €/an d’électricité. Je garde juste Claude en x5 ou x20 pour le code. Je documente tout. RETEX à venir. Y a ceux qui parlent, ceux qui agissent. Je suis un mixte des deux.
Supersocks tweet media
Français
44
27
381
113.7K
Pierre
Pierre@serphacker·
@alex_buraks Interesting, what chrome extension would you recommend for live edit ?
English
1
0
0
55
Alex Buraks
Alex Buraks@alex_buraks·
Sometimes its easier not to vibe-code your personal SaaS but to make a Chrome extension that improves your SaaS by adding the visual or functional features you are missing. Just one small cool feature for my PEEC that I had been waiting for a long time and Im absolutely happy.
English
2
0
3
367
Pierre
Pierre@serphacker·
Local AI advances rapidly, improving day by day. We hit a true milestone with Qwen Coder Next and Qwen 3.5. Medium models are now smart enough to handle agents and coding effectively (it was really painful before). The only (big) downside is speed. But progress is coming.
English
0
0
1
142
Pierre
Pierre@serphacker·
At the moment there is no in-between solution (4k$~30k$). Mac may have more RAM than strix halo but it's unusable (too slow) and more expensive. If you go the 3090 road you need a lot of them (it's only 24G), it's noisy, power-hungry, old and used, not that cheap.
English
0
0
0
100
Pierre
Pierre@serphacker·
Or buy a AMD strix halo 128G (2k$-4k$). Then wait for next gen hardware (AMD medusa halo, Intel Serpent lake, or ASIC chip @taalas_inc) If you have budget (>30k$), buy at least 2 or 3 RTX 6000 (not worth it IMO. Too expensive and it will deprecate fast). x.com/TheAhmadOsman/…
Ahmad@TheAhmadOsman

GOAT GPU I tell people this all the time - On a budget? Get yourself 2x RTX 3090s - Have the budget? Get an RTX PRO 6000 (or two) I owe a ridiculous amount of what I’ve learned to the scrappy, cheap 3090s I picked up off r/hardwareswap P.S. Ignore the Mac Studio/Mac mini hype

English
1
0
0
266