Mister Psit

8.7K posts

Mister Psit

@MisterPsit

(Ancien) streamer indé' sans prétention.

France 参加日 Ağustos 2015

258 フォロー中159 フォロワー

固定されたツイート

Mister Psit@MisterPsit·30 Eki

DOSSIER DE MA JEUNESSE. Y a eu du lvl up cependant.

Français

Mister Psit@MisterPsit·12 Nis

Kudo to those that understood the reference behind every agent name BTW ! But since no one can really get who Pimpi is... Here she is.

English

261

Mister Psit@MisterPsit·12 Nis

Thanks @Teknium and @NousResearch for Hermes Agent. This framework made multi-agent orchestration actually usable for a solo founder running a real business. And it is my first steps in Agentic workflow as well. Smooth and without much hassle.

English

286

Mister Psit@MisterPsit·12 Nis

🧵 Running 10 AI agents for my solo consultancy. Zero cloud and therefore full data sovereignty. Hermes Agent + Qwen MoE + Matrix + Notion. Here's the complete stack if you want...

English

291

Mister Psit@MisterPsit·1 Nis

Pour moi, le gros souci du post, c'est qu'il décrit un monde où GGUF, GQA, et les MoE n'existent pas. Ceci dit, je peux me planter.

Français

Mister Psit@MisterPsit·1 Nis

Là où il a raison : La qualité d'un modèle local en Q4 n'est pas celle de Claude Opus ou autres en pleine précision sur des serveurs avec des centaines de Go de VRAM. C'est vrai. Ça, c'est a garder en tête.

Français

Mister Psit@MisterPsit·1 Nis

Il y a des erreurs là dedans. "Seuls les modèles professionnels (B200/B300) supportent FP4/INT4" C'est faux. C'est la plus grosse erreur du post. llama.cpp fait de la quantification logicielle (GGUF Q4_K_M, Q4_K_XL) qui tourne sur n'importe quel GPU CUDA, pour commencer.

Julien | Tech & Invests@JulienTechInvst

Je quote le mec parce que je vois passer ce genre de commentaires régulièrement. L’IA locale c’est un fantasme. Globalement, pour faire de l’inférence, il faut 1) charger le modèle, 2) charger le contexte dans le KV-cache. Il y a globalement 3 précisions possibles en inférence: le BF16/FP16, le FP8/INT8 et le FP4/INT4. La majorité des processeurs (CPU ou GPU) ne supportent que le BF16, et seul les modèles professionnels de chez Nvidia (B200/300) supportent le FP4/INT4. Juste sur le chargement du modèle en RAM, 1 paramètre c’est 2 octets en BF16/FP16, 1 octet en FP8/INT8, et 4 bits en FP4/INT4. Donc pour 1B de paramètres (la majorité des modèles font 7B et plus), il faut au moins: - 2Go de RAM en BF16/FP16 - 1Go de RAM en FP8/INT8 - 500Mo de RAM en FP4/INT4 Ça c’est juste pour charger le modèle. Le FP8 est amplement suffisant pour des tâches d’inférence basiques et commencent par être supportés par de plus en plus de GPU/NPUs donc c’est plutôt de bon augure pour l’utilisation de modèles en local. Cependant, 1B de paramètres, comme dit plus haut, ça n’existe pas vraiment et il faut compter au moins 7B de paramètres pour des versions mini. Avec l’augmentation de la taille des modèles, le MoE et autre, faudra plutôt compter 10-20B de paramètres d’ici peu de temps pour un truc utilisable. Donc entre 10 et 20Go de RAM juste pour charger le modèle. À ça, on y ajoute un contexte. Disons 20k tokens de contexte, ce qui n’est objectivement pas grand chose (environ 15k mots - seulement du texte). Là c’est plus compliqué à calculer car il y a des paramètres propres à chaque modèle et à la configuration de ce dernier (cf le papier de Google). La formule simplifiée qu’on peut utiliser est la suivante: KV-cache_size ≈ 2 x L x hidden_size x T x precision Avec L le nombre de couches, hidden_size la configuration du modèle, T le nombre de token de contexte et precision, la précision choisie. Donc avec 20k tokens de contexte et un modèle Llama-like (4096 de hidden_size et 32 couches), on a: - 10,5Go de RAM en BF16/FP16 - 5,2Go de RAM en FP8/INT8 - 2,6Go de RAM en FP4/INT4 Donc il faudrait minimum 15Go de RAM disponible sur le processeur (soit en VRAM si GPU externe, soit en mémoire unifiée) juste pour faire tourner un modèle basique avec des capacités réduites. La majorité des PCs modernes grand public dispos sur le marché n’ont pas la capacité de faire tourner le modèle et l’OS sans taper dans le swap. Et là je parle même pas de la bande passante de la RAM qui limitera de facto l’output dans les 10-20 tokens/seconde maximum. Bref, à moins de mettre de la HBM en masse et donc de voir le prix du parc informatique flamber, personne ne fera tourner de modèle en local pour des tâches sérieuses. C’est déjà suffisamment dur de le faire sur des cartes à plus de 40k$. Et qu’on vienne pas me dire « oui mais pour un usage récréatif », parce que ce que les gens veulent c’est pouvoir balancer des pdfs, des images et autre, et là, le contexte explose et il faudra souvent bien plus de 100 à 200k tokens

Français

144

Mister Psit@MisterPsit·1 Nis

"10-20 tokens/seconde maximum" Le 35B-A3B fait ~60-110 tok/s sur ma 3090. Même le 27B dense fait 15-25 tok/s. Ce chiffre de "10-20 max" est soit du dense non-quantifié, soit du matériel limité en bande passante mémoire, je pense ?

Français

Mister Psit@MisterPsit·30 Mar

@Boc__TV Ah ben dans ma branche ça dégagerait tout le monde haha ! La com, déjà à l'origine c'était une véritable purge... Mais alors depuis qu'ils ont découvert L'IA à travers gpt et où Claude, c'est devenu une véritable foire. Par contre tu as raison, le filtre est (était ?) salvateur

Français

BOC TV@Boc__TV·30 Mar

@MisterPsit Pourquoi tu ne filtre pas ? N'affiche pas ceux qui ont du contenu vide. Ça te libère ton flux.

Français

Mister Psit@MisterPsit·30 Mar

Chaque minute que je passe sur LinkedIn, ce Skyblog pour cadre disruptif, me donne envie de crever, et ce, d'autant plus depuis la démocratisation des IA. Des foutus bots qui se répondent à coup de listes à puce, de "haha [xxx] classique" et autres "Pas XX, pas YY, mais ZZ"

Français

306

Mister Psit@MisterPsit·30 Mar

vous obtenez un truc où tout le monde se suce la buche mutuellement comme s'ils avaient réinventé le pétrole. Je peux pas m'empêcher de penser que y a forcément d'autres personnes qui réalisent la vaste supercherie. Mais bon, faisons comme si tout était normal après tout.

Français

Mister Psit@MisterPsit·30 Mar

Alors déjà que c'était franchement pas haut dans ma branche, rajoutez les nouveaux entrepreneurs IA qui vendent du vent (basiquement des conseils de base accessibles gratos, les mecs comprennent même pas le fonctionnement, ni ce qu'est un TOKEN ou des agents...)

Français

Mister Psit がリツイート

Dave Kennedy@HackingDave·18 Mar

What I’m realizing is 99.9999999999999999999999999% of AI posts are from people that are trying to get more followers and clicks and has no real world experience on actually deploying. “Improve your workflow 80% by this one Claude skill” “Omg they just released this and it changes the industry completely” It’s all bogus. Create your own workflow that is tailored to you. Don’t buy into this garbage.

English

279

176

2.3K

83.2K

ディスカバー

@Teknium @NousResearch @Boc__TV @elonmusk @BarackObama @taylorswift13 @cristiano @BillGates