Raphaël Valyi

31K posts

Raphaël Valyi

Raphaël Valyi

@rvalyi

https://t.co/TasrVQp6Uf founder. I tweet about open source, especially Odoo; well the OCA superset of it ;-) @[email protected]

Katılım Mayıs 2009
389 Takip Edilen4K Takipçiler
Raphaël Valyi retweetledi
Kimi.ai
Kimi.ai@Kimi_Moonshot·
Congrats to the @cursor_ai team on the launch of Composer 2! We are proud to see Kimi-k2.5 provide the foundation. Seeing our model integrated effectively through Cursor's continued pretraining & high-compute RL training is the open model ecosystem we love to support. Note: Cursor accesses Kimi-k2.5 via @FireworksAI_HQ ' hosted RL and inference platform as part of an authorized commercial partnership.
English
518
1.4K
20.4K
3.4M
Raphaël Valyi
Raphaël Valyi@rvalyi·
@ponceto91 j'ai utilisé Opus 4.5 pendant 2 mois et c'est vraiment un très bon modèle. Mais depuis 2 semaines j'utilise Kimi k2.5 qui me semble au moins aussi bon (qu'Opus 4.5) et avec 30% de tokens de fenêtre en plus qu'Opus n'avait. Mais surtout Kimi est incroyablement moins cher...
Français
0
0
0
95
Olivier Poncet 🦝
Olivier Poncet 🦝@ponceto91·
OpenAI est en nette perte de vitesse depuis des mois, Anthropic est en train d'exploser très fort. Personne n'est dupe, l'accord de OpenAI avec le pentagone pour prendre la place d'Anthropic est la démonstration qu'ils ont besoin de cash et de soutien pour ne pas y rester
Numerama@Numerama

Alerte rouge chez OpenAI. Face au carton d'Anthropic, la firme de Sam Altman fait le ménage : fin des projets annexes, focus total sur les outils d'entreprise. Le point sur ce revirement stratégique. l.numerama.com/9kX

Français
5
7
21
4.6K
Raphaël Valyi
Raphaël Valyi@rvalyi·
It’s 2026. AI is about to replace humans, yet Odoo proudly upholds its tradition of broken floating-point accounting with every single release: github.com/odoo/odoo/issu…
English
3
4
18
1.1K
Raphaël Valyi
Raphaël Valyi@rvalyi·
@JulienDoclot @sorzy5 Pareil Kimi. Franchement j'avais utilisé Opus 4.5 pendant 2 mois et Kimi k2.5 ne me semble pas moins bien, au contraire il a 30% de fenetre de context de plus que les 200k des plans Claude antérieurs. Les plans Kimi t'en a vraiment pour ton argent.
Français
1
0
1
408
Julien Doclot
Julien Doclot@JulienDoclot·
@sorzy5 Et niveau qualité ? Bien je suppose ? Tu as comparé les deux ?
Français
3
0
1
7.3K
Julien Doclot
Julien Doclot@JulienDoclot·
Les gens qui utilisent l'abo Claude Pro, je sais pas comment vous faites... Mon quota est utilisé en 15-20 minutes pas plus. On sait rien faire avec ça 😭
Julien Doclot tweet media
Français
87
2
147
73.3K
Raphaël Valyi retweetledi
Kimi.ai
Kimi.ai@Kimi_Moonshot·
Introducing 𝑨𝒕𝒕𝒆𝒏𝒕𝒊𝒐𝒏 𝑹𝒆𝒔𝒊𝒅𝒖𝒂𝒍𝒔: Rethinking depth-wise aggregation. Residual connections have long relied on fixed, uniform accumulation. Inspired by the duality of time and depth, we introduce Attention Residuals, replacing standard depth-wise recurrence with learned, input-dependent attention over preceding layers. 🔹 Enables networks to selectively retrieve past representations, naturally mitigating dilution and hidden-state growth. 🔹 Introduces Block AttnRes, partitioning layers into compressed blocks to make cross-layer attention practical at scale. 🔹 Serves as an efficient drop-in replacement, demonstrating a 1.25x compute advantage with negligible (<2%) inference latency overhead. 🔹 Validated on the Kimi Linear architecture (48B total, 3B activated parameters), delivering consistent downstream performance gains. 🔗Full report: github.com/MoonshotAI/Att…
Kimi.ai tweet media
English
329
2.1K
13.5K
4.9M
Raphaël Valyi retweetledi
Supersocks
Supersocks@iamsupersocks·
Et pour les flemmards: En une phrase : > Moonshot AI (Kimi) a trouvé un moyen de rendre les modèles d'IA plus intelligents sans les rendre plus gros ni plus lents, en remplaçant une brique vieille de 10 ans dans l'architecture des Transformers. Le problème : > Dans un modèle classique, chaque couche de traitement additionne sa contribution aux précédentes avec le même poids, comme 100 personnes qui parlent au même volume les premières finissent inaudibles. Des couches entières deviennent inutiles. La solution : > Attention Residuals donne à chaque couche la capacité de choisir ce qu'elle veut écouter parmi les couches précédentes, au lieu de tout recevoir en vrac. C'est le même principe que celui qui a rendu les Transformers supérieurs aux anciens modèles mais appliqué à une dimension du réseau que personne n'avait encore touchée. Les résultats : >Même modèle, même budget d'entraînement, juste la brique résiduelle qui change → +7.5 points en raisonnement scientifique, +3.6 en maths, +3.1 en code. Moins de 2% de surcoût en vitesse de réponse. Pourquoi ça compte : > C'est open source, publié par un labo chinois qui n'a pas accès au cloud US. Chaque brique comme celle-ci rend les petits modèles locaux plus compétitifs. Cloud pour le raisonnement de pointe, local pour l'exécution spécialisée et l'écart se réduit.
Supersocks@iamsupersocks

Depuis que je partage sur l'IA locale, une question revient en boucle : pourquoi le local plutôt que le cloud ? Il y a quelques jours je posais le cadrage : les gros modèles frontier comme Claude Opus restent les meilleurs pour le raisonnement complexe et pour tous les usages. Mais l'agent local joue un autre match. Le gros modèle écrit les instructions, le petit les exécute. Comme un développeur senior qui délègue à un junior. Et j'ajoutais : regardez qui alimente cet écosystème. Les labos chinois privés. Ils n'ont pas accès au marché cloud américain, alors ils publient tout en open source. L'innovation par le bas. Moonshot AI (l'équipe derrière Kimi) vient de publier exactement ce genre de brique fondamentale (6h plus tôt). Ça s'appelle Attention Residuals. C'est une amélioration de l'architecture même des modèles d'IA. Et c'est élégant. Décryptage. Mais d'abord, pour comprendre pourquoi c'est important, il faut comprendre comment fonctionne un modèle de langage. Je vais essayer de rendre ça digeste: pour moi, pour vous. Comment fonctionne un modèle de langage: La base. Tous les grands modèles actuels (GPT, Claude, Llama, Qwen, Kimi) reposent sur la même architecture : le Transformer. Inventé par Google en 2017, c'est devenu le standard universel. Avant ça, on utilisait des réseaux récurrents (RNN). Imaginez un lecteur qui lit un livre mot par mot et essaie de se souvenir de tout dans un seul post-it. Au bout de 500 pages, les premières phrases sont oubliées. Et comme il lit dans l'ordre, impossible d'accélérer la lecture. Le Transformer a changé la donne avec un mécanisme appelé "attention." Au lieu de lire mot par mot, le modèle regarde l'ensemble du texte d'un coup et décide quels mots sont importants pour comprendre chaque autre mot. C'est comme si au lieu de lire un livre page par page, vous aviez tous les mots étalés sur une table et pouviez tracer des lignes entre ceux qui ont un lien. Comment ça marche : pour chaque mot, le modèle calcule trois choses. 1/Une question -> "qu'est-ce que je cherche comme contexte ?" 2/ une étiquette -> "voilà ce que je propose comme contexte" 3/ une information ("voilà ce que je porte comme contenu"). Le modèle compare chaque question à toutes les étiquettes, identifie les meilleures correspondances, et récupère les informations associées. Résultat : chaque mot obtient une représentation enrichie par le contexte de tout le texte. Un Transformer empile des dizaines de couches de traitement. Chaque couche fait deux choses dans l'ordre : 1/ Un bloc d'attention : qui mélange l'information entre les mots. C'est la compréhension du contexte. 2/ Un bloc de calcul dense (appelé MLP) : qui transforme chaque mot indépendamment. C'est le "raisonnement" local, la digestion de l'information. Entre chaque bloc, il y a un mécanisme simple mais crucial : la connexion résiduelle. On prend ce qui entre dans le bloc, on prend ce qui en sort, et on additionne les deux. C'est comme garder une copie de sauvegarde à chaque étape : si le bloc n'apporte rien d'utile, l'information d'origine passe quand même. C'est ce mécanisme qui permet d'empiler beaucoup de couches sans que le signal se perde -> la colonne vertébrale de tous les modèles profonds depuis 2016. Et c'est exactement ce mécanisme, vieux de presque 10 ans, que Moonshot vient de repenser. Le problème caché des connexions résiduelles. Ces connexions additionnent les sorties de chaque couche avec un poids fixe de 1. Toujours le même. À chaque couche, on empile tout avec le même coefficient. Ça marche pour faire circuler les gradients (les signaux d'apprentissage). Mais ça crée un effet pervers. Imaginez une conversation à 100 personnes où chacune parle au même volume. Au bout d'un moment, le bruit de fond est tel que la personne qui a parlé en premier est inaudible. C'est exactement ce qui se passe dans un réseau profond : la contribution des premières couches se noie dans l'accumulation de toutes les suivantes. C'est ce qu'on appelle le problème de dilution. Conséquence : des chercheurs ont montré qu'on peut carrément supprimer des couches entières de certains modèles profonds sans perte significative. Ces couches ne contribuaient déjà plus vraiment au signal. Et les couches profondes, pour se faire entendre dans ce brouhaha, doivent apprendre à "crier plus fort" -> produire des sorties de plus en plus grandes. Ce qui gaspille de la capacité et peut déstabiliser l'entraînement. En résumé, trois problèmes concrets : > Pas de tri sélectif. Toutes les couches reçoivent le même mélange, alors que certaines auraient besoin d'informations différentes. > Perte irréversible. Une fois l'information mélangée dans le flux commun, impossible de la récupérer séparément plus tard. > Course au volume. Les couches profondes compensent en produisant des signaux de plus en plus forts, ce qui fragilise le système. L'analogie qui fait tout comprendre. Et c'est là que l'idée de Moonshot est brillante. -> Les réseaux récurrents (RNN) comprimaient toute une séquence de mots dans un seul vecteur, et ça posait problème. L'attention a résolu ça en permettant à chaque mot d'aller chercher directement dans tous les mots précédents. Moonshot observe que les connexions résiduelles font exactement la même erreur mais sur un axe différent. Au lieu de comprimer une séquence de mots, elles compriment une séquence de couches dans un seul état. Même structure, même limitation. L'attention a remplacé la compression séquentielle sur l'axe du temps (les mots). Attention Residuals remplace la compression séquentielle sur l'axe de la profondeur (les couches). Au lieu d'additionner aveuglément toutes les couches avec le même poids, AttnRes permet à chaque couche de choisir ce qui l'intéresse parmi toutes les couches précédentes, avec des poids appris qui dépendent du contenu. Chaque couche dispose d'un petit vecteur appris (une sorte de "profil de recherche") qui lui sert à interroger les sorties des couches précédentes. Les correspondances les plus pertinentes reçoivent un poids fort, les autres sont atténuées. Exactement comme l'attention fonctionne pour les mots, mais appliquée entre les couches du réseau Et comme un réseau a typiquement quelques centaines de couches (contre des millions de mots pour une séquence longue), le coût de calcul de cette attention "en profondeur" est négligeable. Ce que ça change concrètement. Avant de nous faire part de ces résultats Moonshot a intégré AttnRes dans Kimi Linear, leur modèle à 48 milliards de paramètres au total dont 3 milliards activés par requête (c'est un modèle dit "à experts" -> seule une fraction du réseau s'active pour chaque tâche, ce qui le rend très efficace). Entraîné sur 1 400 milliards de mots. Les résultats bougent sur trois axes : 1/ Le modèle apprend mieux. Sur les tests de mise à l'échelle (on entraîne des modèles de tailles croissantes et on mesure la progression), Block AttnRes (la version optimisée pour la production) atteint la même performance qu'un modèle classique entraîné avec 25% de puissance de calcul en plus. Autrement dit : pour le même budget de serveurs, le modèle est meilleur. 2/ Le signal reste propre. Dans le modèle classique, les couches profondes produisent des sorties 15 fois plus grosses que les premières: signe de la course au volume décrite plus haut. Avec AttnRes, les magnitudes restent bornées. Le système se régule. L'apprentissage se répartit mieux. 3/ Le modèle classique concentre les signaux d'apprentissage de façon disproportionnée dans les premières couches. AttnRes, grâce à la compétition entre sources (le mécanisme d'attention force les couches à se départager), distribue l'effort d'apprentissage de façon uniforme sur toute la profondeur. Sur les tests de performance concrets (Kimi avec la vieille brique vs Kimi avec la nouvelle brique) : > Raisonnement scientifique avancé (GPQA-Diamond, des questions niveau doctorat) : 36.9 → 44.4. C'est un bond de +7.5 points, énorme sur ce type de test. Mathématiques : 53.5 → 57.1. > Génération de code (HumanEval) : 59.1 → 62.2. > Connaissances générales (MMLU) : 73.5 → 74.6. > Raisonnement logique (BBH) : 76.3 → 78.0. Les gains les plus forts sont sur les tâches qui demandent de raisonner en plusieurs étapes logique, puisque c'est exactement là qu'un meilleur flux d'information entre couches fait la différence. Les couches profondes peuvent enfin aller chercher précisément ce dont elles ont besoin dans les couches intermédiaires, au lieu de recevoir une bouillie uniforme. Comment ça tourne en pratique : Block AttnRes. La version complète d'AttnRes (chaque couche regarde toutes les couches précédentes individuellement) est idéale en théorie mais pose un problème de mémoire à grande échelle : il faut stocker et transmettre les sorties de toutes les couches. Block AttnRes résout ça de manière élégante. Les couches sont regroupées en blocs (environ 8 en pratique). Dans chaque bloc, les sorties sont résumées en une seule représentation par addition classique. L'attention entre couches ne porte ensuite que sur ces 8 résumés, pas sur les centaines de couches individuelles. -> C'est comme résumer un livre en 8 chapitres plutôt que de relire chaque phrase : vous perdez un peu de granularité, mais vous gardez l'essentiel, et c'est 8 choses à consulter au lieu de 128. Le système de cache entre les étapes du calcul distribué élimine les transmissions redondantes. La stratégie de calcul en deux phases sépare ce qui peut être fait en parallèle (comparer les blocs entre eux) de ce qui doit être séquentiel (la progression à l'intérieur d'un bloc), puis fusionne les résultats proprement. Résultat pratique : moins de 4% de surcoût à l'entraînement. Moins de 2% de latence supplémentaire quand le modèle répond. C'est un remplacement direct des connexions résiduelles classiques : on change juste cette brique, le reste de l'architecture ne bouge pas. Les seuls paramètres ajoutés : un petit vecteur par couche et une normalisation. Négligeable. Moonshot vs DeepSeek : deux philosophies. Impossible de parler d'AttnRes sans mentionner mHC de DeepSeek, publié en janvier. Les deux partent du même constat : les connexions résiduelles classiques sont un goulot d'étranglement. Mais les approches divergent. DeepSeek (mHC) élargit le tuyau. Au lieu d'un seul flux résiduel, mHC en crée plusieurs en parallèle (typiquement 4) avec des règles mathématiques strictes pour que les signaux ne s'emballent pas en se mélangeant (des matrices dites "doublement stochastiques" en gros, le mélange conserve l'énergie totale, rien n'explose). Plus de bande passante informationnelle, avec des garde-fous de stabilité. Moonshot (AttnRes) ne touche pas à la largeur du tuyau. Il donne à chaque couche une lorgnette pour aller chercher exactement ce dont elle a besoin dans les couches précédentes. Élargir le tuyau vs donner des yeux. Deux philosophies. Le papier de Moonshot unifie les deux dans un cadre mathématique commun et montre quelque chose d'intéressant : toutes les variantes existantes (résidus classiques, réseaux à portes, mHC de DeepSeek) font en réalité de l'attention "linéaire" sur l'axe de la profondeur -> une version simplifiée. AttnRes fait de l'attention complète (softmax). C'est exactement la même différence qui a fait passer les modèles de séquence des RNN aux Transformers. Et sur l'efficacité : Block AttnRes obtient des performances comparables à mHC tout en consommant environ six fois moins de bande passante mémoire par couche. Parce qu'au lieu de maintenir 4 flux parallèles en permanence, il stocke juste 8 résumés de blocs et un petit vecteur par couche. Les surprises des tests comparatifs. Moonshot a testé plein de variantes pour comprendre ce qui marche et ce qui ne marche pas : > Les poids fixes entre couches (comme dans DenseFormer, un travail antérieur) n'apportent rien. Zéro amélioration par rapport au système classique. C'est la capacité de s'adapter au contenu qui fait toute la différence. > La fonction de normalisation compte. La version "compétitive" (softmax, où les poids somment à 1 ce qui force les couches à se départager) bat la version "indépendante" (sigmoid, où chaque poids est calculé isolément). Quand on alloue de l'attention, il faut un classement net, pas un "tout le monde a un peu." > Découper l'attention par groupes de dimensions (comme on le fait pour l'attention sur les mots avec les "multi-têtes") dégrade les résultats sur l'axe de la profondeur. Quand une couche est pertinente, elle l'est en bloc, uniformément. Pas besoin de la découper en morceaux. > Un vecteur de recherche qui dépend du contenu traité (au lieu d'un vecteur fixe appris) donne de meilleurs scores, mais le surcoût en calcul et la perte de parallélisme ne justifient pas le gain. Le vecteur fixe est le bon compromis. Conséquence architecturale : avec AttnRes, les modèles optimaux sont plus profonds et plus étroits qu'avec des résidus classiques. AttnRes exploite mieux la profondeur : logique, puisque c'est exactement ce qu'il améliore. Les poids appris par le modèle révèlent des choses intéressantes : chaque couche s'appuie surtout sur sa voisine immédiate (la localité reste le chemin principal), mais des "raccourcis" émergent naturellement vers des couches éloignées. Et le tout premier signal (l'encodage initial des mots) garde un poids significatif jusqu'aux dernières couches, surtout pour les blocs d'attention. Le réseau apprend tout seul à créer des ponts entre ses différents niveaux de traitement. Pourquoi ça compte pour le local et l'open source. Moonshot publie tout : le papier scientifique, le code, l'architecture. Comme DeepSeek. Comme Qwen (Alibaba). Chaque brique d'architecture ouverte qui rend les modèles plus efficaces bénéficie directement à l'écosystème local. Un modèle qui exploite mieux sa profondeur, c'est un modèle qui fait plus avec moins de paramètres activés. 3 milliards de paramètres activés sur 48 milliards au total, avec AttnRes, qui bat le modèle classique sur tous les tests. C'est exactement le profil de modèle qui tourne sur une machine grand public avec une bonne compression des poids. Les labos chinois n'ont pas accès au marché cloud américain. Alors ils publient les briques fondamentales que tout le monde peut utiliser. En Europe, le RGPD et le AI Act poussent les entreprises vers le traitement local des données. Les deux convergent. C'est comme l'énergie : d'un côté le nucléaire centralisé, coût d'exploitation lourd mais pérenne à l'échelle. De l'autre le décentralisé qui répond à des cas précis, tout aussi compétitif dans sa niche. Le cloud pour le raisonnement de pointe. Le local pour l'exécution spécialisée. Et les briques comme Attention Residuals rendent le local de plus en plus compétitif, une publication à la fois.

Français
1
8
80
13.5K
Raphaël Valyi retweetledi
Ivan Sokolov
Ivan Sokolov@cetmix_team·
If you are using Paypal with #odoo - we have recently contributed some improvements for the @OdooCommunity module to make automatic reconciliation much more efficient: github.com/OCA/bank-state… Done for 17.0 - if you need if for other versions - let us know.
English
2
3
7
319
Raphaël Valyi retweetledi
Alexis de Lattre
Alexis de Lattre@alexisdlattre·
I published today a new release 3.16 of my python factur-x lib #history" target="_blank" rel="nofollow noopener">pypi.org/project/factur… It improves standard compliancy for /CheckSum in the PDF tables.
English
1
1
2
211
Raphaël Valyi retweetledi
Sahil
Sahil@sahill_og·
Linus Torvalds created Linux at 21 without Claude or any other AI. - He didn't have a co-founder. - No VC funding. No office. - No team. - Just a personal project he posted to a mailing list: "I'm doing a free OS." 33 years later, it runs 97% of the world's servers, all smartphones, and the International Space Station. The most important software in history started as someone's side project. Absolute legend.
Sahil tweet media
English
609
3.6K
26.9K
2M
Raphaël Valyi retweetledi
bearstech
bearstech@bearstech·
Debian débat des contributions générées par LLM et décide de ne pas décider (pour l’instant). Entre qualité du code, reproductibilité, accueuil des nouveaux devs et questions éthiques, le projet reconnaît surtout une chose : l’écosystème n’a pas encore assez de recul. 👉 lwn.net/SubscriberLink…
bearstech tweet media
Français
0
6
17
1.8K
Raphaël Valyi
Raphaël Valyi@rvalyi·
@benjamincode Bah au début l'idée d'un MCP était une API pilotée et déclenchée de façon semantique. Mais les skills le font aussi et se branchent sur les outils CLI/API existants, donc c'est les skills qui ony tué le MCP.
Français
0
0
0
59
Benjamin Code
Benjamin Code@benjamincode·
C’est un petit ce que je me suis toujours dit au fond de moi avec le MCP… Je captais pas pourquoi on devait décrire une “nouvelle API” pour les LLM… J’ai jamais trop creusé cette intuition par contre. Mais c’est vrai que quand le MCP d’un outil n’est pas dispo, les agents passent par l’API officielle de l’outil avec tout autant de succès du coup l’expérience corroborait pas mal cette intuition. Et maintenant les leaders de l’industrie font machine arrière ? En fait je suis un génie. Faut que je m’écoute plus souvent.
@levelsio@levelsio

Thank god MCP is dead Just as useless of an idea as LLMs.txt was It's all dumb abstractions that AI doesn't need because AI's are as smart as humans so they can just use what was already there which is APIs

Français
34
0
155
67.9K
Raphaël Valyi retweetledi
Theophilus
Theophilus@TheoKolawole·
@aakashgupta This is why I always say thank you 😂
Theophilus tweet media
English
33
100
2.2K
97.7K
Raphaël Valyi retweetledi
Aakash Gupta
Aakash Gupta@aakashgupta·
Sam Altman said people saying “please” and “thank you” to ChatGPT costs OpenAI tens of millions of dollars a year in compute. 67% of Americans do it anyway. Run the math on why. A 2024 Waseda University study tested LLM responses across politeness levels in English, Chinese, and Japanese. Impolite prompts produced measurably worse outputs: more bias, more errors, more refusals. Moderate politeness consistently beat both extremes. The mechanism makes sense once you see it. Polite prompts pattern-match to higher-quality training data. When you write “Could you help me structure this analysis?”, the model pulls from professional, well-reasoned text. When you write “give me the answer,” it pulls from Reddit. Google DeepMind’s Murray Shanahan explained it simply: the model is role-playing a smart intern. Treat the intern like a colleague, you get colleague-quality work. Bark orders, you get minimum-viable compliance. Now look at the cost side. OpenAI handles over a billion queries daily. Each GPT-4 query uses roughly 2.9 watt-hours, ten times a Google search. But OpenAI just raised $40 billion at a $300 billion valuation. Tens of millions in politeness tokens is a rounding error on a rounding error. 67% of users do it anyway, and 55% of them say it’s because it’s “the right thing to do.” They’re maintaining a behavioral habit that governs every other interaction in their life. The parent who teaches their kid to say please to Alexa isn’t doing it for Alexa. They’re doing it because the alternative is raising someone who learns that being rude gets faster results. Telling 900 million people to stop saying thank you so OpenAI can save 0.01% of operating costs is the most engineer-brained optimization take on the internet. You’re training yourself to treat every interaction as a transaction. And that habit doesn’t stay in the chat window.
Venkatesh@Venkydotdev

STOP SAYING THANK YOU TO AI STOP SAYING THANK YOU TO AI STOP SAYING THANK YOU TO AI STOP SAYING THANK YOU TO AI STOP SAYING THANK YOU TO AI STOP SAYING THANK YOU TO AI STOP SAYING THANK YOU TO AI STOP SAYING THANK YOU TO AI STOP SAYING THANK YOU TO AI STOP SAYING THANK YOU TO AI

English
1.5K
3.3K
28.8K
5.6M
Raphaël Valyi
Raphaël Valyi@rvalyi·
@eparody Perso suis après la fin des mes crédits Google AI pro j'ai pris un plan Kimi k2.5 à 19$ et ça me semble un très très bon rapport qualité/prix...
Français
0
0
2
235
Emmanuel Parody 🇪🇺 🇺🇦
🧾 Quel plan à 20$ selon votre profil : À la louche: • Usage général + multimodal → ChatGPT Plus • Déjà dans l’écosystème Google → Google AI Pro (le bundle gagne clairement) • Développeur / codeur intensif → Claude Pro (Opus 4.6 + Claude Code)
Français
9
3
18
27.7K
Emmanuel Parody 🇪🇺 🇺🇦
Maintenant on compare les versions payantes de premier niveau. ChatGPT Plus, Google AI Pro, Claude Pro : 20$/mois chacun. Ça se complique : derrière le même prix des propositions de valeur très différentes. J’ai disséqué les 3 plans sur 6 mois : modèles, limites, évolutions. 🧵
Français
23
23
235
155.4K
Raphaël Valyi
Raphaël Valyi@rvalyi·
@eparody J'ai pris un plan Google AI pro. En fait Google te donne 300 $ de crédit IA de bienvenue à consommer en API, mais dès que tu les as consommé tu dois payer l'API 2-4 $/million de tokens, donc assez cher. j'ai consommé ces crédits et du coup Gemini deviendrait très cher...
Français
0
0
1
110
Emmanuel Parody 🇪🇺 🇺🇦
Google AI Pro — quelle évolution? Le bundle le plus large, la lisibilité la plus faible Objectivement, c’est l’offre à 20$ qui donne le plus pour les utilisateurs Google. Le 2 To de Drive seul justifie une bonne partie du prix pour beaucoup. Mais Google AI Pro a été rebrandé (ex-AI Premium) en mai 2025 sans modifier les tarifs, et les limites sont éparpillées entre l’app, Workspace, AI Studio et Search — trois environnements qui ne se transfèrent pas entre eux. Richesse fonctionnelle ≠ clarté d’usage. C’est le vrai problème de ce plan
Français
6
1
11
17.2K
Raphaël Valyi retweetledi
Guri Singh
Guri Singh@heygurisingh·
Holy shit... Microsoft open sourced an inference framework that runs a 100B parameter LLM on a single CPU. It's called BitNet. And it does what was supposed to be impossible. No GPU. No cloud. No $10K hardware setup. Just your laptop running a 100-billion parameter model at human reading speed. Here's how it works: Every other LLM stores weights in 32-bit or 16-bit floats. BitNet uses 1.58 bits. Weights are ternary just -1, 0, or +1. That's it. No floats. No expensive matrix math. Pure integer operations your CPU was already built for. The result: - 100B model runs on a single CPU at 5-7 tokens/second - 2.37x to 6.17x faster than llama.cpp on x86 - 82% lower energy consumption on x86 CPUs - 1.37x to 5.07x speedup on ARM (your MacBook) - Memory drops by 16-32x vs full-precision models The wildest part: Accuracy barely moves. BitNet b1.58 2B4T their flagship model was trained on 4 trillion tokens and benchmarks competitively against full-precision models of the same size. The quantization isn't destroying quality. It's just removing the bloat. What this actually means: - Run AI completely offline. Your data never leaves your machine - Deploy LLMs on phones, IoT devices, edge hardware - No more cloud API bills for inference - AI in regions with no reliable internet The model supports ARM and x86. Works on your MacBook, your Linux box, your Windows machine. 27.4K GitHub stars. 2.2K forks. Built by Microsoft Research. 100% Open Source. MIT License.
English
882
2.7K
15.4K
2.2M
Rima Hassan
Rima Hassan@RimaHas·
Devant des manifestants pro palestiniens à Nice, un passant simule une agression antisémite dés l’arrivée de la police. Quelle honte.
Français
3.3K
19.6K
91.4K
13.6M