Cyrina

1.4K posts

Cyrina banner
Cyrina

Cyrina

@Alcydane

Katılım Ağustos 2023
243 Takip Edilen47 Takipçiler
Cyrina retweetledi
Science girl
Science girl@sciencegirl·
In 1900, Paris’ Exposition Universelle featured a 3.5 kilometer wooden moving walkway, captured on film by Auguste and Louis Lumière.
English
60
798
6.6K
263.8K
Cyrina
Cyrina@Alcydane·
@Franck20270 @AcrobatJoe Peu importe le nom qu'on lui donne mais en tous cas, elle est centralisée, dirigée, protégée et planifiée scrupuleusement...
Français
1
0
0
56
ZEIGER Franck
ZEIGER Franck@Franck20270·
En trente ans nous avons autant régressé que la Chine a progressée. Quand les Chinois sortaient du communisme, nous y entrions ! Visite d'un hôpital de banlieue à Beijing : C'est propre, calme ... délai d'attente max à 1/2 heure ... A Bondy ou Montreuil (que je connais bien) : c'est sale, bordelique et les délais se comptent en heures. Mais qu'est qu'on a fait ...
ZEIGER Franck tweet mediaZEIGER Franck tweet media
Français
118
687
1.6K
40.1K
Cyrina retweetledi
Jordan Ross
Jordan Ross@jordan_ross_8F·
The founders who figure out OpenClaw in the next 90 days are going to look like geniuses in 2027. The problem is most agency owners don't have time to figure out the install, the security risks, where to start, or what to actually hand it first. So my team built a 48-page beginner's guide that does it for you. Inside: — The exact prompts to hand it on day one — Plain English setup for Mac and Windows — How to secure it so it doesn't burn your business down — 42 copy-paste workflows across sales, marketing, ops, and finance Your competitors are sleeping on this. Comment OPENCLAW and I'll send it.
The Startup Ideas Podcast (SIP) 🧃@startupideaspod

"OpenClaw is the new computer." — Jensen Huang This is the early PC era all over again. A few power users see it. Everyone else hasn't even started. "It's the most popular open source project in the history of humanity, and it did so in just a few weeks. It exceeded what Linux did in 30 years." A solo founder with OpenClaw can now build what used to take a 50-person team. The leverage is absurd.

English
3K
357
3.6K
528K
Cyrina retweetledi
Imtiaz Mahmood
Imtiaz Mahmood@ImtiazMadmood·
In a landmark medical technology milestone, a fully autonomous AI-powered robotic dentist — built by US company Perceptive — completed a full crown preparation on a human patient in just 15 minutes. The same procedure typically takes a human dentist 2–2.5 hours. The robot used real-time 3D scanning, AI decision-making, and a precision robotic arm to perform the entire procedure without any human guidance or intervention mid-surgery. This isn't a concept or prototype — it's already been performed on real patients and a peer-reviewed study was published in the Journal of Dentistry in January 2026. Experts say this is the beginning of a transformation: robotic dentists could eliminate human error, work at any hour, and eventually bring high-quality dental care to remote and underserved communities where trained dentists are unavailable. The dental office of 2035 may look very different from today's.
Imtiaz Mahmood tweet media
English
607
1.7K
8.2K
1.5M
Cyrina retweetledi
Camille Moscow 🇷🇺 🌿 ☦️
🌍 FRACTURE MONDIALE : LE SUD GLOBAL DÉFIE L’OCCIDENT 🚨 À l’ONU, Dominic Lee Tsz-king lâche une charge frontale violente : « Quelle autorité morale ont les États-Unis, un pays dirigé par le “clan Epstein” ? Quelle leçon de libertés donner par la Grande-Bretagne qui arrête ses propres citoyens pour des posts ? Et que valent les sermons de l’OTAN qui parlent droits humains tout en fermant les yeux sur Gaza ? » Dominic Lee dénonce un monopole moral de l’Occident en train de s’effondrer. D’un côté, un bloc qui se pose en juge universel. De l’autre, un Sud global qui rappelle ses contradictions, chiffres à l’appui — réduction massive de la pauvreté, souveraineté, refus des “leçons”. Ce discours n’est pas isolé : il incarne une bascule. Jamais la défiance n’a été aussi forte, jamais la rupture aussi assumée. 👉 Le monde ne se divise plus entre “démocraties et autocraties”… mais entre ceux qui imposent un récit — et ceux qui n’y croient plus.
Français
64
2.1K
4.7K
109.1K
Cyrina retweetledi
Arnault Chatel
Arnault Chatel@ArnaultChatel·
🇫🇷 @MistralAI vient de faire 4 annonces titanesques. Et personne n'en parle en France.(comme d'habitude) Les Américains, eux, ils sont en PLS. Alors permettez-moi de corriger ça. 1/ Small 3 → Small 4 Un modèle qui réunit TOUT le savoir-faire de Mistral. Open source. Gratuit. Mixture of Experts. Raisonnement + multimodal + code. Fenêtre de contexte XXL. Licence Apache 2.0 = ultra-permissive. C'est le nouveau champion de l'IA open source mondiale. 2/ Mistral rejoint la coalition Nemotron (NVIDIA) Aux côtés de Black Forest Labs, des meilleures boîtes IA open source de la planète. Un seul siège français dans cette coalition d'élite. Ce siège, c'est Mistral. 3/ LeanMistral Un modèle dédié aux preuves formelles : maths, sciences, raisonnement rigoureux. L'IA qui ne se trompe pas — et qui peut le prouver. Pour la crédibilité de l'IA en entreprise, c'est un game changer. 4/ Mistral Forge Fini le fine-tuning artisanal ou les bases de données séparées. N'importe quelle entreprise peut maintenant créer son propre modèle, entraîné sur ses données, verticalisé sur son métier. Des centaines d'IA hyper-spécialisées vont émerger. Elles auront toutes du Mistral dans les veines. L'avenir de l'IA, ce n'est pas forcément le plus gros modèle propriétaire derrière un paywall. C'est peut-être une IA open source, gratuite, partout, dans tous les logiciels et services — une vraie commodité technologique. Et le champion qui dessine cet avenir ? Il est français. Il s'appelle Mistral. Vous en pensez quoi ? #IA #AI #IAGen #LLMs #MBADMB #OpenSource #FrenchTech
Arnault Chatel tweet mediaArnault Chatel tweet mediaArnault Chatel tweet mediaArnault Chatel tweet media
Français
111
681
2.6K
210.4K
jl harlowe
jl harlowe@JHarlowe47738·
@OwenGregorian it's not a problem. Students using it to cheat only hurt themselves. They fail at life anyway. Serious students will naturally use it as a learning tool and learn more with its help.
English
1
0
0
261
Owen Gregorian
Owen Gregorian@OwenGregorian·
Professors Say AI Is Destroying Their Students' Ability to Think | Frank Landymore, Futurism Professors are fighting an uphill battle against the intrusion of AI into education, and it’s forcing them to rethink how they instruct their students, many of whom have already become hopelessly dependent on the tech. “It’s driving so many of us up the wall,” one told The Guardian in a new piece that interviewed more than a dozen professors in the humanities. “I now talk about AI with my students not under the framework of cheating or academic honesty but in terms that are frankly existential,” Dora Zhang, a literature professor at UC Berkeley said. “What is it doing to us as a species?” Alas, students looking for an easy “A” may not be interested in philosophical inquiries on how AI is fundamentally changing how we interact with the world and with each other — and indeed, according to a burgeoning body of research, how our brains work. One canary in the coal mine comes from a Carnegie Mellon study published in early 2025 that found that knowledge workers who regularly used and trusted the accuracy of AI tools were losing their critical thinking skills. An earlier study found a link between students who relied on ChatGPT and memory loss, procrastination, and worsening academic performance. And an MIT study that performed EEG scans on subjects who were asked to write essays with and without ChatGPT found that AI users had the lowest levels of cognitive engagement during the tasks. Working in the trenches, most professors, especially in the humanities, probably didn’t need formal research to tell them what those studies found, when they could easily intuit it by interacting with their pupils. Michael Clune, a literature professor and novelist, lamented to The Guardian that many students are now “incapable of reading and analyzing, synthesizing data, all kinds of skills.” Clune’s school, Ohio State University, recently required all students to enroll in “AI fluency” courses “across every major,” ostensibly to prepare them for a world that is dominated by the tech. Clune was critical of the push. “No one knows what that means,” he told newspaper. “In my case, as a literature professor, these tools actually seem to mitigate against the educational goals I have for my students.” OSU may be the most egregious example of capitulating to the whims of Big Tech, but the AI industry has its tendrils all across education. Companies like OpenAI and Microsoft have poured tens of millions of dollars into teachers’ unions, providing training on how to use their AI systems. They’ve also partnered with numerous institutions to provide their students with free access to their AI tools. Duke University, after entering such a partnership with OpenAI, introduced its own AI tool called “DukeGPT.” Abroad, xAI founder Elon Musk partnered with the government of El Salvador to launch the “world’s first nationwide AI-powered education program” to provide his Grok chatbot to a million students across thousands of public schools. “These companies are giving these technological tools away partly because they’re hoping to addict a generation of students,” Eric Hayot, a comparative literature professor at Penn State, told The Guardian. “This is part of every single class I teach now, talking to students about why I’m not using AI, why they shouldn’t use AI.” But pedagogues aren’t taking this sitting down. Some are now using oral interrogations and requiring handwritten notebooks, they told the paper. AgainstAI, a faculty-run initiative that advises professors on how to work around AI use, recommends giving assignments like oral exams, requiring students to show pictures of their notes, and paper journals. Some even dare to be optimistic. Several said they noticed more students pushing back or expressing more cynicism about AI tools. “I think the current crop of gen Z students are seeing that they are the guinea pigs in this giant social experiment,” Zhang said. “There’s kind of defeatism, this idea that there’s no stopping technology and resistance is futile, everything will be crushed in its path,” Clune added. “That needs to change… We can decide that we want to be human.” futurism.com/artificial-int…
Owen Gregorian tweet media
English
44
116
304
32.3K
Cyrina
Cyrina@Alcydane·
@OwenGregorian AI is the ultimate revealer. It forces us to rethink everything: from stupid memorization to mastery of questions, truth, and creative synthesis. Teachers who adapt become powerful coaches; those who can't think become obsolete and blame the tool.
English
0
0
1
54
Cyrina
Cyrina@Alcydane·
@Bitcoin_Teddy Just wait for another couple of years : robots will be your welders and electricians.
English
0
0
3
533
Bitcoin Teddy
Bitcoin Teddy@Bitcoin_Teddy·
Mike Rowe: “We’ve been telling kids for 15 years to learn to code.” “Well, AI is coming for the coders.” “It’s not coming for the welders, the plumbers, the steamfitters, the pipefitters, the HVAC, or the electricians.” “In Aspen, I sat and listened to Larry Fink say we need 500,000 electricians in the next couple of years—not hyperbole.” “The BlueForge Alliance, who oversees our maritime industrial base—that’s 15,000 individual companies who are collectively charged with building and delivering nuclear-powered subs to the Navy … calls and says, we’re having a hell of a time finding tradespeople. Can you help?” “I said, I don’t know, man … how many do you need? He says, 140,000.” “These are our submarines. Things go hypersonic, a little sideways with China, Taiwan, our aircraft carriers are no longer the point of the spear. They’re vulnerable.” “Our submarines matter, and these guys have a pinch point because they can’t find welders and electricians to get them built.” “The automotive industry needs 80,000 collision repair and technicians.” “Energy, I don’t even know what the number is, I hear 300,000, I hear 500,000.” “There is a clear and present freakout going on right now. I’ve heard from six governors in the last six months. I’ve heard from the heads of major companies.”
English
193
338
1.6K
686.5K
Cyrina retweetledi
Brainy Science
Brainy Science@BrainyScience·
🧬 Living Cells Just Became Quantum Machines — Seriously! Scientists have done the unthinkable: they turned a protein inside living cells into a quantum bit. This tiny biological qubit can sense super small signals, survive in warm environments, and bring quantum tech straight into life itself.Forget cold labs and fancy machines, nature is stepping into the quantum world. The big question is: what secrets of life will this unlock next?
Brainy Science tweet media
English
11
74
256
5.2K
Cyrina
Cyrina@Alcydane·
@AureaLibe J'adore ces hommes qui parlent de problèmes de femmes comme si ça les concernait...
Français
0
0
0
4
Aurea
Aurea@AureaLibe·
Je suis choqué par le nombre de femmes de mon entourage qui veulent faire congeler leurs ovocytes. J’ai l’impression que c’est devenu systématique. Hier encore, une amie trentenaire m’a dit qu’elle allait congeler les siens. Toutes se projettent d’avoir des enfants « plus tard ». Sauf que « plus tard », c’est quand exactement ? Congeler ses ovocytes ne garantit absolument pas de pouvoir le faire, et encore moins d’avoir des enfants plus tard. Ce n’est pas une assurance à 100 %. Même en congelant jeune (entre 29 et 37 ans), les chances de naissance vivante dépendent du nombre d’ovocytes obtenus, de leur qualité au dégel et surtout de l’âge de la femme au moment de la grossesse. Plus la grossesse arrive tard (après 40 ans, surtout après 43-45 ans), plus les risques augmentent considérablement : fausses couches, hypertension, prééclampsie, diabète gestationnel, complications cardiovasculaires pour la mère, bébé prématuré, faible poids de naissance, etc. Elles augmentent donc leurs chances d’avoir une grossesse à haut risque et, paradoxalement, diminuent leurs chances d’avoir un enfant en bonne santé. Depuis la loi de bioéthique de 2021 qui autorise et rembourse l’autoconservation non médicale (entre 29 et 37 ans), le nombre de demandes a été multiplié par dix en quelques années. En 2024, environ 15 000 femmes ont fait une demande d’autoconservation ovocytaire non médicale selon l’Assurance maladie, pour seulement 5 000 congélations effectives. Là est un autre gros problème : vouloir congeler ne garantit pas qu’une femme pourra le faire. Beaucoup de celles qui « voudraient » le faire ne se rendent même pas compte qu’elles n’en auront peut-être pas la possibilité. Les centres publics sont saturés, avec des délais d’attente qui peuvent dépasser plusieurs années (1 à 3 ans). La loi n’autorise la congélation que dans des établissements publics ou privés à but non lucratif. Les laboratoires privés à but lucratif ne peuvent pas soulager la demande. Plus on attend et plus on vieillit, moins les ovocytes sont de bonne qualité. Pourtant, quand je parle à celles qui veulent le faire (ou qui ont pu le faire), j’ai l’impression qu’aucune n’est vraiment informée des risques. Elles semblent toutes penser qu’il suffira de prendre un rendez-vous rapide pour congeler, puis d’avoir un enfant pile quand elles le voudront. Que « ça ira » quand elles seront prêtes. En attendant, elles n’en veulent pas maintenant. Elles avancent sur leurs projets professionnels, cherchent « le bon partenaire », voyagent, profitent de leur vie… Me direz-vous, elles font ce qu’elles veulent. Je suis d’accord et je n’ai aucun problème avec leur choix. Mais il faudrait vraiment faire plus de prévention sur le sujet. Certains laboratoires et influenceurs vendent ça comme une solution miracle, une sorte de « pilule de la fertilité » pour reporter la maternité sans conséquences. Alors que ce n’en est pas une du tout. Une grossesse peut être très lourde physiquement et émotionnellement, et de nombreux facteurs entrent en compte. Selon moi, il vaut mieux faire des enfants « quand on le peut », en bonne santé et pleine de vitalité, plutôt que de repousser l’échéance pour des raisons de confort et risquer de ne plus pouvoir enfanter du tout, ou d’avoir des complications graves. Pour certaines, ça fonctionnera bien, tant mieux. Mais pour d’autres, ça pourrait mal se passer, et elles n’ont pas vraiment conscience des limites réelles. Et ça, je trouve ça dramatique.
Français
48
31
226
30.2K
Cyrina retweetledi
Bülent DMK
Bülent DMK@im_bulent·
on est en train de vivre le même shift en robotique que celui qu’on a vécu en software. Linux a démocratisé les serveurs. Arduino a démocratisé l’électronique. Et maintenant, des projets comme Asimov1 démocratisent les HUMANOÏDES. C’est du vibe-engineering appliqué au HARDWARE. Rapide. Intuitif. Itératif. Et ça marche. C’est le modèle IKEA appliqué à la robotique humanoïde. Des pièces standardisées. Une notice. Un tournevis. Et de la patience. On vit dans le futur. Et le futur est open source.
Asimov@asimovinc

Asimov v0's assembly guide is coming next week. We're also open-sourcing the full body design for Asimov v1, including everything from the actuator list to simulation assets for training. Pre-order your DIY robot kit: asimov.inc/diy-kit

Français
8
116
802
91.5K
Cyrina retweetledi
Supersocks
Supersocks@iamsupersocks·
Depuis que je partage sur l'IA locale, une question revient en boucle : pourquoi le local plutôt que le cloud ? Il y a quelques jours je posais le cadrage : les gros modèles frontier comme Claude Opus restent les meilleurs pour le raisonnement complexe et pour tous les usages. Mais l'agent local joue un autre match. Le gros modèle écrit les instructions, le petit les exécute. Comme un développeur senior qui délègue à un junior. Et j'ajoutais : regardez qui alimente cet écosystème. Les labos chinois privés. Ils n'ont pas accès au marché cloud américain, alors ils publient tout en open source. L'innovation par le bas. Moonshot AI (l'équipe derrière Kimi) vient de publier exactement ce genre de brique fondamentale (6h plus tôt). Ça s'appelle Attention Residuals. C'est une amélioration de l'architecture même des modèles d'IA. Et c'est élégant. Décryptage. Mais d'abord, pour comprendre pourquoi c'est important, il faut comprendre comment fonctionne un modèle de langage. Je vais essayer de rendre ça digeste: pour moi, pour vous. Comment fonctionne un modèle de langage: La base. Tous les grands modèles actuels (GPT, Claude, Llama, Qwen, Kimi) reposent sur la même architecture : le Transformer. Inventé par Google en 2017, c'est devenu le standard universel. Avant ça, on utilisait des réseaux récurrents (RNN). Imaginez un lecteur qui lit un livre mot par mot et essaie de se souvenir de tout dans un seul post-it. Au bout de 500 pages, les premières phrases sont oubliées. Et comme il lit dans l'ordre, impossible d'accélérer la lecture. Le Transformer a changé la donne avec un mécanisme appelé "attention." Au lieu de lire mot par mot, le modèle regarde l'ensemble du texte d'un coup et décide quels mots sont importants pour comprendre chaque autre mot. C'est comme si au lieu de lire un livre page par page, vous aviez tous les mots étalés sur une table et pouviez tracer des lignes entre ceux qui ont un lien. Comment ça marche : pour chaque mot, le modèle calcule trois choses. 1/Une question -> "qu'est-ce que je cherche comme contexte ?" 2/ une étiquette -> "voilà ce que je propose comme contexte" 3/ une information ("voilà ce que je porte comme contenu"). Le modèle compare chaque question à toutes les étiquettes, identifie les meilleures correspondances, et récupère les informations associées. Résultat : chaque mot obtient une représentation enrichie par le contexte de tout le texte. Un Transformer empile des dizaines de couches de traitement. Chaque couche fait deux choses dans l'ordre : 1/ Un bloc d'attention : qui mélange l'information entre les mots. C'est la compréhension du contexte. 2/ Un bloc de calcul dense (appelé MLP) : qui transforme chaque mot indépendamment. C'est le "raisonnement" local, la digestion de l'information. Entre chaque bloc, il y a un mécanisme simple mais crucial : la connexion résiduelle. On prend ce qui entre dans le bloc, on prend ce qui en sort, et on additionne les deux. C'est comme garder une copie de sauvegarde à chaque étape : si le bloc n'apporte rien d'utile, l'information d'origine passe quand même. C'est ce mécanisme qui permet d'empiler beaucoup de couches sans que le signal se perde -> la colonne vertébrale de tous les modèles profonds depuis 2016. Et c'est exactement ce mécanisme, vieux de presque 10 ans, que Moonshot vient de repenser. Le problème caché des connexions résiduelles. Ces connexions additionnent les sorties de chaque couche avec un poids fixe de 1. Toujours le même. À chaque couche, on empile tout avec le même coefficient. Ça marche pour faire circuler les gradients (les signaux d'apprentissage). Mais ça crée un effet pervers. Imaginez une conversation à 100 personnes où chacune parle au même volume. Au bout d'un moment, le bruit de fond est tel que la personne qui a parlé en premier est inaudible. C'est exactement ce qui se passe dans un réseau profond : la contribution des premières couches se noie dans l'accumulation de toutes les suivantes. C'est ce qu'on appelle le problème de dilution. Conséquence : des chercheurs ont montré qu'on peut carrément supprimer des couches entières de certains modèles profonds sans perte significative. Ces couches ne contribuaient déjà plus vraiment au signal. Et les couches profondes, pour se faire entendre dans ce brouhaha, doivent apprendre à "crier plus fort" -> produire des sorties de plus en plus grandes. Ce qui gaspille de la capacité et peut déstabiliser l'entraînement. En résumé, trois problèmes concrets : > Pas de tri sélectif. Toutes les couches reçoivent le même mélange, alors que certaines auraient besoin d'informations différentes. > Perte irréversible. Une fois l'information mélangée dans le flux commun, impossible de la récupérer séparément plus tard. > Course au volume. Les couches profondes compensent en produisant des signaux de plus en plus forts, ce qui fragilise le système. L'analogie qui fait tout comprendre. Et c'est là que l'idée de Moonshot est brillante. -> Les réseaux récurrents (RNN) comprimaient toute une séquence de mots dans un seul vecteur, et ça posait problème. L'attention a résolu ça en permettant à chaque mot d'aller chercher directement dans tous les mots précédents. Moonshot observe que les connexions résiduelles font exactement la même erreur mais sur un axe différent. Au lieu de comprimer une séquence de mots, elles compriment une séquence de couches dans un seul état. Même structure, même limitation. L'attention a remplacé la compression séquentielle sur l'axe du temps (les mots). Attention Residuals remplace la compression séquentielle sur l'axe de la profondeur (les couches). Au lieu d'additionner aveuglément toutes les couches avec le même poids, AttnRes permet à chaque couche de choisir ce qui l'intéresse parmi toutes les couches précédentes, avec des poids appris qui dépendent du contenu. Chaque couche dispose d'un petit vecteur appris (une sorte de "profil de recherche") qui lui sert à interroger les sorties des couches précédentes. Les correspondances les plus pertinentes reçoivent un poids fort, les autres sont atténuées. Exactement comme l'attention fonctionne pour les mots, mais appliquée entre les couches du réseau Et comme un réseau a typiquement quelques centaines de couches (contre des millions de mots pour une séquence longue), le coût de calcul de cette attention "en profondeur" est négligeable. Ce que ça change concrètement. Avant de nous faire part de ces résultats Moonshot a intégré AttnRes dans Kimi Linear, leur modèle à 48 milliards de paramètres au total dont 3 milliards activés par requête (c'est un modèle dit "à experts" -> seule une fraction du réseau s'active pour chaque tâche, ce qui le rend très efficace). Entraîné sur 1 400 milliards de mots. Les résultats bougent sur trois axes : 1/ Le modèle apprend mieux. Sur les tests de mise à l'échelle (on entraîne des modèles de tailles croissantes et on mesure la progression), Block AttnRes (la version optimisée pour la production) atteint la même performance qu'un modèle classique entraîné avec 25% de puissance de calcul en plus. Autrement dit : pour le même budget de serveurs, le modèle est meilleur. 2/ Le signal reste propre. Dans le modèle classique, les couches profondes produisent des sorties 15 fois plus grosses que les premières: signe de la course au volume décrite plus haut. Avec AttnRes, les magnitudes restent bornées. Le système se régule. L'apprentissage se répartit mieux. 3/ Le modèle classique concentre les signaux d'apprentissage de façon disproportionnée dans les premières couches. AttnRes, grâce à la compétition entre sources (le mécanisme d'attention force les couches à se départager), distribue l'effort d'apprentissage de façon uniforme sur toute la profondeur. Sur les tests de performance concrets (Kimi avec la vieille brique vs Kimi avec la nouvelle brique) : > Raisonnement scientifique avancé (GPQA-Diamond, des questions niveau doctorat) : 36.9 → 44.4. C'est un bond de +7.5 points, énorme sur ce type de test. Mathématiques : 53.5 → 57.1. > Génération de code (HumanEval) : 59.1 → 62.2. > Connaissances générales (MMLU) : 73.5 → 74.6. > Raisonnement logique (BBH) : 76.3 → 78.0. Les gains les plus forts sont sur les tâches qui demandent de raisonner en plusieurs étapes logique, puisque c'est exactement là qu'un meilleur flux d'information entre couches fait la différence. Les couches profondes peuvent enfin aller chercher précisément ce dont elles ont besoin dans les couches intermédiaires, au lieu de recevoir une bouillie uniforme. Comment ça tourne en pratique : Block AttnRes. La version complète d'AttnRes (chaque couche regarde toutes les couches précédentes individuellement) est idéale en théorie mais pose un problème de mémoire à grande échelle : il faut stocker et transmettre les sorties de toutes les couches. Block AttnRes résout ça de manière élégante. Les couches sont regroupées en blocs (environ 8 en pratique). Dans chaque bloc, les sorties sont résumées en une seule représentation par addition classique. L'attention entre couches ne porte ensuite que sur ces 8 résumés, pas sur les centaines de couches individuelles. -> C'est comme résumer un livre en 8 chapitres plutôt que de relire chaque phrase : vous perdez un peu de granularité, mais vous gardez l'essentiel, et c'est 8 choses à consulter au lieu de 128. Le système de cache entre les étapes du calcul distribué élimine les transmissions redondantes. La stratégie de calcul en deux phases sépare ce qui peut être fait en parallèle (comparer les blocs entre eux) de ce qui doit être séquentiel (la progression à l'intérieur d'un bloc), puis fusionne les résultats proprement. Résultat pratique : moins de 4% de surcoût à l'entraînement. Moins de 2% de latence supplémentaire quand le modèle répond. C'est un remplacement direct des connexions résiduelles classiques : on change juste cette brique, le reste de l'architecture ne bouge pas. Les seuls paramètres ajoutés : un petit vecteur par couche et une normalisation. Négligeable. Moonshot vs DeepSeek : deux philosophies. Impossible de parler d'AttnRes sans mentionner mHC de DeepSeek, publié en janvier. Les deux partent du même constat : les connexions résiduelles classiques sont un goulot d'étranglement. Mais les approches divergent. DeepSeek (mHC) élargit le tuyau. Au lieu d'un seul flux résiduel, mHC en crée plusieurs en parallèle (typiquement 4) avec des règles mathématiques strictes pour que les signaux ne s'emballent pas en se mélangeant (des matrices dites "doublement stochastiques" en gros, le mélange conserve l'énergie totale, rien n'explose). Plus de bande passante informationnelle, avec des garde-fous de stabilité. Moonshot (AttnRes) ne touche pas à la largeur du tuyau. Il donne à chaque couche une lorgnette pour aller chercher exactement ce dont elle a besoin dans les couches précédentes. Élargir le tuyau vs donner des yeux. Deux philosophies. Le papier de Moonshot unifie les deux dans un cadre mathématique commun et montre quelque chose d'intéressant : toutes les variantes existantes (résidus classiques, réseaux à portes, mHC de DeepSeek) font en réalité de l'attention "linéaire" sur l'axe de la profondeur -> une version simplifiée. AttnRes fait de l'attention complète (softmax). C'est exactement la même différence qui a fait passer les modèles de séquence des RNN aux Transformers. Et sur l'efficacité : Block AttnRes obtient des performances comparables à mHC tout en consommant environ six fois moins de bande passante mémoire par couche. Parce qu'au lieu de maintenir 4 flux parallèles en permanence, il stocke juste 8 résumés de blocs et un petit vecteur par couche. Les surprises des tests comparatifs. Moonshot a testé plein de variantes pour comprendre ce qui marche et ce qui ne marche pas : > Les poids fixes entre couches (comme dans DenseFormer, un travail antérieur) n'apportent rien. Zéro amélioration par rapport au système classique. C'est la capacité de s'adapter au contenu qui fait toute la différence. > La fonction de normalisation compte. La version "compétitive" (softmax, où les poids somment à 1 ce qui force les couches à se départager) bat la version "indépendante" (sigmoid, où chaque poids est calculé isolément). Quand on alloue de l'attention, il faut un classement net, pas un "tout le monde a un peu." > Découper l'attention par groupes de dimensions (comme on le fait pour l'attention sur les mots avec les "multi-têtes") dégrade les résultats sur l'axe de la profondeur. Quand une couche est pertinente, elle l'est en bloc, uniformément. Pas besoin de la découper en morceaux. > Un vecteur de recherche qui dépend du contenu traité (au lieu d'un vecteur fixe appris) donne de meilleurs scores, mais le surcoût en calcul et la perte de parallélisme ne justifient pas le gain. Le vecteur fixe est le bon compromis. Conséquence architecturale : avec AttnRes, les modèles optimaux sont plus profonds et plus étroits qu'avec des résidus classiques. AttnRes exploite mieux la profondeur : logique, puisque c'est exactement ce qu'il améliore. Les poids appris par le modèle révèlent des choses intéressantes : chaque couche s'appuie surtout sur sa voisine immédiate (la localité reste le chemin principal), mais des "raccourcis" émergent naturellement vers des couches éloignées. Et le tout premier signal (l'encodage initial des mots) garde un poids significatif jusqu'aux dernières couches, surtout pour les blocs d'attention. Le réseau apprend tout seul à créer des ponts entre ses différents niveaux de traitement. Pourquoi ça compte pour le local et l'open source. Moonshot publie tout : le papier scientifique, le code, l'architecture. Comme DeepSeek. Comme Qwen (Alibaba). Chaque brique d'architecture ouverte qui rend les modèles plus efficaces bénéficie directement à l'écosystème local. Un modèle qui exploite mieux sa profondeur, c'est un modèle qui fait plus avec moins de paramètres activés. 3 milliards de paramètres activés sur 48 milliards au total, avec AttnRes, qui bat le modèle classique sur tous les tests. C'est exactement le profil de modèle qui tourne sur une machine grand public avec une bonne compression des poids. Les labos chinois n'ont pas accès au marché cloud américain. Alors ils publient les briques fondamentales que tout le monde peut utiliser. En Europe, le RGPD et le AI Act poussent les entreprises vers le traitement local des données. Les deux convergent. C'est comme l'énergie : d'un côté le nucléaire centralisé, coût d'exploitation lourd mais pérenne à l'échelle. De l'autre le décentralisé qui répond à des cas précis, tout aussi compétitif dans sa niche. Le cloud pour le raisonnement de pointe. Le local pour l'exécution spécialisée. Et les briques comme Attention Residuals rendent le local de plus en plus compétitif, une publication à la fois.
Kimi.ai@Kimi_Moonshot

Introducing 𝑨𝒕𝒕𝒆𝒏𝒕𝒊𝒐𝒏 𝑹𝒆𝒔𝒊𝒅𝒖𝒂𝒍𝒔: Rethinking depth-wise aggregation. Residual connections have long relied on fixed, uniform accumulation. Inspired by the duality of time and depth, we introduce Attention Residuals, replacing standard depth-wise recurrence with learned, input-dependent attention over preceding layers. 🔹 Enables networks to selectively retrieve past representations, naturally mitigating dilution and hidden-state growth. 🔹 Introduces Block AttnRes, partitioning layers into compressed blocks to make cross-layer attention practical at scale. 🔹 Serves as an efficient drop-in replacement, demonstrating a 1.25x compute advantage with negligible (<2%) inference latency overhead. 🔹 Validated on the Kimi Linear architecture (48B total, 3B activated parameters), delivering consistent downstream performance gains. 🔗Full report: github.com/MoonshotAI/Att…

Français
10
16
119
28.5K
Cyrina retweetledi
Daniel Faggella
Daniel Faggella@danfaggella·
the disruption caused by biped robots will go beyond the impending unemployment for plumbers and roofers, it seems
Daniel Faggella tweet media
English
36
20
201
16.8K
Sharbel
Sharbel@sharbel·
Here’s how likely your job is to be replaced by AI: (data from karpathy.ai/jobs, scored 1-10) plumber: 1/10 carpenter: 2/10 firefighter: 1/10 nurse: 2/10 surgeon: 2/10 personal trainer: 2/10 chef: 2/10 teacher: 5/10 software developer: 5/10 real estate agent: 5/10 marketing manager: 5/10 accountant: 7/10 lawyer: 7/10 financial analyst: 7/10 HR specialist: 7/10 customer service rep: 9/10 cashier: 9/10 receptionist: 9/10 bookkeeper: 9/10 data entry clerk: 10/10 the pattern: if your job is mostly "take info in, process it, give info out" you're cooked. 💀 if your job requires being physically present or earning human trust in person, you're fine. source: karpathy.ai/jobs
Sharbel tweet media
English
64
53
308
42.8K
Cyrina retweetledi
Silicon Carne
Silicon Carne@siliconcarnesf·
Je serai vous je jetterai un oeil à ce truc... Andrej Karpathy a scoré tous les jobs américains selon leur risque d’être transformés par l’IA… puis il a supprimé le repo. Le post est devenu viral. Elon a répondu. Les médias s’en sont emparés. Du coup quelqu’un a cloné tout le repo avant qu’il disparaisse : 342 métiers analysés, notés de 0 à 10 sur leur exposition à l’IA. Score moyen pour l’économie américaine : 5,3 / 10. Si ton travail se fait devant un écran, ça vaut peut-être le coup d’y jeter un œil. github.com/JoshKale/jobs
Silicon Carne tweet media
Français
18
49
290
57.1K
Cyrina retweetledi
Palli Thordarson
Palli Thordarson@PalliThordarson·
Proud with @UNSWRNA to have been involved & making the mRNA-LNP for Rosie. There are nuances here that the thread below misses but nevertheless, the intersection of RNA technology, genomic & AI poses an opportunity to change the way do medicine and make access more equitable 1/8
Greg Brockman@gdb

How AI empowered Paul Conyngham to create a custom mRNA vaccine to cure his dog’s cancer when she had only months to live. The first personalized cancer vaccine designed for a dog:

English
48
247
1.6K
213K
Cyrina
Cyrina@Alcydane·
@VraserX Freedom. “...all these bands were living on welfare! Take a bunch of working class kids, give them enough money for them to hang around and play together, and you get the Beatles. Where is the next John Lennon? Probably packing boxes in a supermarket somewhere.” D.Graeber
English
0
0
0
24
VraserX e/acc
VraserX e/acc@VraserX·
I’m genuinely curious. If AI and robotics eliminate most human labor and scarcity… what does daily life actually look like? What do people do with their time? What gives life meaning? How do you imagine a post-labor world?
English
410
14
240
42.1K
Evie Miessa
Evie Miessa@EvieMiessa·
VR simulations will be huge. People will be spending lots of time in different VR worlds like MMO games. Every major IP will have their own world - Star Wars, Marvel, The Elder Scrolls, Final Fantasy, Resident Evil etc. People will have "jobs" inside them too earning digital munny ..... 😂 I'm not sure about the physical world yet ..... VR is easier to imagine ..... 😼
English
2
0
5
121