road2DataEng

2.4K posts

road2DataEng banner
road2DataEng

road2DataEng

@Road2Coder

Data Engineer - AWS Certified Solutions Architect Discovering Maths, DBs, ML & DL

Bergabung Nisan 2023
295 Mengikuti152 Pengikut
road2DataEng
road2DataEng@Road2Coder·
@VincentVentalon Je lui ai quand même posé la question dans le doute 😅 question: Non, Claude Code n'utilise pas axios. C'est un outil CLI qui tourne en Node.js et communique avec l'API Anthropic via son propre SDK (@anthropic-ai/sdk), pas via axios.
Français
0
0
0
279
Vincent
Vincent@VincentVentalon·
axios? perso j'utilise claude code
Français
4
0
9
3K
road2DataEng
road2DataEng@Road2Coder·
@JmLesAlpaga @spideystreet @AnthropicAI Tu n'as pas tort, mais là en vrai ça se passe bien, je crame moins de tokens qu'hier et je galère un peu plus à atteindre la limite, je gère mieux le contexte et cible les scripts et tables que claude doit uniquement consulter + fichiers md de récap 👍
Français
1
0
0
32
road2DataEng
road2DataEng@Road2Coder·
@spideystreet @AnthropicAI Là je pense que c'est ma faute, j'ai fais des prompts avec des contextes énormes et ça a du cramer tous mes tokens. J'ai clear et suis passé sur Sonnet, ça a l'air mieux là. Mais l'heure joue aussi je pense
Français
2
0
0
120
𝑠𝑝𝑖𝑑𝑒𝑦
𝑠𝑝𝑖𝑑𝑒𝑦@spideystreet·
@Road2Coder @AnthropicAI le plan est vraiment plus du tout worth , déjà y’a quelques temps c’était pas ouf et j’me suis senti obligé de passer sur Max sinon inutilisable
Français
1
0
0
113
𝑠𝑝𝑖𝑑𝑒𝑦
𝑠𝑝𝑖𝑑𝑒𝑦@spideystreet·
Salut les gars. Avec mon équipe , on candidate au AI Health Hack organisé par @avec_alan x @MistralAI On build V.I.T.A.L , un assistant vocal connecté à ton app Santé et répond à tes questions sur tes propres données et en temps réel L'occasion d'intégrer les nouveaux modèles Voxtral TTS et Mistral Small 4 J’ai tenu à ce que le repo soit open-source du premier au dernier commit Si ça vous parle , go star le repo, c'est la meilleure façon de nous soutenir et ça nous boostera au max ! 🔽
𝑠𝑝𝑖𝑑𝑒𝑦 tweet media
Français
17
15
115
7.9K
road2DataEng me-retweet
DeuZa - ↑↑↓↓←→←→
Si vous avez du code non libre hébergé sur #Github et que vous ne souhaitez pas qu'il serve à entrainer l'IA #Copilot il va falloir faire un opt out ! On peut imager que tout ce qui est déjà en #CC0 ou #WTFPL est déjà utilisé et de toutes façons ... c'est du code publique. Concernant la license #GPL c'est autre chose, c'est en cours de jugement apparemment, mais préparez vous au futur changement des CGU imposant l'entrainement de Copilot en hébergeant une instance #Gitlab ou en contactant : .@bearstech qui savent très bien faire ça ! :)
DeuZa - ↑↑↓↓←→←→ tweet media
Français
2
9
13
2.8K
𝑠𝑝𝑖𝑑𝑒𝑦
𝑠𝑝𝑖𝑑𝑒𝑦@spideystreet·
@0xmaxou ma femme qui a réussi à me débarrasser de league of legends mais maintenant y’a claude ..
Français
3
0
14
1.5K
Max
Max@0xmaxou·
Si vous voulez savoir ce que ça fait de perdre votre copine, prenez Claude max avec un setup triple écran
Français
4
1
80
15.4K
Perseus
Perseus@PerseusLeGrand·
Je suis curieux : Citez une bataille historique qui vous vient immédiatement à l'esprit !
Français
1.6K
34
420
302.7K
road2DataEng
road2DataEng@Road2Coder·
@BrivaelFr Super intéressant ! Ca c'est de la vulgarisation ! 👍
Français
0
0
0
57
Brivael - FR
Brivael - FR@BrivaelFr·
Google vient de publier un papier qui compresse les LLMs à 3 bits. 8x plus rapide, 6x moins de mémoire. Zéro perte de performance 🤯🤯🤯 Le truc c'est que la méthode est élégante au point d'en être presque triviale une fois qu'on la comprend. Ça s'appelle TurboQuant. Je vous vulgarise tout le paper : Déjà, le problème de base. Quand un LLM génère du texte, il doit se "souvenir" de tout ce qu'il a lu et écrit avant. Ce système de mémoire s'appelle le KV cache (key-value cache). Imaginez un étudiant qui prend des notes ultra détaillées pendant un cours. Plus le cours est long, plus ses notes prennent de place sur son bureau. À un moment il n'a plus de place pour écrire. C'est exactement ce qui se passe avec les LLMs : plus le contexte est long, plus le KV cache explose en mémoire. C'est un des plus gros bottlenecks de l'inférence aujourd'hui. La solution classique c'est la quantization. L'idée est simple : au lieu de stocker chaque nombre avec une précision extrême (32 bits, genre 3.14159265...), tu le stockes avec moins de précision (4 bits, genre "~3"). C'est comme passer d'une photo RAW de 50 MB à un JPEG de 2 MB. Tu perds un peu de détail mais visuellement c'est quasi pareil. Le problème c'est que les méthodes classiques de quantization trichent un peu. Pour chaque petit bloc de données compressé, elles doivent stocker des "constantes de calibration" en pleine précision. C'est comme si pour chaque photo JPEG vous deviez garder un petit post-it en haute résolution à côté qui dit "voilà comment décoder cette image". Ces post-its rajoutent 1 à 2 bits par nombre. Quand tu essaies de compresser à 2 ou 3 bits, cet overhead représente une part énorme de ta mémoire totale. Ça annule une bonne partie du gain. TurboQuant résout ça en deux étapes. Étape 1 : PolarQuant. Au lieu de décrire un vecteur avec des coordonnées classiques (X, Y, Z), tu le convertis en coordonnées polaires : une distance + un angle. C'est comme remplacer "va 3 rues à l'est puis 4 rues au nord" par "va 5 rues direction 37 degrés". Même info, format plus compact. L'astuce c'est qu'avant de faire ça, tu appliques une rotation aléatoire sur tes vecteurs. Ça rend leur distribution prévisible et uniforme. Du coup tu n'as plus besoin de stocker les fameuses constantes de calibration, la géométrie fait le travail toute seule. Étape 2 : QJL (Quantized Johnson-Lindenstrauss). Après PolarQuant il reste une petite erreur résiduelle. QJL la corrige avec 1 seul bit par nombre. Le principe vient d'un théorème mathématique qui dit qu'on peut projeter des données de haute dimension dans un espace plus petit tout en préservant les distances entre les points. QJL pousse ça à l'extrême : il réduit chaque valeur projetée à juste son signe (+1 ou -1). Un seul bit. Et grâce à un estimateur spécial qui combine la query en haute précision avec ces données ultra compressées, le modèle calcule toujours des scores d'attention précis. Les résultats sont assez dingues. Sur les benchmarks long-context (LongBench, Needle in a Haystack, RULER...) avec Gemma et Mistral : zéro perte de performance à 3 bits. Le KV cache est réduit d'un facteur 6x. Et sur H100, le calcul des scores d'attention est jusqu'à 8x plus rapide qu'en 32 bits. Le tout sans aucun fine-tuning ou entraînement supplémentaire. Tu branches, ça marche. Et le plus intéressant : ça ne sert pas qu'aux LLMs. TurboQuant surpasse aussi les méthodes state of the art en vector search, c'est à dire la techno qui permet de chercher par similarité dans des bases de milliards de vecteurs (ce qui fait tourner Google Search, les systèmes de recommandation, le RAG...). Mon take : l'inférence c'est là où se joue la vraie bataille économique de l'AI. Les marges de toute l'industrie dépendent du coût par token en production. Un gain de 6 à 8x sur la mémoire et la vitesse d'inférence, sans aucune perte de qualité, ça change fondamentalement l'équation. Ce type de recherche ne fait pas de bruit sur Twitter mais son impact business est potentiellement supérieur à celui d'un nouveau foundation model.
GIF
Français
64
258
1.3K
144.2K
Kim Noël ⚡ 📖
Kim Noël ⚡ 📖@KimNoel399·
On dirait que @BetterCallMedhi s'est lâché sur Reddit : la réalité derrière les startups en France.
Kim Noël ⚡ 📖 tweet mediaKim Noël ⚡ 📖 tweet mediaKim Noël ⚡ 📖 tweet mediaKim Noël ⚡ 📖 tweet media
Français
90
276
1.5K
420.1K
road2DataEng
road2DataEng@Road2Coder·
@P5Lawrence Faut avouer que c'est ce qu'il y a de mieux à mettre en place : directement demander à être rappelé depuis le site et faire une confirmation à l'intérieur de son espace client, tout reste en interne
Français
1
0
0
4
ǝɔuǝɹʍɐʅ \o/ 🜃
ǝɔuǝɹʍɐʅ \o/ 🜃@P5Lawrence·
@Road2Coder Tu demande au service client de te rappeler Tu reçois le call, le conseiller a pas accès à tes détails Tu reçois un mail qui va te demander confirmer via le site que tu es bien à l'origine de la demande et que tu accordes l'accès au conseiller ou non
Français
1
0
1
12
road2DataEng
road2DataEng@Road2Coder·
Pour cette fin d'année 2024, je suis heureux de partager avec vous mon dernier petit projet nommé : dualConfirm ! Ca ne révolutionnera certainement pas le monde, mais ça a vraiment été cool de travailler dessus ☺️ Je vais en parler un peu plus en détail 🧵
Français
1
4
11
4.6K
road2DataEng
road2DataEng@Road2Coder·
@P5Lawrence C'est intéressant ça, je serais curieux de savoir ce qu'ils ont mis en place
Français
1
0
0
6
ǝɔuǝɹʍɐʅ \o/ 🜃
ǝɔuǝɹʍɐʅ \o/ 🜃@P5Lawrence·
@Road2Coder Amazon lors des appels du service clients a mis en place une fonction qui impose au client de confirmer ou infirmer si c'est bien lui qui et s'il est OK pour que le conseiller accède à ses info
Français
1
0
1
21
road2DataEng
road2DataEng@Road2Coder·
@P5Lawrence Mais complètement ! J'avoue qu'au début j'étais parti sur "mot-clé" puis "mot de passe" et en vrai 'code de sécurité" serait plus pertinent 👍
Français
0
0
0
4
road2DataEng
road2DataEng@Road2Coder·
@jdl288 @DrScratch @seblatombe Merci beaucoup de ta sensibilisation ! 🙏 Le repo est open source, l'idée est là, à eux de voir ce qu'ils peuvent en faire Même tout refaire à leur sauce, peu importe, tant que ça améliore la sécurité des clients
Français
0
0
1
6
Seb
Seb@seblatombe·
🔴 Piégée par un faux conseiller, elle perd 10 000€… BNP Paribas ne paiera pas Une cliente pensait être en ligne avec son conseiller bancaire après un appel affichant le numéro officiel de BNP Paribas. En réalité, il s’agissait d’un escroc qui l’a manipulée pour valider plusieurs opérations frauduleuses. Résultat : plus de 10 000€ envolés… sans remboursement. ➡️ Le tribunal estime qu’elle a commis des « négligences graves », malgré une fraude particulièrement crédible Les points clés : 👉 Plus de 10 000€ transférés aux fraudeurs 👉 Numéro spoofé identique à celui de la banque 👉 Validation d’opérations via codes de sécurité 👉 Responsabilité retenue contre la cliente 👉 Aucun remboursement imposé à BNP Paribas
Seb tweet media
Français
94
359
841
273.2K