Arthur Sarazin

1.9K posts

Arthur Sarazin

@SrzArthur

IT, Governance and Design 🧐 | Ongoing designer of Le Graphe de Borges 📚

Paris, France Katılım Aralık 2015

354 Takip Edilen448 Takipçiler

Sabitlenmiş Tweet

Arthur Sarazin@SrzArthur·6 May

Statistics are just one face of reality.

English

4.3K

Arthur Sarazin@SrzArthur·9 Şub

Dans tous les lieux de débats, on parle indistinctement d'IA, d'Intelligence Artificielle et des IAs mais... ...ces termes recouvrent-ils la même chose ? Si oui, de quoi parlons-nous ? Si non, de quoi parlons-nous ? 🙃 👇 linkedin.com/pulse/lia-lint…

Français

Arthur Sarazin@SrzArthur·3 Şub

[Loin des LLMs, proche des reasoners] Le 6 janvier 2026, une solution totale au problème d'Erdos #728 a été trouvée, une nouvelle qui bouleversa le quotidien... ...de personne, et pourtant 👇 linkedin.com/pulse/d%C3%A9c…

Français

Arthur Sarazin@SrzArthur·1 Şub

Back on X with a new portfolio ! 👉arthursrz.github.io/portfolio/

English

Arthur Sarazin@SrzArthur·1 Şub

[Open is the new regret] Let's have a kind thought for all companies and organisation that looked down on open data... ...for today they wish LLMs and AI Agents would consume their data instead of making up probable (but not exact) information about themselves.

English

Arthur Sarazin@SrzArthur·8 Ara

If your idea is off the GenAI training data distribution chart, then you know you are on a really creative path ! @emollick

English

Arthur Sarazin@SrzArthur·18 Ara

@safehell Pour info : la vectorisation est extrêmement rapide sur Databricks, avec un petit modèle d'embeddings mais le calcul derrière sur ces vecteurs (cosine similarity par ex) trés long et coûteux. J'en ai jeté l'éponge.

Français

Arthur Sarazin@SrzArthur·5 Ara

@safehell Mmm, on m'a mis a dispo une instance Databricks. Je suis en train de tester.

Français

180

Arthur Sarazin@SrzArthur·5 Ara

Au risque de poser une question bête : est-il possible d'embedder des fichiers parquet sans sortir de #duckdb ?

Français

154

Arthur Sarazin@SrzArthur·17 Ara

@ThbPlg @FraySebastien ...qu'ils n'ont pas réussi à résoudre.

Français

Dr. S. Fray (Moyen Age) 🇺🇦 🟦@FraySebastien·16 Ara

Bon je suis sans doute super naïf. Mais comment des étudiants peuvent-ils utiliser l'IA pour rédiger des cr d'intervention de M2 venant présenter leurs travaux ? Les passages notés IA par compilatio sont les + personnels. Je ne comprends pas. Réécriture à partir de leurs notes ?

Français

45.2K

Arthur Sarazin@SrzArthur·17 Ara

@FraySebastien J'ai une autre réponse à t'apporter : le détecteur d'IA de Compilatio a renvoyé un "faux positif", très probable au regard des garanties catastrophiques offertes par l'entreprise et son soit disant modèle de détection. Fiable à 70 % au mieux selon des études scientifiques

Français

419

Arthur Sarazin retweetledi

Alexander Doria @ ICLR@Dorialexander·12 Ara

Oh yes. And this opens up many opportunities for massive RAG. It's very hard to maintain a big embedded collections while everything is data ready for a bm25 with query/document augmentation.

Baudouin@b_arbaretier

The overlooked truth about RAG in the LLM era: the query is just as important as the retrieval system. With BM25 and a solid query augmentation system, you can virtually retrieve anything.

English

1.3K

Arthur Sarazin@SrzArthur·12 Ara

@docteurbagarre Il te manque le TOEIC. Logique.

Français

Dr.Bagarre@docteurbagarre·10 Ara

3 Master et un doctorat. Je suis responsable des archives d'un établissement de recherche français d'environ 4000 personnes. Je gagne 2490 euros mensuels avant impôts.

Veve 🥷🏿@veleonaa

Coucou ! Vous êtes à quel niveau d’études et vous faites quoi comme métier actuellement ? +salaire svp

Français

552

155.3K

Arthur Sarazin@SrzArthur·12 Ara

@InfosReseaux Oui, d'où l'idée de commencer avec du connu (ontologie, noeuds de base) pour faire peut être de l'analyse de graphe et détecter des dépendances dangereuses, gap analysis, etc. Tu fais du query dans réseau, pas de génération. Puis pour le reste des simulations via LLM

Français

Infos-Réseaux.com@InfosReseaux·11 Ara

@SrzArthur Un début de réponse : les LLM ne sont pas le seul cas d'usage du SI. Ca détruirait beaucoup de chose pour un seul cas d'usage qui ne reprendrait pas tout le reste avec des risques importants (Regardes ce qu'il est arrivé à gifi juste sur un changement de CRM)

Français

Arthur Sarazin@SrzArthur·11 Ara

Réflexion tardive : si la gouvernance des données piétine parce qu'on ne peut savoir tout ce qu'il se passe dans un SI, et que les #LLMs naviguent dans des espaces latents, est ce que ça ne serait pas malin de concevoir un SI comme un espace latent ?

Français

Arthur Sarazin@SrzArthur·11 Ara

Qui a prompté Eric Sadin ?

Français

196

Arthur Sarazin@SrzArthur·10 Ara

Quelqu'un a t'il une solution (gratuite et open source) ?

Français

Arthur Sarazin@SrzArthur·10 Ara

Je découvre un vrai dilemme entre confidentialité et efficacité sur le traitement des données assistés via #LLM Si vous voulez traiter données via #LLM, il doit accéder aux données. Bye Bye la confidentialité. Si vous voulez que cela reste confidentiel, Bye bye #LLMs

Français

100

Arthur Sarazin@SrzArthur·8 Ara

" En fait, l'étude des machines à calculer nous en apprend plus sur le fonctionnement du cerveau que tous les procédés d'introspection. Telle la cocaïne. Vous êtes vous déjà flanqué une bonne ration de coco dans la veine ?" William S. Burroughs dans Le destin nu.

Français

Arthur Sarazin@SrzArthur·6 Ara

Je découvre l'interface de @databricks pour travailler avec des données via notebooks. Un chef d'œuvre.

Français

117

Arthur Sarazin@SrzArthur·5 Ara

@safehell J'ai un fichier parquet trés volumineux. Je cherche à appeler un modele d'embeddings qui tournerait sur une colonne de ce parquet. Pour l'instant je convertis mon parquet en dataframe. Ca marche sur des subsets mais ttop lents pour des gros fichiers (8 millions de lignes)

Français

137

Nabil Servais@safehell·5 Ara

@SrzArthur Heu c’est à dire ?

Français

Keşfet

@emollick @safehell @ThbPlg @FraySebastien @docteurbagarre @InfosReseaux @elonmusk @BarackObama