Bertaux Florian

1.1K posts

Bertaux Florian

Bertaux Florian

@_LEFBE

Passionate about emerging technologies, cybersecurity (covering Red, Blue, and Grey teams), Artificial Intelligence, and software development.

Paris, France Katılım Nisan 2010
110 Takip Edilen42 Takipçiler
Sabitlenmiş Tweet
Bertaux Florian
Bertaux Florian@_LEFBE·
Ka1zen — chat with open LLMs 100% offline on your Mac. 🧠 Qwen, Gemma, DeepSeek, Mistral, Llama… 🖼 Vision · 🎙 Audio · 🌐 Web search 🎨 FLUX image generation · 📚 RAG 🔒 Zero cloud, zero telemetry Powered by Apple MLX. github.com/Flor1an-B/Ka1z…
Bertaux Florian tweet media
English
0
2
1
123
Bertaux Florian
Bertaux Florian@_LEFBE·
Excellent! Image editing with Klein2 and image generation with Qwen Image 2512 are successful. I'm finishing up some additional tests and will share them with you :) - Image editing integration with FLUX.2 [klein]. - Image generation with Qwen-Image-2512-8bit.
English
0
0
0
10
鸟哥 | 蓝鸟会🕊️
用苹果电脑跑本地大模型的人注意了,有个东西你们可能还不知道 Rapid-MLX,一个专门为 Apple Silicon 打造的本地 LLM 推理服务,核心就一句话——比 Ollama 快,而且快不少。 具体快多少?官方数据是 2-4 倍。背后用的是苹果自家的 MLX 框架,不是什么民间魔改,是真正吃透了 M 系列芯片架构的方案。 快在哪几个点: 1️⃣ KV 缓存裁剪加上 DeltaNet 状态快照,多轮对话的首 token 延迟压到了 0.08 秒左右,你懂这意味着什么,对话几乎感觉不到等待 2️⃣ 工具调用做了 17 种解析器,Qwen、DeepSeek、Gemma、GLM 这些主流模型直接自动识别格式,量化把输出搞坏了也能自动修回来,这个细节做得很扎实 3️⃣ OpenAI 兼容 API,Cursor、Claude Code、Aider、LangChain 统统能直接接,基本上你现在用什么工具链,切过来不用改代码 还有一些额外的东西:推理链分离、云端路由、视觉和音频多模态支持、V 缓存压缩,功能密度挺高的。 说白了就是,你有一台 M 系列 Mac,想在本地跑模型又嫌 Ollama 慢,那 Rapid-MLX 现在是最值得试的选项之一。 🔗 github.com/raullenchai/Ra…
鸟哥 | 蓝鸟会🕊️ tweet media
中文
44
111
633
58.2K
Bertaux Florian
Bertaux Florian@_LEFBE·
An example of image editing with Flux.2 and Ka1zen MLX. Not perfect, but not bad :)
Bertaux Florian tweet media
English
0
0
0
9
Bertaux Florian
Bertaux Florian@_LEFBE·
@songjunkr In Ka1zen, I addressed this issue by forcing the use of Web_search to retrieve today's date. At the very least, I get results for the current month; otherwise, they're up to date.
English
0
0
0
56
송준 Jun Song
송준 Jun Song@songjunkr·
DO NOT ASK AI ANYTHING ABOUT LOCAL LLM. They are not up to date. 😡 Q : what is optimal local llm for 3090 gpu? Gemini-3.1-pro : Qwen 2.5, Llama 3.1 GPT-Instant : Qwen3.6 35b, Qwen3 30b Sonnet-4.6 : Qwen3 14b, Qwen3.5 27b, Deepseek R1 Grok-Fast : Qwen3.5, Qwen3, GLM-4.7-Flash None of these are correct answer. Same results from Opus-4.7, Grok4.3, Gemini Deepthink. Only GPT5.5-PRO got the right answer : Qwen3.6-27b Now I know why people keep saying local LLM is stupid. 😮‍💨
송준 Jun Song tweet media송준 Jun Song tweet media송준 Jun Song tweet media송준 Jun Song tweet media
English
74
10
208
21.4K
Bertaux Florian
Bertaux Florian@_LEFBE·
@iraszl Qwen 3.6 27B for hard task, Qwen 3.6 35B A3B for day to day tasks (both 8bit) on my MBP M5 Max 128B
English
0
0
1
253
Ivan Raszl
Ivan Raszl@iraszl·
Thinking of running Local LLM on a new MBP? Here is the level of intelligence you can get with various memory configurations on open models: 🐹 16–24GB RAM → ≈ GPT-3.5 🐕 32–48GB RAM → ≈ higher-end GPT-3.5 🐅 64GB RAM → ≈ lower-end GPT-4 🐉 96–128GB RAM → ≈ mid-tier GPT-4 All still below newer GPT or Claude models.
Ivan Raszl tweet media
English
50
6
170
38.6K
Bertaux Florian
Bertaux Florian@_LEFBE·
@songjunkr Oh no, bad luck, normally a visit to the Apple Store, they will replace the machine and restore your data.
English
0
0
1
581
송준 Jun Song
송준 Jun Song@songjunkr·
맥북 프로 M5 max 128gb를 산지 일주일이 되었는데 고장났어요 화면에 빨간색 세로 줄이 생겼네요 🥲🥲
송준 Jun Song tweet media
한국어
36
0
79
19.2K
H. Linh /h-lin/
H. Linh /h-lin/@hlinhbuilds·
@songjunkr 결론적으로 대다수 사용자들에게 로컬 LLM은 아직 현실성이 떨어집니다.
한국어
2
0
1
902
송준 Jun Song
송준 Jun Song@songjunkr·
로컬LLM 많이 물어보는 질문 : AI Max+ 395 미니 PC를 사도 괜찮을까요? (Strix Halo, etc) - 128GB의 통합메모리이지만 저렴한 가격은 장점이 맞습니다. - 최대 256GB/s의 대역폭은 사용 시 많이 느립니다. (실제 사용시 200GB/s 정도 사용) - 128gb에 맞는 모델을 사용하면 10tok/s 수준입니다.
한국어
27
8
136
25.2K
Bertaux Florian
Bertaux Florian@_LEFBE·
@hlinhbuilds @songjunkr It all comes down to money and what you plan to use this on-premises LLM system for. If data privacy is a top priority, it’s a game-changer; if it’s just for requesting translations, the value is much lower. The money you invest versus what you get out of it
English
0
0
0
60
Bertaux Florian
Bertaux Florian@_LEFBE·
@songjunkr Actually, it really depends on the goal. If the goal is to get an LLM that works, then yes, it’s fine—slow, but fine. If it’s to have your own ChatGPT at home, it’s very limited. I’m not even talking about the code… which must be a nightmare.
English
1
0
0
1.6K
송준 Jun Song
송준 Jun Song@songjunkr·
새로운 오픈소스 모델을 어디에서 테스트하나요? : 저는 @ollama 의 $20 플랜으로 신규 모델들을 주로 테스트합니다. DS-V4, Kimi-K2.6, GLM-5.1같은 최신 모델들을 사용해볼 수 있습니다. 무료티어로도 테스트가 가능한것 같네요. 링크⬇️
송준 Jun Song tweet media
한국어
10
0
41
9.7K
Bertaux Florian
Bertaux Florian@_LEFBE·
@antirez I'm eager to try it out; I'm trying to download it via a mobile connection (I'm abroad) :)
English
0
0
0
88
antirez
antirez@antirez·
DeepSeek v4 Flash with *local inference* after 24h of playing with that: even with the 2 bit selective quantization GGUF, iti is the FIRST time I feel I have a frontier model running on my computer. This is *crazy*, and probably a much stronger change in the landscape than PRO.
English
46
104
1.8K
120.5K
Bertaux Florian
Bertaux Florian@_LEFBE·
Ka1zen v0.3.23–0.3.24 🚀 📸 Inline web images: "Show me 5 photos of Tokyo" → real DuckDuckGo photos in the chat 🗓️ Web search anchored to today's date with auto recency filtering 🌍 Multilingual smart routing: EN · FR · PT · ES · DE · IT ⬇️ github.com/Flor1an-B/Ka1z…
English
0
0
0
19
Bertaux Florian
Bertaux Florian@_LEFBE·
@songjunkr That’s why, with Ka1zen—the software I’m developing—I’m incorporating optimization features and always displaying the current date. This ensures that the information is up to date. github.com/Flor1an-B/Ka1z…
English
0
0
5
732
송준 Jun Song
송준 Jun Song@songjunkr·
로컬 AI 세팅 시 가장 첫번째로 해야하는 것 : 답변을 할때 웹검색을 적극적으로 하도록 세팅하여야 합니다. 27b 122b 정도의 작은 로컬모델들은 필요한 모든정보를 포함하고있지 않습니다. 로컬LLM에서 환각현상이 발생하는 가장 큰 이유입니다.
송준 Jun Song tweet media
한국어
12
26
347
15.2K
🏴
🏴@Dussyme·
Without GOOGLING?
🏴 tweet media
English
9.9K
264
4.2K
989.2K
Bertaux Florian
Bertaux Florian@_LEFBE·
@AureaLibe Fait une remontée /feedback et ping anthropic il analyseront la session
Français
0
0
1
29
Aurea
Aurea@AureaLibe·
Claude Code est toujours aussi idiot et Opus 4.7 n’y a rien changé. Je vais annuler mon abonnement. Vous avez quoi comme alternative open source crédible pour remplacer Claude Code et Opus ? Claude avoue lui-même faire les choix les plus rapides, malgré le fait que mon Claude md lui demande explicitement l’inverse. Anthropic l’a donc configuré pour consommer le moins possible, quitte à faire de mauvais choix. J’ai configuré mon Claude md pour toujours choisir l’architecture la plus robuste, même si c’est plus long en dev, que ça consomme plus de tokens et que c'est plus coûteux en infra. Pour m’en assurer, j’ai créé une simulation (en mode effort max). Je lui ai décrit une suspicion de goulot d’étranglement dans un système de workers avec plusieurs fonctionnalités (une action d’une feature A bloque B). Il a exploré le code et confirmé mon intuition : un pool de workers partagé entre tous les flows, sans isolation par feature. Il m’a proposé deux options : - Option A : des pools séparés à l’intérieur du même processus (plus simple à déployer) - Option B : des containers workers dédiés par flow, avec vraie isolation processus et scaling horizontal indépendant (plus robuste) Il a tagué l’option A comme « Recommandée » et l’option B comme alternative. Pourtant, mon Claude md et mes besoins d’architecture auraient dû le pousser vers l’option B. Quand je l’ai poussé et que je lui ai demandé pourquoi B ne serait pas mieux, il a instantanément sorti tous les arguments en faveur de B : profils de ressources très différents entre les flows, scaling horizontal asymétrique, isolation de crash, etc. Et il a avoué que B était objectivement le bon choix. Son raisonnement technique pointait vers B depuis le début, mais son réflexe de packaging a choisi A. Un arbitrage implicite déguisé en arbitrage explicite. Le pire c'est que l'option B a déjà du code fonctionnel implémenté sur la moitié des features. Je lui ai demandé pourquoi il avait fait ça alors que mon Claude md interdit explicitement ce comportement. Il a reconnu sans filtre le faire parce que ses règles internes l’y poussent et que son harness a une pression de fond vers la simplicité. Alors j’ai renforcé la règle dans mon Claude md. J’ai ajouté un anti-pattern explicite avec un exemple concret, et un format forcé qui oblige Claude à justifier par écrit pourquoi chaque alternative est écartée. L’idée étant de rendre le biais impossible à cacher. J’ai donc relancé exactement le même test sur un nouveau Claude, sans le contexte de la session précédente. Résultat : il a encore tagué l’option simple en « Recommandée ». Le biais est tellement profond qu’il trouve de nouvelles voies d’évasion à chaque couche de règle qu’on ajoute. Je trouve ça tout bonnement inadmissible. Même en mode effort max, Claude veut systématiquement prendre les décisions les plus rapides et les moins optimales. C’est super chiant, car quand on active le mode max, c’est justement parce qu’on veut consommer des tokens, pas en économiser. Et même en forçant, c’est fatigant à l’usage : à chaque session, Claude essaiera toujours de prendre le chemin le plus économe. Pour de la production, je trouve ça dangereux, car il ne recommande pas la meilleure solution, mais celle qui coûtera le moins cher à Anthropic. Une personne qui sait ce qu’elle fait et qui review chaque plan pourra se battre contre Claude forcer à prendre les bonnes décisions. Mais il faudra rester attentif. Par contre, tous ceux qui ne savent pas ce qu’ils font ou qui ne font pas attention auront du mauvais code. Et je trouve ça assez moyen. Le modèle paraît intelligent et performant au premier abord et dans les benchmarks, donc tout le monde se repose dessus. Tout le monde l’utilise car il est à la mode. Mais en réalité, il est complètement bridé et prend par défaut des décisions contestables. Le tout facturé 200 € par mois. Je pense que je vais me tourner vers des interfaces agentiques open source, car là c’est n’importe quoi. Pour ceux qui ont testé les solutions chinoises, ça vaut quoi face à Claude ?
Aurea tweet media
Aurea@AureaLibe

Claude Code est devenu inutilisable. En plus d’avoir des modèles devenus complètement idiots, l’infrastructure est catastrophique. Tous les jours des timeouts et des 500. Anthropic fait vraiment n’importe quoi. Ils feraient mieux d’arrêter de sortir des fonctionnalités à tout-va et de se concentrer sur la fiabilité du produit qu’ils vendent...

Français
76
13
129
78.2K
Bertaux Florian
Bertaux Florian@_LEFBE·
@antonioleivag Attention Qwen3.6 27B est un Ultra Dense, en gros presque le modèle natif, il est prévu pour le code. Si tu souhaites de la vitesse, il te faut utiliser un modèle MoE.
Français
0
0
0
50
Antonio Leiva
Antonio Leiva@antonioleivag·
Pues eso, que aunque un modelo quepa en la RAM, si tarda 30s en contestar que está bien, entonces no está bien 😅 Qwen 3.6-27B es muy buen modelo, pero difícil de usar en un entorno con recursos relativamente limitados (MB Pro M5 Pro 64GB)
Antonio Leiva tweet media
Español
41
4
96
18.2K
Bertaux Florian
Bertaux Florian@_LEFBE·
Ka1zen 0.3.14 + 0.3.15 🛠 - Model Manager redesigned: architecture, params, quant, fit, est. t/s, filters, favourites. - Generation stats now persist across conversation switches. - Local. Free. Apple Silicon. ↓ github.com/Flor1an-B/Ka1z…
English
0
0
0
14