Julian Hamann

3.2K posts

Julian Hamann

Julian Hamann

@jhamann93

Do Only Good Everyday https://t.co/5WTq1d0x0S

Hannover, Deutschland Katılım Ocak 2021
7.5K Takip Edilen262 Takipçiler
Julian Hamann retweetledi
Logan Kilpatrick
Logan Kilpatrick@OfficialLoganK·
Introducing Gemma 4, our series of open weight (Apache 2.0 licensed) models, which are byte for byte the most capable open models in the world! Gemma 4 is build to run on your hardware: phones, laptops, and desktops. Frontier intelligence with a 26B MOE and a 31B Dense model!
Logan Kilpatrick tweet media
English
246
446
4.8K
235.7K
Julian Hamann
Julian Hamann@jhamann93·
@TheZachMueller @casper_hansen_ How do you benchmark token/s with regards to speculative decoding? I had quite different results with synthetic workloads vs. Python coding with the latter being much faster due to the code being very predictable.
English
0
0
0
13
Zach Mueller
Zach Mueller@TheZachMueller·
@casper_hansen_ I’m open to whatever people want. See what I did with nemotron for a peek at how extensive I’m trying to be. But there’s more in the works (just may come at a cost of won’t get out with everyone on day-0, which is okay
English
1
0
0
174
Casper Hansen
Casper Hansen@casper_hansen_·
every inference engine should have a section in their docs with exact commands to achieve best possible tokens/s on the most popular models i'm told kimi k2.5 can run at 300 tokens/s on B200s if you run nvfp4 with speculative decoding in open-source
English
19
7
200
13.8K
Julian Hamann retweetledi
Matt Harrison
Matt Harrison@__mharrison__·
For my friends who are still using UV and might be a little weary about recent compromises to PyPi packages, stick this in your pyproject.toml. You can let all of those pip users find and report the compromises...
Matt Harrison tweet media
English
66
496
4.1K
280.7K
Julian Hamann
Julian Hamann@jhamann93·
@bnafOg @bnjmn_marie In my understanding there is no reason at all to run anything larger than 8 bit in production inference. The accuracy loss from 16 to 8 is basically non-existent.
English
0
0
2
69
Bnaf.OG | 🟧
Bnaf.OG | 🟧@bnafOg·
@bnjmn_marie Interesting flip side: the 9B in FP16 already fits in 8GB — no quantization needed. The 27B INT4 lands in the same VRAM envelope but with notably stronger reasoning on hard tasks. Worth profiling whether the quality delta justifies the extra inference latency for your workload.
English
2
0
4
2.2K
Benjamin Marie
Benjamin Marie@bnjmn_marie·
You can shrink Qwen3.5 27B by roughly 3x with little to no meaningful accuracy loss.Both INT4 and NVFP4 perform very well. The model fits largely at full context on an RTX 5090, and around 32k tokens on an RTX 4090 or 3090. Accuracy of quantized Qwen3.5 models: kaitchup.substack.com/p/qwen35-quant…
Benjamin Marie tweet media
English
16
17
331
21.8K
Benjamin Marie
Benjamin Marie@bnjmn_marie·
@sweinoid Yes for nemotron. 2 for Qwen3.5. I only followed the recommendations and didn't try to tune them.
English
2
0
2
194
Benjamin Marie
Benjamin Marie@bnjmn_marie·
Nemotron 3 Super is the fastest ~120B model. But mostly thanks to MTP it seems, which is very well supported by vLLM for this model in particular. For Qwen3.5 122B NVFP4 models, community-made, I got a lot of MTP issues: incompatibility, memory leaks, ... For Mistral Small 4, an EAGLE model is available for speculative decoding, but vLLM fails to run it with the NVFP4 checkpoint. Full results, including accuracy and inference throughput under heavy workload, will be published on my blog Monday (link in bio)
Benjamin Marie tweet media
English
6
3
49
4.4K
Benjamin Marie
Benjamin Marie@bnjmn_marie·
The B200 with NVFP4 Qwen3.5 MoEs: ❌vLLM -> giberrish generator ❌SGLang -> cudaErrorIllegalAddress I guess I'll have to try 2x RTX Pro 6000 (not even sure it'll work)
English
5
0
17
2K
Rui Carmo ☯️
Rui Carmo ☯️@rcarmo·
@badlogicgames I actually got requests for the ability to install on a bare system (I should have called this the YOLO edition), and I was annoyed at the package structure, so why not break both things at once? :)
English
1
0
4
335
Julian Hamann retweetledi
Mario Lopez
Mario Lopez@mariolopezviva·
AWESOME
Mario Lopez tweet media
English
366
3.3K
44.8K
3.4M
Mario Zechner
Mario Zechner@badlogicgames·
who here will be a AI Engineer London in April? I'm ready to have more pub visits.
English
36
0
97
10.1K
Julian Hamann
Julian Hamann@jhamann93·
@sparbuchfeinde @Jojo_ge1 Wäre mir da nicht so sicher. Wenn Immobilienkredite noch unbezahlbarer werden, fällt dauerhaft viel Nachfrage weg. Dann hat man eher viel Inflation und stagnante Immopreise.
Deutsch
3
0
1
259
sparbuchfeinde
sparbuchfeinde@sparbuchfeinde·
@Jojo_ge1 Immobilien sind zwar immobil. Aber Schuldner würden massiv von hohen Inflationsraten profitieren. Kredite werden entwertet. Häuserpreise steigen. Größtes Risiko dabei sind staatliche Eingriffe und weitere Abgaben für Immobilieneigentümer.
Deutsch
4
0
24
2K
sparbuchfeinde
sparbuchfeinde@sparbuchfeinde·
Die Welt steuert auf eine historische Energiekrise zu. Deutschland könnte global als größter Verlierer daraus hervorgehen. > 3. größte Industrienation der Welt > Automobil & Chemieindustrie dominierend > extreme Abhängigkeit von fossilen Rohstoffen > grundlastfähige Energie nur über Kohle & Gas Die hohen Energiekosten relativ zu anderen Ländern waren bei niedrigen Weltmarktpreisen für Öl und Gas bereits ein massiver Bremsklotz für unsere Wirtschaft und sämtliche Neuinvestitionen. Bei hohen Weltmarktpreisen für Öl und Gas sind sie kein Bremsklotz mehr, sondern führen dazu, dass deutsche Produkte auf dem Weltmarkt praktisch unverkäuflich werden. Das Ganze trifft auf einen Binnenmarkt, in dem der politische Fokus der letzten 20 Jahre stets darauf lag Energie über Steuern & Abgaben weiter zu verteuern. 75% der Deutschen heizen mit Öl und Gas. 85% aller Autos in Deutschland werden von Diesel- bzw. Benzin-Motoren betrieben. Im Sommerurlaub fliegt man gerne in den Süden. Der Preis für Jet Fuel ist seit dem Ausbruch des Irankriegs um 60% gestiegen. Den Deutschen geht schlicht das Geld für Konsum aus. Am Ende bleiben eigentlich nur zwei bzw. drei Optionen: 1.) Der Krieg endet zeitnah und Energiepreise normalisieren sich zügig. Mittlerweile wird dies als unrealistisch angesehen. Zu viel relevante Energieinfrastruktur wurde nachhaltig zerstört. 2.) Deutschland legt bei der Energiepolitik eine 180 Grad Wende hin. Steuern & Abgaben drastisch reduzieren, Kernkraftwerke reaktivieren, Fracking in Niedersachsen, Russland-Sanktionen aufheben. 3.) Wir laufen in eine Wirtschaftskrise historischen Ausmaßes. Massive Wohlstandsverluste und Massenarbeitslosigkeit. Wie seht ihr das Ganze?
Deutsch
122
122
1.3K
49K
Julian Hamann retweetledi
Techaktien
Techaktien@Techaktien1·
Der gierige Staat sagt, der gierige Ölkonzern sei das Problem. Linke und Grüne klatschen.
Techaktien tweet media
Deutsch
93
223
2.7K
70.3K
Erik Bernhardsson
Erik Bernhardsson@bernhardsson·
GTC is basically a bunch of drug addicts begging drug dealers for supply if you replace drugs with GPUs.
English
5
5
118
9.3K
Julian Hamann retweetledi
Georg Pazderski
Georg Pazderski@Georg_Pazderski·
NATO REAGIERT❗️ RUTTE: „Ich stehe in Kontakt mit vielen Verbündeten. Die Meerenge muss geöffnet werden … Die Verbündeten arbeiten daran die beste Vorgehensweise zu ermitteln.“ RUTTE versteht genau, dass es um die Sicherheit Europas geht - MERZ NICHT!
Deutsch
248
241
2.1K
73.8K
Julian Hamann
Julian Hamann@jhamann93·
@DSPyOSS @Dropbox This post is really good. Do you know of any similar content that might not be known to everyone?
English
0
0
0
27
DSPy
DSPy@DSPyOSS·
@Dropbox thanks for writing this! it will be quite informative for the community
English
1
0
23
2K
Dropbox
Dropbox@Dropbox·
How we used DSPy to turn our relevance judge into a measurable optimization loop, making it more reliable and scalable in Dropbox Dash.
English
11
50
238
101.6K