I re-ran a ridiculous number of local AI benchmarks on my suboptimal dual RTX 3090 setup this morning
I tested 100+ benchmark runs across LM Studio and llama.cpp.
Best 35B result:
llama.cpp 35B MTP: 99.45 tok/s
llama.cpp 35B non-MTP: 93.41 tok/s
LM Studio best 35B: 47.43 tok/s
So MTP does help the 35B model, but only with the right settings.
The magic setting was basically:
MTP draft max 2, not 4.
Draft 4 looked worse. Draft 2 unlocked the speed.
Simple takeaway:
MTP is not automatically faster.
The settings matter a lot.
llama.cpp was about 2x faster than LM Studio.
And yes, my janky dual-GPU setup still somehow got basically 100 tok/s at huge context.
@welt Das wurde doch schon in den den Tagesthemen offen propagiert:
Historisch einzigartiges Experiment - Verwandlung monokulturelle "Demokratie" in multiethnische
(Experimente mit der Bevölkerung!)
Diese Koalition wird halten und liefern, weil das unser Auftrag ist. Niemand hat uns zugetraut, dass wir gemeinsam mit der SPD so viel erreichen würden: Migrationswende, Umwandlung des Bürgergelds zur Grundsicherung, neuer Wehrdienst oder die Kehrtwende beim Heizungsgesetz!
Ich komme immer noch nicht darauf klar. Bärbel Bas, die ständig Hass und Hetze bekämpfen will und vor gesellschaftlicher Spaltung warnt, bezeichnet einfach die Deutschen als braunes Volk, das Migration zur eigenen Besserung bräuchte. Unglaublich.
Gerade die Debatte zum antragslosen Kindergeld im Bundestag verfolgt.
Die AfD weist als einzige auf das Missbrauchspotenzial hin und dass der deutsche Sozialstaat schon seit Jahren einen massiven Kindergeldbetrug durch ausländische Mitbürger zu verzeichnen hat, die zum Teil Kindergeld für Kinder ausgezahlt bekommen, die gar nicht existieren oder hier nur zum Schein angemeldet sind und dann in Bulgarien oder Rumänien komfortabel von den deutschen Kindergeldzahlungen leben. Dieses Problem ist keine rechtsextreme Verschwörungstheorie, sondern seit Jahren hinlänglich bekannt. Nun will man es also noch einfacher machen.
Und was passiert im Bundestag? Statt dass Problem anzuerkennen, wird der AfD von allen Seiten rechtsexteme Hetze unterstellt. Und zwar nicht nur von Linken, sondern auch von der CDU.
Man muss es einfach sagen, wie es ist: Die CDU ist nichts anderes mehr als der Mehrheitenbeschaffer für die Firlefanzpolitik linker Parteien, die mittlerweile auf noch weniger Stimmen als die Union kommen und deshalb auf sie angewiesen sind.
Das ist keine konservative Partei mehr.
I'm finally happy with my @UnslothAI unsloth/Qwen3.6-35B-A3B-MTP-GGUF, @no_stp_on_snek llama.cpp-turboquant, @_HermesAgent setup, @MajorFAFO params suggestions, and my own Rust/SQL/Hermes app.
- @ASUS, 32GB RAM, 8GB VRAM 5070 laptop
- MoE fully offloaded to CPU
- I've fiddled around with --no-mmap and mlock. It pegs my RAM to 95% instead of 45% and after it spins up, I don't see a difference.
--cache-type-k q8_0 \
--cache-type-v turbo3 \
-ot "\\.ffn_.*_exps\\..*=CPU" \
--spec-type draft-mtp \
--spec-draft-n-max 3 \
The video shows it has full hermes skills/toolset access easily, knows my system, can be creative, can print out a quick BASIC function, corrected itself when I told it that it was incorrect, and that it doesn't love me....
@Weltwoche Nein brauchen wir nicht.
Darüber hinaus ist es nicht Aufgabe einer Regierung, für "Vielfalt" zu sorgen! Insbesondere dann nicht, wenn das Volk nicht gefragt wurde und überwiegend dagegen ist.
SPD-Chefin Bärbel Bas: «Wir brauchen die Menschen, die zu uns kommen, auch für die Vielfalt in unserer Gesellschaft» #Echobox=1779424626" target="_blank" rel="nofollow noopener">weltwoche.de/daily/spd-chef…
TRUMP liest Migranten die Leviten❗️
„Ihr kommt aus völlig kaputten Ländern und dann meckert ihr und spielt euch als Opfer auf.
Solche Leute brauchen wir nicht. Wenn ihr unzufrieden seid, geht zurück und bringt euer eigenes Land erst mal in Ordnung!“
Qwen3.7-Max is live! 🚀
Introducing the latest proprietary model, built for advanced agentic coding, complex reasoning, and long-horizon execution. It’s here to transform how we approach complex tasks.
We're benchmarking every model, every quant, on every different hardware setup for every price point.
All developers, companies, and people will have access to local, open source intelligence.
Releasing soon.