Przemysław Skrzypek (@brzewVCE) - Twitter Profili

Przemysław Skrzypek retweetledi

Speakleash 🇵🇱, jak to mawiają chłopaki po godzinach, z pasji do AI, ponowie do przodu. 🦅 DFlash ⚡️⚡️⚡️ The best LLM building team w Polsce - oczywiście jestem niesprawiedliwy bo sam w nim jestem ale zaliczyliśmy kilka takich eksperymentów dostarczając coraz więcej udoskonaleń i przecierając nowe szlaki na polu adaptacji modeli do języka polskiego - wymiana tokenizacji, APT4, destylacja i pruning z teamem Nvidia, pierwszy duży RL (GRPO style), reasoning ... Tym razem Bielik DFlash ⚡️⚡️⚡️ Pierwszy (już do tego przyzwyczailiśmy) spekulacyjny dekoding do polskiego modelu. Zobaczcie jak zasuwa u mnie na Nvidia B200 - model 11B blisko 500 tokenów/sek (niekiedy więcej niekiedy mniej - miałem przypadki nawet powyżej 1000 tokenów/sekundę). Dwie wersje Bielik-11B-v3.0-DFlash (pokazane na video fp16 - na 7B będzie ... na fp8 ..... speed of light ) oraz Bielik-Minitron-7B-v3.0-DFlash. Tip: można uruchomić na fp8 :) będzie jeszcze oszczędniej i szybciej. Gratulacje team, gratulacje Chris Ociepa @ChrisOciepa , który z wielką cierpliwością prowadził ten projekt, wiele włożył w to pracy a rezultaty możecie dzisiaj odebrać instalując go lokalnie na własnym sprzęcie. Jak znajdzie się moc na większy model to będzie MOC - możecie się tego spodziewać. DFlash - głośno o nim od pewnego czasu. Zaadaptowany na SGLang, VLLM, wczoraj widziałem też news Nvidia o 15x przyspieszeniu inferencji na platformie Blackwell. Wprowadzony przez Z-Lab_ai. Jest to technika przyspieszania generowania tekstu przez LLM. Wykorzystuje spekulacyjne dekodowanie oparte na modelu dyfuzyjnym. Zamiast generować kolejne tokeny jeden po drugim, mały model „draft”, w tym przypadku Bielik-DFlash przewiduje cały blok przyszłych tokenów równolegle w pojedynczym przebiegu. Korzysta przy tym z ukrytych reprezentacji (hidden states) dużego modelu docelowego. Następnie duży model weryfikuje propozycje równolegle. Jeśli są zgodne z tym, co sam by wygenerował, cały blok zostaje zaakceptowany naraz. Dzięki temu zachowana jest dokładnie ta sama jakość i rozkład wyjściowy co w standardowym dekodowaniu (lossless) ale liczba wywołań dużego modelu znacząco maleje. Innowacją DFlash jest zastąpienie klasycznego autoregresyjnego „drafta” lekkim modelem dyfuzyjnym przewidującym całe bloki tokenów jednocześnie. To pozwala osiągać znaczne przyspieszenie inferencji. Przewyższa przy tym inne metody spekulacyjnego dekodowania, takie jak np. EAGLE-3

Polski

9

20

134

6.7K

Przemysław Skrzypek retweetledi

iShowCybersecurity@ishowcybersec·6d

😭

QME

45

493

8.5K

139.3K

Przemysław Skrzypek retweetledi

Carlo@Italianclownz·5d

AMD enthusiasts and hardware users welcome to the ROCmFPX family. Github is now live. More experimental but possibly as stable as the ROCmFP4 branch. 👇 Quant for agents too! Testing and feedback is appreciated RDNA2 through current Theoretically * I only have the strix halo to test on right now * github.com/charlie12345/R…

English

2

11

54

2.9K

Przemysław Skrzypek retweetledi

Remek Kinas@KinasRemek·5d

Moja dzisiejsza prezentacja na Data Science Summit 2026. Enjoy! 41 slajdów o optymalizacji modeli.

Polski

5

10

127

8.5K

Przemysław Skrzypek@brzewVCE·17 Haz

@fabianstelzer Can confirm with qwen and minimax models.

English

0

2

1.7K

fabian@fabianstelzer·17 Haz

a really strange behaviour I'm observing with many high end Chinese models is seemingly superfluous reasoning: e. g. when generating code, they will first write out the entire code in their reasoning traces which is so annoying. none of the other models do that. Why?

English

77

3

490

81.4K

Przemysław Skrzypek@brzewVCE·16 Haz

@KinasRemek Ja mam wersje od Minisforum. Spoko zabawka, ale brak modeli w tym przedziale pamięci. Dwa urządzenia już ok. Na ten moment zdecydowanie bardziej polecam RTZ 5090 i postawić Qwen3.6-27B

Polski

0

1

348

Remek Kinas@KinasRemek·15 Haz

Podobają mi się te krypto wiedzowe posty o tym, że prezes AMD weszła na scenę i zaorała Nano Nvidia pokazując urządzenie oparte na max+ pro 395. Pytanie czy ktoś z tych piszących ma dwa takie urządzenia i może je równocześnie porównać? To dwa inne urządzenia. Sorry za zakurzoną klawiaturę - dostaje się do nich zdalnie. U góry właśnie HP Z2 G1a Mini z AMD Ryzen AI Max+ PRO 395 128GB a na dole HP ZGX Nano G1n z GB10.

Polski

14

2

67

12.9K

Przemysław Skrzypek retweetledi

Remek Kinas@KinasRemek·15 Haz

Do myślicie o gruuuuuuuuubasie? 🤣😂🤩👏🤣 Bielik 500B MoE jest też super 🇵🇱 tylko został zablokowany przez nasz rząd bo zagraża bezpieczeństwu chrabąszcza majowego.

Polski

23

3

152

9.4K

Przemysław Skrzypek@brzewVCE·15 Haz

@Tono_Ken3 What would you recommend for 128gb? Playing with low quants od DS4 flash and Mimo 2.5 rn

English

1

0

1

204

TonoKen3🤖Local-LLM&Robot🏁とのけん3@Tono_Ken3·15 Haz

もしもVRAM等量として192GBが使えたら 🥇Step-3.7-Flash (200B Q5-K_KL 🥈Nex-N2-Pro（400B A17B-IQ3_XXS) 🥈Minimax-M3 (430B IQ3_XXS Unsloth) ※Deepseek-V4-FlashはAPIでもちろん使ってますがDS4でも可この辺りが激アツ。賢い！私はStepベースで切り替えて使います。どれも良い。満足満足🚀

日本語

2

1

39

6.2K

Przemysław Skrzypek retweetledi

Sandro@pupposandro·11 Haz

You can now run @luceboxai engine in a container, with one image for every supported GPU. Until now the only way to run it was to build it yourself: clone the repo with its submodules, install uv, CMake and a CUDA toolkit, wait around 25 minutes while nvcc compiled kernels for six GPU architectures, then download the weights and figure out the right flags. None of that is hard ofc, but it is a lot of steps if you just want to try the server. There are now prebuilt images on GHCR, one for NVIDIA cards from the RTX 2080 Ti to the RTX 5090 and one for AMD starting with Strix Halo, so the whole thing becomes a pull, a mount and a docker run. Details below 🧵

English

4

10

54

5.4K

Przemysław Skrzypek retweetledi

Carlo@Italianclownz·10 Haz

🔥 New ROCmFP4 updates pushed for ROCmFP4 Qwen3 / Gemma 4 / Step 3.7 — all running with MTP speculative decoding ROCm/HIP + Vulkan FP4 paths live Long-context tested on Strix Halo (up to 262K tokens) Targets RDNA2→current. Best validated on Strix Halo / RDNA3.5. AMD GPU owners — this one's for you 👇 github.com/charlie12345/r…

English

4

8

65

4.5K

Przemysław Skrzypek@brzewVCE·10 Haz

@LottoLabs What gguf are you running?

English

0

618

Lotto@LottoLabs·10 Haz

Simple first pass evals with nex-n2-mini So far hangs with and beats Gemma 31b but it’s too early to be decisive Gotta test more real world and other moes

English

10

4

143

38.2K

Przemysław Skrzypek@brzewVCE·9 Haz

@LottoLabs I gave up. Checking minimax doe

English

0

56

Lotto@LottoLabs·8 Haz

I’ve been watching this unreasonably often for reasons 👀

English

23

7

177

11.3K

Przemysław Skrzypek retweetledi

Ahmad@TheAhmadOsman·7 Haz

Opensource AI MUST WIN.

English

7

6

70

3.1K

Przemysław Skrzypek retweetledi

left curve dev@leftcurvedev_·8 Haz

Summoning 🕯 🕯 🕯 🕯 🕯 Qwen3.7 Models 🕯 This week 🕯 🕯 🕯 🕯

English

21

29

581

35.4K

Przemysław Skrzypek retweetledi

antirez@antirez·8 Haz

Took the good work of the communtiy of DwarfStar and consolidating the Strix Halo support. It looks very good. More QA in the next days and the final merge soon.

English

6

8

177

17.1K

Przemysław Skrzypek@brzewVCE·7 Haz

@pupposandro @luceboxai @davideciffa Damn! I returned my PCIe extender as it was bent the other way. I never thought i could just take off the halos clothes like that...

English

0

1

86

Sandro@pupposandro·7 Haz

@luceboxai open frame preview, going under deep testing on @davideciffa's desk. RTX 3090 24GB going fast 💨 + AMD Strix Halo 128GB unified memory handling the bigger weights 🤝 Both interconnected in the same box. 152GB. What do you think would be the best model to run here?

English

9

7

65

3.4K

Przemysław Skrzypek@brzewVCE·31 May

@barackomaba 𝗟𝗙𝗠𝟮.𝟱-𝟴𝗕-𝗔𝟭𝗕 would go hard

English

1

0

1

34

Crown 👑@ciruai·31 May

Did you know your AMD Strix Halo has a dedicated processor just for AI? You can use it for an always on agent that doesn't impact your GPU/CPU I bench several model here : Lab.ciru.ai/npu

English

8

0

11

943

Przemysław Skrzypek@brzewVCE·29 May

@barackomaba Downloading Q4_K_S rn. Nice of them to release GGUF as well so we don't have to wait for unsloth to release a working quant

English

0

1

14

Crown 👑@ciruai·29 May

This model looks amazing. Time to test! Specifically mentions AMD 395! THANK YOU FOR THE LOVE!

StepFun@StepFun_ai

⚡️ Step 3.7 Flash is here: The new frontier is agent efficiency. #1 ClawEval-1.1 (67.1), #1 SimpleVQA Search (79.2), #2 SWE-PRO (56.3), 95.3 on V* Python. Open weights under Apache 2.0. Built for agentic, coding, search, and multimodal workflows — balancing speed, cost, and reliable execution. - 400 TPS. 198B sparse MoE, ~11B active. 256K context, 3 reasoning levels. - Understands UIs, charts, docs, images — then writes code or calls tools to act on what it sees. - Web + visual search reaches further: more sources, deeper follow-up. - Reliable tool use — less drift, fewer broken toolcalls. 98%+ on τ²-bench across all difficulty levels. - Works with Claude Code, KiloCode, Hermes Agent, OpenClaw, and protocols like MCP. - Runs locally on Mac Studio M4 Max, DGX Spark, AMD AI Max+ 395. GitHub: github.com/stepfun-ai/Ste… HuggingFace: huggingface.co/stepfun-ai/Ste… GGUF: huggingface.co/stepfun-ai/Ste… ModelScope: modelscope.cn/models/stepfun… API: platform.stepfun.ai Blog: static.stepfun.com/blog/step-3.7-…

English

2

0

2

223

Przemysław Skrzypek retweetledi

StepFun@StepFun_ai·29 May

⚡️ Step 3.7 Flash is here: The new frontier is agent efficiency. #1 ClawEval-1.1 (67.1), #1 SimpleVQA Search (79.2), #2 SWE-PRO (56.3), 95.3 on V* Python. Open weights under Apache 2.0. Built for agentic, coding, search, and multimodal workflows — balancing speed, cost, and reliable execution. - 400 TPS. 198B sparse MoE, ~11B active. 256K context, 3 reasoning levels. - Understands UIs, charts, docs, images — then writes code or calls tools to act on what it sees. - Web + visual search reaches further: more sources, deeper follow-up. - Reliable tool use — less drift, fewer broken toolcalls. 98%+ on τ²-bench across all difficulty levels. - Works with Claude Code, KiloCode, Hermes Agent, OpenClaw, and protocols like MCP. - Runs locally on Mac Studio M4 Max, DGX Spark, AMD AI Max+ 395. GitHub: github.com/stepfun-ai/Ste… HuggingFace: huggingface.co/stepfun-ai/Ste… GGUF: huggingface.co/stepfun-ai/Ste… ModelScope: modelscope.cn/models/stepfun… API: platform.stepfun.ai Blog: static.stepfun.com/blog/step-3.7-…