Przemysław Skrzypek

220 posts

Przemysław Skrzypek

Przemysław Skrzypek

@brzewVCE

cybersec | local ai

Katılım Temmuz 2022
274 Takip Edilen10 Takipçiler
Przemysław Skrzypek retweetledi
Remek Kinas
Remek Kinas@KinasRemek·
Speakleash 🇵🇱, jak to mawiają chłopaki po godzinach, z pasji do AI, ponowie do przodu. 🦅 DFlash ⚡️⚡️⚡️ The best LLM building team w Polsce - oczywiście jestem niesprawiedliwy bo sam w nim jestem ale zaliczyliśmy kilka takich eksperymentów dostarczając coraz więcej udoskonaleń i przecierając nowe szlaki na polu adaptacji modeli do języka polskiego - wymiana tokenizacji, APT4, destylacja i pruning z teamem Nvidia, pierwszy duży RL (GRPO style), reasoning ... Tym razem Bielik DFlash ⚡️⚡️⚡️ Pierwszy (już do tego przyzwyczailiśmy) spekulacyjny dekoding do polskiego modelu. Zobaczcie jak zasuwa u mnie na Nvidia B200 - model 11B blisko 500 tokenów/sek (niekiedy więcej niekiedy mniej - miałem przypadki nawet powyżej 1000 tokenów/sekundę). Dwie wersje Bielik-11B-v3.0-DFlash (pokazane na video fp16 - na 7B będzie ... na fp8 ..... speed of light ) oraz Bielik-Minitron-7B-v3.0-DFlash. Tip: można uruchomić na fp8 :) będzie jeszcze oszczędniej i szybciej. Gratulacje team, gratulacje Chris Ociepa @ChrisOciepa , który z wielką cierpliwością prowadził ten projekt, wiele włożył w to pracy a rezultaty możecie dzisiaj odebrać instalując go lokalnie na własnym sprzęcie. Jak znajdzie się moc na większy model to będzie MOC - możecie się tego spodziewać. DFlash - głośno o nim od pewnego czasu. Zaadaptowany na SGLang, VLLM, wczoraj widziałem też news Nvidia o 15x przyspieszeniu inferencji na platformie Blackwell. Wprowadzony przez Z-Lab_ai. Jest to technika przyspieszania generowania tekstu przez LLM. Wykorzystuje spekulacyjne dekodowanie oparte na modelu dyfuzyjnym. Zamiast generować kolejne tokeny jeden po drugim, mały model „draft”, w tym przypadku Bielik-DFlash przewiduje cały blok przyszłych tokenów równolegle w pojedynczym przebiegu. Korzysta przy tym z ukrytych reprezentacji (hidden states) dużego modelu docelowego. Następnie duży model weryfikuje propozycje równolegle. Jeśli są zgodne z tym, co sam by wygenerował, cały blok zostaje zaakceptowany naraz. Dzięki temu zachowana jest dokładnie ta sama jakość i rozkład wyjściowy co w standardowym dekodowaniu (lossless) ale liczba wywołań dużego modelu znacząco maleje. Innowacją DFlash jest zastąpienie klasycznego autoregresyjnego „drafta” lekkim modelem dyfuzyjnym przewidującym całe bloki tokenów jednocześnie. To pozwala osiągać znaczne przyspieszenie inferencji. Przewyższa przy tym inne metody spekulacyjnego dekodowania, takie jak np. EAGLE-3
Polski
9
20
134
6.7K
Przemysław Skrzypek retweetledi
iShowCybersecurity
iShowCybersecurity@ishowcybersec·
😭
iShowCybersecurity tweet media
QME
45
493
8.5K
139.3K
Przemysław Skrzypek retweetledi
Carlo
Carlo@Italianclownz·
AMD enthusiasts and hardware users welcome to the ROCmFPX family. Github is now live. More experimental but possibly as stable as the ROCmFP4 branch. 👇 Quant for agents too! Testing and feedback is appreciated RDNA2 through current Theoretically * I only have the strix halo to test on right now * github.com/charlie12345/R…
English
2
11
54
2.9K
Przemysław Skrzypek retweetledi
Remek Kinas
Remek Kinas@KinasRemek·
Moja dzisiejsza prezentacja na Data Science Summit 2026. Enjoy! 41 slajdów o optymalizacji modeli.
Polski
5
10
127
8.5K
fabian
fabian@fabianstelzer·
a really strange behaviour I'm observing with many high end Chinese models is seemingly superfluous reasoning: e. g. when generating code, they will first write out the entire code in their reasoning traces which is so annoying. none of the other models do that. Why?
English
77
3
490
81.4K
Przemysław Skrzypek
Przemysław Skrzypek@brzewVCE·
@KinasRemek Ja mam wersje od Minisforum. Spoko zabawka, ale brak modeli w tym przedziale pamięci. Dwa urządzenia już ok. Na ten moment zdecydowanie bardziej polecam RTZ 5090 i postawić Qwen3.6-27B
Polski
0
0
1
348
Remek Kinas
Remek Kinas@KinasRemek·
Podobają mi się te krypto wiedzowe posty o tym, że prezes AMD weszła na scenę i zaorała Nano Nvidia pokazując urządzenie oparte na max+ pro 395. Pytanie czy ktoś z tych piszących ma dwa takie urządzenia i może je równocześnie porównać? To dwa inne urządzenia. Sorry za zakurzoną klawiaturę - dostaje się do nich zdalnie. U góry właśnie HP Z2 G1a Mini z AMD Ryzen AI Max+ PRO 395 128GB a na dole HP ZGX Nano G1n z GB10.
Remek Kinas tweet media
Polski
14
2
67
12.9K
Przemysław Skrzypek retweetledi
Remek Kinas
Remek Kinas@KinasRemek·
Do myślicie o gruuuuuuuuubasie? 🤣😂🤩👏🤣 Bielik 500B MoE jest też super 🇵🇱 tylko został zablokowany przez nasz rząd bo zagraża bezpieczeństwu chrabąszcza majowego.
Remek Kinas tweet media
Polski
23
3
152
9.4K
Przemysław Skrzypek
Przemysław Skrzypek@brzewVCE·
@Tono_Ken3 What would you recommend for 128gb? Playing with low quants od DS4 flash and Mimo 2.5 rn
English
1
0
1
204
TonoKen3🤖Local-LLM&Robot🏁とのけん3
もしもVRAM等量として192GBが使えたら 🥇Step-3.7-Flash (200B Q5-K_KL 🥈Nex-N2-Pro(400B A17B-IQ3_XXS) 🥈Minimax-M3 (430B IQ3_XXS Unsloth) ※Deepseek-V4-FlashはAPIでもちろん使ってますがDS4でも可 この辺りが激アツ。賢い! 私はStepベースで切り替えて使います。どれも良い。満足満足🚀
日本語
2
1
39
6.2K
Przemysław Skrzypek retweetledi
Sandro
Sandro@pupposandro·
You can now run @luceboxai engine in a container, with one image for every supported GPU. Until now the only way to run it was to build it yourself: clone the repo with its submodules, install uv, CMake and a CUDA toolkit, wait around 25 minutes while nvcc compiled kernels for six GPU architectures, then download the weights and figure out the right flags. None of that is hard ofc, but it is a lot of steps if you just want to try the server. There are now prebuilt images on GHCR, one for NVIDIA cards from the RTX 2080 Ti to the RTX 5090 and one for AMD starting with Strix Halo, so the whole thing becomes a pull, a mount and a docker run. Details below 🧵
Sandro tweet media
English
4
10
54
5.4K
Przemysław Skrzypek retweetledi
Carlo
Carlo@Italianclownz·
🔥 New ROCmFP4 updates pushed for ROCmFP4 Qwen3 / Gemma 4 / Step 3.7 — all running with MTP speculative decoding ROCm/HIP + Vulkan FP4 paths live Long-context tested on Strix Halo (up to 262K tokens) Targets RDNA2→current. Best validated on Strix Halo / RDNA3.5. AMD GPU owners — this one's for you 👇 github.com/charlie12345/r…
English
4
8
65
4.5K
Lotto
Lotto@LottoLabs·
Simple first pass evals with nex-n2-mini So far hangs with and beats Gemma 31b but it’s too early to be decisive Gotta test more real world and other moes
Lotto tweet media
English
10
4
143
38.2K
Lotto
Lotto@LottoLabs·
I’ve been watching this unreasonably often for reasons 👀
Lotto tweet media
English
23
7
177
11.3K
Przemysław Skrzypek retweetledi
Ahmad
Ahmad@TheAhmadOsman·
Opensource AI MUST WIN.
Ahmad tweet media
English
7
6
70
3.1K
Przemysław Skrzypek retweetledi
left curve dev
left curve dev@leftcurvedev_·
Summoning 🕯 🕯 🕯 🕯 🕯 Qwen3.7 Models 🕯 This week 🕯 🕯 🕯 🕯
English
21
29
581
35.4K
Przemysław Skrzypek retweetledi
antirez
antirez@antirez·
Took the good work of the communtiy of DwarfStar and consolidating the Strix Halo support. It looks very good. More QA in the next days and the final merge soon.
English
6
8
177
17.1K
Sandro
Sandro@pupposandro·
@luceboxai open frame preview, going under deep testing on @davideciffa's desk. RTX 3090 24GB going fast 💨 + AMD Strix Halo 128GB unified memory handling the bigger weights 🤝 Both interconnected in the same box. 152GB. What do you think would be the best model to run here?
Sandro tweet media
English
9
7
65
3.4K
Crown 👑
Crown 👑@ciruai·
Did you know your AMD Strix Halo has a dedicated processor just for AI? You can use it for an always on agent that doesn't impact your GPU/CPU I bench several model here : Lab.ciru.ai/npu
Crown 👑 tweet media
English
8
0
11
943
Przemysław Skrzypek
Przemysław Skrzypek@brzewVCE·
@barackomaba Downloading Q4_K_S rn. Nice of them to release GGUF as well so we don't have to wait for unsloth to release a working quant
English
0
0
1
14
Crown 👑
Crown 👑@ciruai·
This model looks amazing. Time to test! Specifically mentions AMD 395! THANK YOU FOR THE LOVE!
StepFun@StepFun_ai

⚡️ Step 3.7 Flash is here: The new frontier is agent efficiency. #1 ClawEval-1.1 (67.1), #1 SimpleVQA Search (79.2), #2 SWE-PRO (56.3), 95.3 on V* Python. Open weights under Apache 2.0. Built for agentic, coding, search, and multimodal workflows — balancing speed, cost, and reliable execution. - 400 TPS. 198B sparse MoE, ~11B active. 256K context, 3 reasoning levels. - Understands UIs, charts, docs, images — then writes code or calls tools to act on what it sees. - Web + visual search reaches further: more sources, deeper follow-up. - Reliable tool use — less drift, fewer broken toolcalls. 98%+ on τ²-bench across all difficulty levels. - Works with Claude Code, KiloCode, Hermes Agent, OpenClaw, and protocols like MCP. - Runs locally on Mac Studio M4 Max, DGX Spark, AMD AI Max+ 395. GitHub: github.com/stepfun-ai/Ste… HuggingFace: huggingface.co/stepfun-ai/Ste… GGUF: huggingface.co/stepfun-ai/Ste… ModelScope: modelscope.cn/models/stepfun… API: platform.stepfun.ai Blog: static.stepfun.com/blog/step-3.7-…

English
2
0
2
223
Przemysław Skrzypek retweetledi
StepFun
StepFun@StepFun_ai·
⚡️ Step 3.7 Flash is here: The new frontier is agent efficiency. #1 ClawEval-1.1 (67.1), #1 SimpleVQA Search (79.2), #2 SWE-PRO (56.3), 95.3 on V* Python. Open weights under Apache 2.0. Built for agentic, coding, search, and multimodal workflows — balancing speed, cost, and reliable execution. - 400 TPS. 198B sparse MoE, ~11B active. 256K context, 3 reasoning levels. - Understands UIs, charts, docs, images — then writes code or calls tools to act on what it sees. - Web + visual search reaches further: more sources, deeper follow-up. - Reliable tool use — less drift, fewer broken toolcalls. 98%+ on τ²-bench across all difficulty levels. - Works with Claude Code, KiloCode, Hermes Agent, OpenClaw, and protocols like MCP. - Runs locally on Mac Studio M4 Max, DGX Spark, AMD AI Max+ 395. GitHub: github.com/stepfun-ai/Ste… HuggingFace: huggingface.co/stepfun-ai/Ste… GGUF: huggingface.co/stepfun-ai/Ste… ModelScope: modelscope.cn/models/stepfun… API: platform.stepfun.ai Blog: static.stepfun.com/blog/step-3.7-…
StepFun tweet media
English
120
211
1.6K
343.6K
Temidaradev
Temidaradev@temidaradev·
AHHHHH I HATE DOCKER
English
14
2
72
2.7K