القائد التقني🔰

17.6K posts

القائد التقني🔰 banner
القائد التقني🔰

القائد التقني🔰

@LeTechLead

مهندس برمجيات Software Engineer with an interest in AI, video games and Japanese language 日本語

vmbr0 Katılım Aralık 2020
818 Takip Edilen1.2K Takipçiler
stableAPY.hl
stableAPY.hl@stableAPY·
I got a new RTX 3090 coming in the mail today let's finally try vllm with tensor parallelism to see what 35B and 27B can give
English
5
0
20
1K
القائد التقني🔰
turns out, mtp is not all good (2x3090s | q3.6-q8 | lcpp-mtp): Prefill (tokens/sec) | Depth | PP | Non-MTP | MTP | |------:|----:|--------:|----:| | 8k | 128 | 2191 | 1296 | | 8k | 512 | 1990 | 1205 | | 8k | 2048 | 1923 | 1177 | | 8k | 8192 | 1964 | 1166 | | 32k | 128 | 1884 | 1080 | | 32k | 512 | 1806 | 1056 | | 32k | 2048 | 1755 | 1041 | | 32k | 8192 | 1718 | 1010 | | 64k | 128 | 1570 | 905 | | 64k | 512 | 1521 | 890 | | 64k | 2048 | 1501 | 880 | | 64k | 8192 | 1472 | 857 | MTP is ~40-42% slower on prefill across all configs. Decode (tokens/sec) | Depth | TG | Non-MTP | MTP | |------:|----:|--------:----:| | 8k | 32 | 27.4 | 72.5 | | 8k | 128 | 27.5 | 64.5 | | 8k | 512 | 27.5 | 55.3 | | 32k | 32 | 26.0 | 59.5 | | 32k | 128 | 26.0 | 55.0 | | 32k | 512 | 26.0 | 43.5 | | 64k | 32 | 24.4 | 59.4 | | 64k | 128 | 24.5 | 55.9 | | 64k | 512 | 24.5 | 44.9 | MTP is 2-2.7x faster on decode — speculative drafting pays off. TTFT (ms) | Depth | PP | Non-MTP | MTP | |------:|----:|--------:----:| | 8k | 128 | 3,798 | 6,421 | | 8k | 8192 | 8,318 | 14,131 | | 32k | 128 | 17,592 | 30,465 | | 64k | 128 | 41,858 | 72,590 | MTP adds ~70% TTFT overhead — prefill is slower due to extra MTP head compute
HT
0
0
1
132
Mass
Mass@MemoryReboot_·
@LeTechLead Great option, about $1200 in my country But that would mean buying another two 3090s 🤗
English
1
0
1
100
Mass
Mass@MemoryReboot_·
Update on dual 3090 bottleneck saga I was wrong about PCIe being the main problem. People in the replies pushed back, I tested more, here's the results: 1) Yes, my second GPU is stuck on PCIe 3.0 x1 because of cheap B760 board. But that's not the only issue 2) Three commenters pushed back saying memory bandwidth is the real bottleneck, not PCIe. One has PCIe 4.0 x8/x8 setup 3) Speed depends on what you generate: - Short answers ~75 tok/s - Long code files ~50 tok/s Even though acceptance rate is higher on long output TLDR: it's a stack of bottlenecks, PCIe x1 + memory bandwidth + MTP acceptance ceiling No single upgrade fixes it all New mobo will definitely help, RTX 6000 Pro helps more 😀
Mass@MemoryReboot_

Tested TGP scaling on my dual 3090, 250-350W in 10W steps Expected the classic playbook, power up > tok/s up, sweet spot somewhere in the middle But got something different Setup: Qwen3.6-27B AWQ via vLLM, MTP=4 Results: 250W → 75.14 tok/s 290W → 75.67 tok/s 350W → 75.61 tok/s Zero change across 100W range 🤯 So I checked clocks under load: 150W → GPU clock 915-1095 MHz, 75 tok/s 350W → GPU clock 1935-1950 MHz, 75 tok/s Almost 2x the clock speed, same throughput This connects directly to my earlier PCIe test, second card sits on PCIe gen3 x4 through the B760 chipset, doing reduce at 13% of theoretical bandwidth If you're running dual GPU on a consumer chipset with x16/x4 split, your power limit might be doing nothing, just down it to 150W, nothing will change That was the last test on this mobo, time to upgrade my rig I guess this kind of content is needed too, since a lot of people are just buying their first GPU and slapping it into their PC

English
6
2
18
2.9K
송준 Jun Song
송준 Jun Song@jun_song·
LLMs coming this week : > Qwen3.7 max ✅ > Qwen3.7 27b/35b > Minimax M3.0 > Gemini 3.5 Pro/Flash > GPT-5.6 > Sonnet-4.8❓ > Kimi/GLM ❓ It’s a big week.
English
75
88
1.4K
68.8K
Lotto
Lotto@LottoLabs·
I’m not going to become a qwen ambassador 😭
English
13
0
59
2.4K
الدب نت ALDOBnet
تذكير ان لكزس ES الجديدة جايه اكبر حجماً من السابق بعد الغاء LS اصبحت ES سفير و ممثل شركة لكزس
العربية
34
9
200
133.5K
Lotto
Lotto@LottoLabs·
@keennay If we get an open source Claude model I’ll give away both my 3090s
English
16
1
39
1.2K
AZIZ 💳
AZIZ 💳@aziz_credit·
هل معقولة تركيا صارت أغلى من أوروبا؟! ساندويتش الشاورما في اسطنبول وصل سعره فوق 30 ريال ‼️ وانا ليلة الكروز عند ميناء كيل في المانيا 🛳️ 🇩🇪 تقطعت بي السبل ورحت شريت ساندويتش شاورما بـ 25 ريال بس للأمانة المطعم نظيف وكان افضل خيار متاح @tawfir_ayman لو درى عن هالشاورما يمكن يتضارب معي
AZIZ 💳 tweet mediaAZIZ 💳 tweet mediaAZIZ 💳 tweet mediaAZIZ 💳 tweet media
ماجد الفهد@MajedAlFahad

الشاورما بـ 33 ريال مع العصير هل تغيرت عليك الأسعار يا صديقي ؟ تسأل عن رأيي ؟ أقول لك الأمور طيبة حتى الآن يالله لك الحمد

العربية
31
6
46
108.4K
عبدالملك الصقيه
يقول ابي حنيفة: معاشرة الأضداد تفتت الأكباد. من الحكمة ان لا تخالط كثيرًا اهل صنعتك، لان نادرًا ما يكتب القبول بينكما. الأضداد:- يعني الناس اللي تتنافس في نفس مجالك. وش رايكم ؟
العربية
26
22
252
38.8K
Lotto
Lotto@LottoLabs·
Man there’s just so much work
English
4
0
20
805
القائد التقني🔰
@aesashamikh الهدف هو جعل الرياض كنيويورك او طوكيو ولكن التنظيمات من نيودلهي لا تؤهل الان بدأوا يصدرون تنظيمات تساعد البشر لكن السرعة مازالت عُشر سرعة تطوّر المدينة والأعمال فيها يعني فيه ناس كثير بتروح بين الرجول لين مايتحرك الديناصور وينفّذ تنظيماته
العربية
0
0
4
832
Dr.Aesa.a Alshamekh
Dr.Aesa.a Alshamekh@aesashamikh·
#حقيقة_مؤلمة: أن السكن في مدينة الرياض تملكا اوأجارا ،أصبح يهدد مستقبل صغار الموظفين السعوديين وأسرهم ،في القطاعين العام والخاص. حيث أن رواتبهم لاتمكنهم من شراء مسكن، ولا أجار شقة متوسطة. حيث بلغ اجار اغلب الشقق ما يقارب 60 الفا. فالذي راتبه الشهري 5000 -6000 آلاف ريال تذهب للسكن، وهم الاغلبية.. فماذا عن المصاريف الأخرى.!؟! لقد حان الاوان لسرعة معالجة الوضع لحماية استقرار الموظفين وأسرهم. واقترح: -إما أن تتحمل جهات العمل في القطاعين العام والخاص إسكان موظفيها. - وإما بناء او شراء جهات العمل في القطاعين سكنا لموظفيها السعوديين وتقسيطها عليهم بخصم نسبة من رواتبهم . -توزيع الاستثمارات والتنمية على مناطق السعودية ومدنها حسبما يلائمها ،لعدم حصر الأعمال والوظائف في منطقة او مدينة واحدة، للتخفيف من تكاليف الحياة على الموظفين وأسرهم، وتخفيف الزحام في المدن الكبرى وما يسببه من مشاكل..الخ ..
العربية
164
249
864
153.7K
القائد التقني🔰 retweetledi
أ.د.فهد الخضيري
تحذير ‼️: لا تعمل تحليل الحمض النووي DNA لوراثتك ولا قبيلتك ولا أسرتك وتهدي خريطتك الجنينية ومعلوماتك الجينية لشركات تحليل الينات والتي ستبيعها خلال السنوات القادمة لشركات الأدوية، هذا الانكشاف الجيني ( معلوماتك الجينية) والوراثية فيه خطورة عليك وعلى كل من يحمل جيناتك ومعلوماتك الجينية، كشف وفضح خصوصية وأسرار الجينات البشرية فيها مخاطر شديدة ومنها 1- ان الاتجاه القوي الان نحو التخصص الجيني للادوية والعلاجات( وسيكون احتكاراً للادوية) ، 2- عندما تعمل قبيلةA أو قوميةX تحاليل جينية ( حمض نووي) لإفرادها فإن هناك احتمالات خطيرة لاستهداف تلك القبيلة او القومية او الاسرة ببعض الأمراض التي تستهدف جين معين او حمض نووي معين خاص بهم دون غيرهم. 3- ومع حسن النية فقد يكون سعر دوائكم وعلاجاتكم انتم كقبيلة او قومية باهض الثمن او قد يتم حجبه كنوع من الحرب البيولوجية والاستهداف البشري. 4- ستكون انت وقومك وبيئتك منكشفاً لهم وقد يكون هناك تحكم طبي نفسي اجتماعي اقتصادي دوائي. 5- وكذلك التوارث الجيني والتميز ( أو عكسه) سواء في الذكاء أو الغباء او الندوة والتعليم والخصوصية الاجتماعية والوراثية لك وبني قومك ستكون بيد شركات تحليل الجينات …. وللحديث بقية
العربية
530
1.6K
5.8K
1M
Lotto
Lotto@LottoLabs·
@Youssofal_ If they don’t I’m flying to China
English
4
0
20
13.5K
Georgi Gerganov
Georgi Gerganov@ggerganov·
llama.cpp adds MTP for the Qwen3.6 family This is a significant milestone for the local AI ecosystem. The performance jump with these changes is massive and elevates local inference on commodity hardware further. Special thanks to Aman Gupta for leading this development! github.com/ggml-org/llama…
English
48
181
1.2K
257K