loop

@loopbobb

加入时间 Şubat 2022

37 关注0 粉丝

loop@loopbobb·25 Mar

@freelulul @ce_zhang Oh, I see. Thank you!

English

Zongze Li@freelulul·25 Mar

@loopbobb @ce_zhang CUDA graphs are only used for puredecode steps; when prefill tokens are present, the scheduler automatically falls back to eager mode for that iteration. Once the append-prefill completes, subsequent steps resume CUDA-graphed pure decode

English

Zongze Li@freelulul·23 Mar

My first PhD work: "Not All Prefills Are Equal" Prefill-Decode disaggregation is the standard for LLM serving. But for multi-turn conversations, it re-transfers the entire KV cache every turn. We found a better way! Thanks for my amazing advisor @ce_zhang and collaborators!

English

135

12.5K

loop@loopbobb·24 Mar

vibe coding的魔力就是配额不用完不想结束，可是国内的推理速度实在是太慢了，那个最高档位我感觉没法用完，速度上就达不到。

中文

loop@loopbobb·13 Eyl

留个记录语言模型的推理大概率linear的混合模型就够了，不需要各种稀疏，即使是NSA也没有解决kv存储数据量暴增的问题视频生成模型反而需要NSA 各种training free的稀疏量化最终会被pretraining干掉

中文

loop@loopbobb·20 Ağu

推理真的需要用torch的nn.Module吗？

中文

loop@loopbobb·14 Ağu

Ascend NPU上的大模型推理框架还是太难用了，用于科研的nano框架更是没有，计划先实现一个CPU上的Qwen0.6B的推理框架，然后移植到NPU上 github.com/BangBOOM/nano-…

中文

loop@loopbobb·17 Oca

最近在思考一个问题就是现在开源大模型评测效果越来越好，是不是数据集的质量在提升，而不是稍微改了改模型结构带来的提升以及对模型结构的修改其实是为了适配infra

中文

loop@loopbobb·7 Tem

🚙🚗

QME

loop@loopbobb·24 May

成功给领导种草了@logseq 然后在领导的推荐下好几个其他同事也在用logseq记录管理工作

中文

loop@loopbobb·18 Ağu

Finally logseq begins to change it’s UI

Logseq 🪵@logseq

Logseq 0.9.14 just dropped! We've overhauled the sidebars, making it easier than ever to manage information. But what we're most excited about? Smart Merge for Logseq Sync! Say goodbye to sync conflicts and hello to block-level syncing. See 👇 for more details of the changes.

English

216

发现

@freelulul @ce_zhang @logseq @elonmusk @BarackObama @taylorswift13 @cristiano @BillGates