loop

11 posts

loop

loop

@loopbobb

Tham gia Şubat 2022
37 Đang theo dõi0 Người theo dõi
Zongze Li
Zongze Li@freelulul·
@loopbobb @ce_zhang CUDA graphs are only used for puredecode steps; when prefill tokens are present, the scheduler automatically falls back to eager mode for that iteration. Once the append-prefill completes, subsequent steps resume CUDA-graphed pure decode
English
1
0
0
21
Zongze Li
Zongze Li@freelulul·
My first PhD work: "Not All Prefills Are Equal" Prefill-Decode disaggregation is the standard for LLM serving. But for multi-turn conversations, it re-transfers the entire KV cache every turn. We found a better way! Thanks for my amazing advisor @ce_zhang and collaborators!
English
5
9
135
12.5K
loop
loop@loopbobb·
vibe coding的魔力就是配额不用完不想结束,可是国内的推理速度实在是太慢了,那个最高档位我感觉没法用完,速度上就达不到。
中文
0
0
0
7
loop
loop@loopbobb·
留个记录 语言模型的推理大概率linear的混合模型就够了,不需要各种稀疏,即使是NSA也没有解决kv存储数据量暴增的问题 视频生成模型反而需要NSA 各种training free的稀疏量化最终会被pretraining干掉
中文
0
0
0
16
loop
loop@loopbobb·
推理真的需要用torch的nn.Module吗?
中文
0
0
0
15
loop
loop@loopbobb·
Ascend NPU上的大模型推理框架还是太难用了,用于科研的nano框架更是没有,计划先实现一个CPU上的Qwen0.6B的推理框架,然后移植到NPU上 github.com/BangBOOM/nano-…
中文
0
0
0
22
loop
loop@loopbobb·
最近在思考一个问题就是 现在开源大模型评测效果越来越好,是不是数据集的质量在提升,而不是稍微改了改模型结构带来的提升 以及对模型结构的修改其实是为了适配infra
中文
0
0
0
18
loop
loop@loopbobb·
🚙🚗
loop tweet medialoop tweet media
QME
0
0
0
22
loop
loop@loopbobb·
成功给领导种草了@logseq 然后在领导的推荐下好几个其他同事也在用logseq记录管理工作
中文
0
0
0
53