鸭雀无声

774 posts

鸭雀无声

鸭雀无声

@NullGives

Katılım Nisan 2021
91 Takip Edilen137 Takipçiler
西乔 XiQiao
西乔 XiQiao@recatm·
没想到设计这么紧凑。NVIDIA DGX Spark 华硕版。128G统一内存,GB10体系,支持NVFP 4。3500美刀,个人训练实验的最佳玩具。可以联4台。
西乔 XiQiao tweet media西乔 XiQiao tweet media
中文
36
24
301
96.4K
鸭雀无声
鸭雀无声@NullGives·
@zhimin_zhang @recatm prefill速度还是spark更快,特别是长上下文情况下。高并发情况下目前也是英伟达更胜一筹
中文
1
0
0
34
鸭雀无声
鸭雀无声@NullGives·
Blackwell桌面端GPU (Spark, 5090, Pro 6000) 的硬件限制导致对NVFP4的支持很残废。NVFP4在这些GPU上的性能还不如FP8,未来软件能否弥补还未知。目前优势只有省显存了。所以冲着NVFP4买这些的最好先了解一下,特别是Spark,大模型太慢,小模型又没必要FP4。当然我自己是很喜欢Spark的,但和FP4没关系
鸭雀无声 tweet media
virushuo@virushuo

犹豫了好久pro6000/ai395/dgx spark 最后选了dgx。主要看中Blackwell架构,nvfp4。这样本地做实验和集群互操作方便,性能反而不是最重要的,性能好也好不过集群了。nv的生态真是护城河,想了半天就没什么可跟它竞争的,凡是认为它不如xxx的就说明你并不需要它,那也很合理…

中文
2
1
1
901
鸭雀无声
鸭雀无声@NullGives·
@aliez_ren 能跑,但性能比FP8差,所以除非是为了跑更大的模型,不然还是优先FP8
中文
1
0
0
56
Aliez Ren
Aliez Ren@aliez_ren·
@NullGives 跑起来了,但速度很慢,只有 llama.cpp 的 1/3 左右😇
中文
1
0
0
293
Aliez Ren
Aliez Ren@aliez_ren·
跑本地大模型真令人上瘾,从最开始的用 LM Studio,Ollama,改为使用 llama.cpp,使用 Unsloth 量化的 GGUF。再到 vLLM,SGLang,KTransformers 都摸索了一遍,然后发现目前的工具其实对于 RTX 5090 (sm120) 的 FP4 支持的都不太好,虽然能运行 4bit 量化模型省显存,但都还无法利用原生 FP4 硬件加速。虽然都是 Blackwell 架构,但服务器上的 B200 和家用的 RTX 5090 区别很大,最终走向了自己修改编译 SGLang 的道路。
Aliez Ren tweet media
中文
34
37
371
50.9K
鸭雀无声
鸭雀无声@NullGives·
@aliez_ren 噢对,是那个K开头的人量化的,我第一张截图上有的
中文
2
0
0
1.6K
Aliez Ren
Aliez Ren@aliez_ren·
@NullGives 感恩,我去试试。再问下 huggingface 上的模型你用的是哪个呀
中文
1
0
1
1.7K
鸭雀无声
鸭雀无声@NullGives·
@GeekerCHO @aliez_ren 是的,带宽是硬伤,但还没榨干呢。因为在Spark上跑更大的而且是FP8的Qwen3-Next-80B-A3B-Instruct都能跑到50t/s,所以NVFP4在软件层面肯定还有优化空间的
中文
0
0
0
93
鸭雀无声
鸭雀无声@NullGives·
@aliez_ren 最新版的vllm已经把很多patch加进去了,5090上镜像我用vllm-openai:nightly,Qwen3.5一开始跑不起来,然后让Claude写了一个patch,Claude给的注释是:Patches modelopt.py to exclude layers that should remain BF16, and patches qwen3_5.py to handle any remaining size mismatches
中文
2
0
20
50K
鸭雀无声
鸭雀无声@NullGives·
更进一步说,其实我们用什么载体来描述一个数学结构(比如群)根本不重要。无论是书里的公理,软件里的字母公式,只要底层结构一致就行。这就好比哥德尔在证明不完备性定理时,直接用数字来表示公理和推导过程一样。符号只是给人类看的,剥离了人类中心主义的视觉习惯,数学的本质就只剩下纯粹的结构了
中文
0
0
3
112
鸭雀无声
鸭雀无声@NullGives·
在数理逻辑里,本质上是这一条公理和另外三条可以在语法(syntax)层面互推,然后可靠性定理(soundness theorem)告诉我们,可以在语法层面推导出来,那在语义(semantics)层面必定是逻辑等价的。也就是说在任何一个可能存在的数学结构中,如果它满足这单条公理,它就必定也满足那三条公理,反之亦然。
Shengyi Wang@txyyss

昨天看一篇文章在谈公理分析时说早就有人发现了单条的群论公理。我觉得很有意思,就拿 Mathematica 试了一下,真的可以从这一条推出我们教科书上常见的群论的三条公理版本,一个结合律就要 65 步推理。教科书上群论用这三条公理应该还是因为方便人类后续推理写东西,之前积累的数学是人类中心主义的。

中文
1
0
0
204
鸭雀无声
鸭雀无声@NullGives·
@txyyss 更进一步说,其实我们用什么载体来描述一个数学结构(比如群)根本不重要。无论是书里的公理,软件里的字母公式,只要底层结构一致就行。这就好比哥德尔在证明不完备性定理时,直接用数字来表示公理和推导过程一样。符号只是给人类看的,剥离了人类中心主义的视觉习惯,数学的本质就只剩下纯粹的结构了
中文
0
1
1
108
鸭雀无声
鸭雀无声@NullGives·
@txyyss 在数理逻辑里,本质上是这一条公理和另外三条可以在语法(syntax)层面互推,然后可靠性定理(soundness theorem)告诉我们,可以在语法层面推导出来,那在语义(semantics)层面必定是逻辑等价的。也就是说在任何一个可能存在的数学结构中,如果它满足这单条公理,它就必定也满足那三条公理,反之亦然。
中文
1
1
2
538
Shengyi Wang
Shengyi Wang@txyyss·
昨天看一篇文章在谈公理分析时说早就有人发现了单条的群论公理。我觉得很有意思,就拿 Mathematica 试了一下,真的可以从这一条推出我们教科书上常见的群论的三条公理版本,一个结合律就要 65 步推理。教科书上群论用这三条公理应该还是因为方便人类后续推理写东西,之前积累的数学是人类中心主义的。
Shengyi Wang tweet media
中文
13
26
189
18.2K
鸭雀无声
鸭雀无声@NullGives·
都不用看原论文就能猜到这个技术得先在目标区域用大量数据训练,用别人训练好的数据肯定不行。而且就算训练好了,换不同身高体型的人,结果肯定都有很大偏差。用wifi穿墙透视?尊重一下物理学吧
TIGER@tiger_web3

卧槽…GitHub榜首项目有点逆天了,叫做 WiFi-DensePose 开源项目。 号称只通过 WiFi 信号,就能“还原”你在家里的动作轨迹——不需要摄像头、不用额外传感器,甚至不用特殊硬件。 我日,门外连wifi就可以穿墙透视??? github.com/ruvnet/wifi-de…

中文
2
0
1
153
鸭雀无声
鸭雀无声@NullGives·
@grok @shix306 @tiger_web3 这个技术得先在目标区域用大量数据训练吧?用别人训练好的数据肯定不行吧,而且就算训练好了,换不同身高体型的人,结果肯定都有很大偏差
中文
1
0
0
794
Grok
Grok@grok·
是的,这种技术基于真实研究。CMU 2023论文《DensePose From WiFi》(arxiv.org/abs/2301.00250)用WiFi CSI信号+深度学习重建人体密集姿态,隔墙/多人场景有效。 物理规律符合:人体运动干扰WiFi多径传播,CSI的相位/幅度变化可捕捉姿态信息。 技术可实现:实验室已验证,GitHub wifi-densepose项目提供Rust/ESP32实现(实时30FPS),但需支持CSI的硬件(如特定网卡),非普通WiFi随便连。 判断方法:读论文看实验数据,查GitHub代码/测试/独立评测。demo显示骨架跟踪靠谱,但精度限受控环境。
中文
4
7
73
19.3K
TIGER
TIGER@tiger_web3·
卧槽…GitHub榜首项目有点逆天了,叫做 WiFi-DensePose 开源项目。 号称只通过 WiFi 信号,就能“还原”你在家里的动作轨迹——不需要摄像头、不用额外传感器,甚至不用特殊硬件。 我日,门外连wifi就可以穿墙透视??? github.com/ruvnet/wifi-de…
中文
136
579
3.3K
943.3K
Missingcloud
Missingcloud@cloud377033·
本次GTC最重要的两张图,拭目以待
Missingcloud tweet mediaMissingcloud tweet media
中文
9
34
234
21.1K