鸭雀无声

29

Zhimin Zhang@zhimin_zhang·1d

@NullGives @recatm 了解，不过都是个人用，并发不会太多吧

中文

0

31

西乔 XiQiao@recatm·3d

没想到设计这么紧凑。NVIDIA DGX Spark 华硕版。128G统一内存，GB10体系，支持NVFP 4。3500美刀，个人训练实验的最佳玩具。可以联4台。

中文

36

24

301

96.4K

鸭雀无声@NullGives·1d

@weilin_xia51391 @recatm 数据都是我自己测试过的

中文

27

weilin xia@weilin_xia51391·2d

@NullGives @recatm 没有50token 45token

日本語

0

177

鸭雀无声@NullGives·1d

@zhimin_zhang @recatm prefill速度还是spark更快，特别是长上下文情况下。高并发情况下目前也是英伟达更胜一筹

中文

0

34

Zhimin Zhang@zhimin_zhang·2d

@NullGives @recatm 这速度貌似和M1Max/M2Max差不多

中文

0

99

鸭雀无声@NullGives·2d

@aliez_ren 🤣🤣🤣

QME

41

Aliez Ren@aliez_ren·2d

@NullGives 原来是你，我脸盲了🤣

中文

0

1

57

鸭雀无声@NullGives·2d

Blackwell桌面端GPU (Spark, 5090, Pro 6000) 的硬件限制导致对NVFP4的支持很残废。NVFP4在这些GPU上的性能还不如FP8，未来软件能否弥补还未知。目前优势只有省显存了。所以冲着NVFP4买这些的最好先了解一下，特别是Spark，大模型太慢，小模型又没必要FP4。当然我自己是很喜欢Spark的，但和FP4没关系

virushuo@virushuo

犹豫了好久pro6000/ai395/dgx spark 最后选了dgx。主要看中Blackwell架构，nvfp4。这样本地做实验和集群互操作方便，性能反而不是最重要的，性能好也好不过集群了。nv的生态真是护城河，想了半天就没什么可跟它竞争的，凡是认为它不如xxx的就说明你并不需要它，那也很合理…

中文

1

901

鸭雀无声@NullGives·2d

@aliez_ren 能跑，但性能比FP8差，所以除非是为了跑更大的模型，不然还是优先FP8

中文

0

56

Aliez Ren@aliez_ren·2d

@NullGives vllm v0.17.0+ 之后，5090, Pro 6000（sm120）的 NVFP4 硬件支持已经有了。github.com/aliez-ren/vllm…

中文

0

149

鸭雀无声@NullGives·6 Mar

@aliez_ren 配置私信你了，有空可以再试试

中文

270

Aliez Ren@aliez_ren·6 Mar

@NullGives 跑起来了，但速度很慢，只有 llama.cpp 的 1/3 左右😇

中文

0

293

Aliez Ren@aliez_ren·5 Mar

跑本地大模型真令人上瘾，从最开始的用 LM Studio，Ollama，改为使用 llama.cpp，使用 Unsloth 量化的 GGUF。再到 vLLM，SGLang，KTransformers 都摸索了一遍，然后发现目前的工具其实对于 RTX 5090 (sm120) 的 FP4 支持的都不太好，虽然能运行 4bit 量化模型省显存，但都还无法利用原生 FP4 硬件加速。虽然都是 Blackwell 架构，但服务器上的 B200 和家用的 RTX 5090 区别很大，最终走向了自己修改编译 SGLang 的道路。

中文

34

37

371

50.9K

鸭雀无声@NullGives·6 Mar

@aliez_ren 噢对，是那个K开头的人量化的，我第一张截图上有的

中文

0

1.6K

Aliez Ren@aliez_ren·6 Mar

@NullGives 感恩，我去试试。再问下 huggingface 上的模型你用的是哪个呀

中文

0

1

1.7K

鸭雀无声@NullGives·6 Mar

@GeekerCHO @aliez_ren 是的，带宽是硬伤，但还没榨干呢。因为在Spark上跑更大的而且是FP8的Qwen3-Next-80B-A3B-Instruct都能跑到50t/s，所以NVFP4在软件层面肯定还有优化空间的

中文

93

玄人 Ai@GeekerCHO·6 Mar

@NullGives @aliez_ren spark的内存带宽太弱了，和别的没关系

中文

0

99

鸭雀无声@NullGives·6 Mar

@aliez_ren 最新版的vllm已经把很多patch加进去了，5090上镜像我用vllm-openai:nightly，Qwen3.5一开始跑不起来，然后让Claude写了一个patch，Claude给的注释是：Patches modelopt.py to exclude layers that should remain BF16, and patches qwen3_5.py to handle any remaining size mismatches

中文

0

20

50K

Aliez Ren@aliez_ren·6 Mar

@NullGives 你用的哪个 patch 呀

中文

0

2.4K

鸭雀无声@NullGives·5 Mar

更进一步说，其实我们用什么载体来描述一个数学结构（比如群）根本不重要。无论是书里的公理，软件里的字母公式，只要底层结构一致就行。这就好比哥德尔在证明不完备性定理时，直接用数字来表示公理和推导过程一样。符号只是给人类看的，剥离了人类中心主义的视觉习惯，数学的本质就只剩下纯粹的结构了

中文

3

112

鸭雀无声@NullGives·5 Mar

在数理逻辑里，本质上是这一条公理和另外三条可以在语法(syntax)层面互推，然后可靠性定理(soundness theorem)告诉我们，可以在语法层面推导出来，那在语义(semantics)层面必定是逻辑等价的。也就是说在任何一个可能存在的数学结构中，如果它满足这单条公理，它就必定也满足那三条公理，反之亦然。

Shengyi Wang@txyyss

昨天看一篇文章在谈公理分析时说早就有人发现了单条的群论公理。我觉得很有意思，就拿 Mathematica 试了一下，真的可以从这一条推出我们教科书上常见的群论的三条公理版本，一个结合律就要 65 步推理。教科书上群论用这三条公理应该还是因为方便人类后续推理写东西，之前积累的数学是人类中心主义的。

中文

0

204

鸭雀无声@NullGives·5 Mar

@txyyss 更进一步说，其实我们用什么载体来描述一个数学结构（比如群）根本不重要。无论是书里的公理，软件里的字母公式，只要底层结构一致就行。这就好比哥德尔在证明不完备性定理时，直接用数字来表示公理和推导过程一样。符号只是给人类看的，剥离了人类中心主义的视觉习惯，数学的本质就只剩下纯粹的结构了

中文

1

108

鸭雀无声@NullGives·5 Mar

@txyyss 在数理逻辑里，本质上是这一条公理和另外三条可以在语法(syntax)层面互推，然后可靠性定理(soundness theorem)告诉我们，可以在语法层面推导出来，那在语义(semantics)层面必定是逻辑等价的。也就是说在任何一个可能存在的数学结构中，如果它满足这单条公理，它就必定也满足那三条公理，反之亦然。

中文

2

538

Shengyi Wang@txyyss·5 Mar

昨天看一篇文章在谈公理分析时说早就有人发现了单条的群论公理。我觉得很有意思，就拿 Mathematica 试了一下，真的可以从这一条推出我们教科书上常见的群论的三条公理版本，一个结合律就要 65 步推理。教科书上群论用这三条公理应该还是因为方便人类后续推理写东西，之前积累的数学是人类中心主义的。

中文

13

26

189

18.2K

鸭雀无声@NullGives·1 Mar

@mtrainier2020 整个地中海都有这个问题，只是严重性不一样。

中文

卧槽…GitHub榜首项目有点逆天了，叫做 WiFi-DensePose 开源项目。号称只通过 WiFi 信号，就能“还原”你在家里的动作轨迹——不需要摄像头、不用额外传感器，甚至不用特殊硬件。我日，门外连wifi就可以穿墙透视？？？ github.com/ruvnet/wifi-de…

86

鸭雀无声@NullGives·1 Mar

都不用看原论文就能猜到这个技术得先在目标区域用大量数据训练，用别人训练好的数据肯定不行。而且就算训练好了，换不同身高体型的人，结果肯定都有很大偏差。用wifi穿墙透视？尊重一下物理学吧

TIGER@tiger_web3

中文

0

1

153

鸭雀无声@NullGives·1 Mar

@grok @shix306 @tiger_web3 这个技术得先在目标区域用大量数据训练吧？用别人训练好的数据肯定不行吧，而且就算训练好了，换不同身高体型的人，结果肯定都有很大偏差

中文