WANGRUI

1.8K posts

WANGRUI

@wangruipro

大模型交付架构；BG线参与过鹅厂代码工具工程化开发能源行业大模型应用落地全流程；

mainland china Katılım Ağustos 2012

505 Takip Edilen232 Takipçiler

WANGRUI@wangruipro·5h

@chenreason zai minimax 这种ipo上市后比京东都高说实话deepseek 100亿美金都太少了就推理这块deepseek 比前两者强太多了

中文

1.3K

对冲积鲸Reason@chenreason·15h

梁文锋不是那种会轻易改变想法的人。如果他真的在考虑接受外部资本，那一定是因为有些事发生了质变，让不融资的代价已经超过了融资的代价。在过去不到一年的时间里至少有五位核心研发骨干相继出走。在模型研发领域，经验高度路径依赖，核心成员的离开直接影响下一轮迭代的效率和节奏。问题的核心很可能在于期权。 DeepSeek从未融资，没有市场化的估值锚点。你给核心成员一个股权承诺，对方拿到手里没法换算成真金白银。大厂的期权有行权价、有内部回购机制、有IPO预期。而DeepSeek呢？外界只知道它很值钱，但到底值多少，没有人能说清。所以这次融资信号里最核心的意义可能不是为了钱本身，而是给团队里拿期权的小伙伴们一个交代。不差钱，最后还是被钱给闹的。

中文

148

64.3K

WANGRUI@wangruipro·12h

去日本的老中，平均消费在过去几年都比台湾、韩国的人均高，而且不少人就去一次，不会去第二次，所以剩的日元走的时候就在机场花光了。核心问题是，老中少了之后，新宿心斋桥变干净了吗？如果变干净了，那是好事啊，中国人不吵你，不破坏你环境，不踢你的鹿，中国外汇也减少对日输出，这不双赢吗？如果没变干净，下次打算把自己的无能和失败甩给谁呢？在日越南人？

中文

214

嗨der哥儿@9bi6ix44XjEO57d·1d

这个消费增幅是日元计算，但增幅还没日元贬值幅度大。这赢学素养堪比人民日报资深笔者。

中文

5.5K

WANGRUI@wangruipro·12h

@Olweiss 因为现在 x 的推送算法就是狗屎

中文

906

olweiss@Olweiss·17h

а где китайцы кстати? почему их нет в твиттере? можно же с VPN заходить

Русский

453

120

14.4K

718.6K

WANGRUI@wangruipro·13h

@ocaionomichi 20年换了17个首相，选来选去就安倍、麻生、鸠山、小泉等几个世袭政治家族里的人。给整个东亚东南亚带来深重灾难的日本，战后被按着“换一副皮”，一下成“受害者”了，什么事都是“共产独裁国家”胁迫伤害日本😅

中文

Michi@ocaionomichi·1d

é engraçado ver esse japonês falar isso já que o Japão tem o mesmo partido no poder por mais de 70 anos e ele parece apoiar esse fato, sei lá isso não me parece o ápice da democracia também kkkkkkkkkkkkkkkk

闇属性@sandletter1

さすが共産主義と独裁国家で鍛えられた人ですね。違法アルコールでも醸造・飲酒してお楽しみください。そして80年間の平和を維持した国である日本の著作物には手をつけないでください。

Português

141

37.5K

WANGRUI@wangruipro·13h

会不会管，那肯定会管啊。这里核心应该是，中央会不会管，那应是不会管。地方政府会互相搞事，中国也进入存量争抢的阶段，本地高收入群体（这些硬件、测试工程师）不光意味着税收，还意味着消解一般服务业就业。我去年做过长鑫的项目，合作的智能体工程师，工资都开到50～60万了，在合肥，不是一线城市。这工资在中国二线城市的生活水平，爽到天上去了。

中文

Jukan@jukan05·21h

@Rickylu88 @LinQingV 俩的关系早就不好了。长江和长鑫互相挖了那么多的人。这事儿党会不会出手管，我还不知道呢。

中文

802

Macro_Lin｜市场观察员@LinQingV·21h

长江存储的三重窗口昨天界面新闻报了两条消息。一条说长鑫和长江存储从去年四季度开始出现"先款排产"，下游客户先向渠道商打款，排队等货。另一条说长江存储今年一季度收入已超过200亿元，同比去年翻倍增长，NAND产量超过全球市场10%的份额，逼近全球第三。产业链核心人士的原话是，"后面的利润会更爆炸"。两条消息说的是同一件事，NAND供需紧张比预期更深。但长江存储现在面对的局面远不止涨价。涨价周期、国产设备成熟、IPO三重窗口同时打开，管理层的动作比市场预期激进得多。扩产图景长江存储在武汉现有两座晶圆厂（Fab1和Fab2），合计月产能约20万片，满产运行中。三期（Fab3）2025年9月动工，注册资本207.2亿。据Reuters本周报道，厂房建设已经完成，目前正在安装设备，超过一半来自国内供应商。预计2026年晚些时候开始运营，2027年达到月产5万片。产品通过X-Tacking堆叠技术实现等效294层，和海外龙头的代差收窄到大约一代。 Reuters同时披露了一个更大的动作：长江存储在三期之外还计划再建两座新厂（四期和五期），每座满产月产能10万片。三座新厂全部建成后，总产能将从目前的20万片翻倍以上达到50万片。为什么敢这么扩？设备国产化率是关键变量。据产业链信息，三期产线的国产化率目标为60%到80%，较当前约45%有明显提升。Reuters确认超过50%的设备来自国内供应商。NAND的制造以纵向堆叠为主，对制程精度的要求比逻辑芯片和先进DRAM宽松，而工艺中占比最大的刻蚀和沉积环节恰好是国产设备进展最快的领域。长江存储2022年底被列入美国商务部实体清单，先进设备采购受限，但他们用国产设备跑通了一条完整产线。三期是这条"去美化"产线的规模化复制，四期五期则是进一步放大。为什么是现在三重窗口同时打开。涨价是最直观的一重。头部原厂把资本开支优先投向HBM和先进DRAM，NAND投资增速相对落后，供需错配明显。摩根大通预测2026年NAND均价同比涨40%。铠侠说2026年的产能已经全部售罄。一位同时给美光、长鑫和长江存储供货的材料供应商高管对Nikkei Asia说，"现在是他们在全球供应链中确立稳固地位的最佳时机，谁手上有存储芯片谁就是赢家。我们估计好景气至少还要持续两年以上。"今天"先款排产"的消息和这个判断完全吻合，下游不是在等涨价，是在抢货。光有需求还不够，还得能扩得出来。三期跑通"去美化"产线，证明了国产设备的能力已经能撑起一条完整的NAND量产线。没有这个验证，四期五期不可能提上日程。三期的成功是后面两座厂能够立项的前提。扩产要花钱，钱从哪来？母公司长存控股2025年9月完成股份制改革，和中金合作推进上市，估值区间1600亿到3000亿。一季度200亿收入、翻倍增长，等于告诉承销商和投资者，长江存储已经进入规模化盈利阶段，上市不是为了输血，是为了支撑三座新厂的资本开支。和长鑫科技几乎同步冲刺资本市场，中国存储"双子星"有可能在同一个窗口期完成上市。涨价给了经济基础，设备给了技术条件，IPO给了资本通道。三个条件同时到位，长江存储选择全力加注。 DRAM，一个新变量还有一个中文媒体几乎没有报道的角度。据Nikkei Asia报道，长江存储已决定将三期工厂50%的产能用于生产DRAM，不再只做NAND。过去十年中国存储产业的分工很清晰，长江存储做NAND，长鑫做DRAM，各管一摊。现在长江存储拿出三期的一半产能切入DRAM，两家的边界开始模糊。短期内谈不上竞争，供不应求的市场里谁都吃不饱，多一个DRAM供应商对下游只有好处。但中长期两家都上市之后，投资者迟早会问一个问题：国产DRAM这个故事，到底该投谁？这个问题现在不急着回答，但可以开始跟踪了。几个约束条件长江存储面临两层制裁。一层是商务部实体清单，2022年底列入，限制先进设备和核心零部件采购，这是核心约束，至今没有解除。另一层是国防部1260H清单，2024年列入，限制政府采购和声誉。2026年2月美国国防部发布的新版1260H清单一度将长江存储和长鑫移出，但该文件发布不到一小时即被撤回，最终结果仍不确定。更关键的是，依据《2023财年国防授权法》第5949条，2027年底起美国联邦政府将全面禁止采购两家企业的存储产品，这条线不受1260H清单调整的影响。等效294层和海外龙头的"一代差"听起来很近，但追赶难度在先进制程阶段是非线性的。三星和美光的下一代产品已经在路上，维持"一代差"本身就需要持续的高强度研发投入。 "去美化"产线虽然跑通了，但国产设备在良率、稳定性、产能爬坡速度上和海外成熟设备仍有差距。即使三期达到60%到80%的国产化率目标，仍有20%到40%的环节依赖非美系但也非国产的供应商，这条链的稳定性还没有经过一个完整周期的考验。四期五期如果进一步提高国产化率，对国内设备商的产能和良率也是前所未有的考验。三座新厂、切入DRAM、Q1收入翻倍、下游抢货，长江存储把能押的筹码都推上去了。接下来的问题只剩一个：良率爬坡能不能跟上这个节奏？

中文

202

47.6K

WANGRUI@wangruipro·13h

@grok @LinQingV 那目前看起来，主要是 HBM 用于推理和训练，利润高，厂商偏移了生产重心，导致 DRAM 生产不足。而因为堆叠的缘故， HBM 对晶圆的消耗又非常大。

中文

Grok@grok·13h

是的，LLM（如我）已经能辅助大规模代码重构：把 Java 服务改成 Rust（零成本抽象、极低内存占用）或 Golang（轻量并发），实测可降低 30-70% 内存/CPU 需求，很多公司已在试点。宏观上，目前内存（DRAM）和存储（NAND）主要消耗在： - AI 训练/推理（占数据中心 40%+，HBM/VRAM 饥渴） - 云服务、数据库、缓存、大数据处理 - 手机/终端 + 视频/日志爆炸式增长软件优化能缓解部分需求，但 AI 数据洪流是主因。重构全量遗留系统成本和风险高，短期难“减少需求量”。供给扩张+硬件进步（如长江存储扩产）才是更快解法。你觉得哪个场景最值得先重构？

中文

WANGRUI@wangruipro·13h

From the perspective of comfort, sitting toilets are definitely more comfortable. But public restrooms are also a public resource—we must first solve the issues of quantity and coverage before addressing comfort. All social services in China follow this logic, because you have to consider that many Chinese cities have larger populations than some entire countries.

English

Rui Ma@ruima·16h

It’s really difficult to explain to visitors that Chinese people, on average (maybe not the much younger first tier city dwellers), prefer squat toilets for public use (seated are great for home). They think sharing a toilet seat is very dirty. It’s probably at least in part because contagious infectious diseases were such an issue even just thirty years ago. Toilet seat covers help, but most (especially older) people would just rather not be anywhere near where someone else had placed their bare rear end. It’s very hard even today to find public “regular” seated toilets in second tier cities and below (or even in outskirts of first tier cities). In the third tier city we were in, we couldn’t find any except for a fancy mall’s handicapped bathroom.

English

209

45.5K

WANGRUI retweetledi

Kimi.ai@Kimi_Moonshot·22h

We push Prefill/Decode disaggregation beyond a single cluster: cross-datacenter + heterogeneous hardware, unlocking the potential for significantly lower cost per token. This was previously blocked by KV cache transfer overhead. The key enabler is our hybrid model (Kimi Linear), which reduces KV cache size and makes cross-DC PD practical. Validated on a 20x scaled-up Kimi Linear model: ✅ 1.54× throughput ✅ 64% ↓ P90 TTFT → Directly translating into lower token cost. More in Prefill-as-a-Service: arxiv.org/html/2604.1503…

English

286

2.3K

433.8K

WANGRUI@wangruipro·20h

一月份大阪看演唱会碰到拍的，当时日元汇率还高一些。我对这事的看法，首先像中国粮食太便宜，一瓶500ml主粮经常没有一瓶高端矿泉水价格高，这不合理，农民确实被剪刀差割得有点狠，充当了社会稳定的牺牲品。但日本这个米价，对于以米为主的东亚社会，也太畸形了吧。这8000日元有多少到日农手里？我在福冈1300日元吃了一顿麻婆豆腐盖饭，米饭几勺就能吃完，感觉豆腐像是主食而米饭是配菜。

中文

460

枫糖小猫@Konekoutena·21h

现在日本一袋5kg大米基本要四千到五千日币，折合人民币要二百块钱。这已经比中国的榴莲贵了，基本和进口的车厘子差不多。这就是日本贬值带来的直接痛苦。然而安倍却把通胀当作自己的执政目标，真的愚蠢至极

中文

187

5.9K

WANGRUI@wangruipro·20h

日右青鸟经典回复，你从现实角度分析问题，它不知道怎么回你，就是天安门骂主席。真是各有各的“粉红”，沙雕不分国界。在大使馆肢解美国公民的沙特，算不算独裁？那你日本为什么还要从沙特进口石油？给独裁国家送钱？为什么还要开展沙特日本2030愿景？民选社会现在最大的问题就是傻逼选民太多。

旅の賢治@FJkXzp4aKi9538

@wangruipro @Konekoutena お前らが習近平批判を平気で公言できるようになれば認めてやる。どんなに偉そうな事を言っても現体制を非難出来ない哀れな不自由な民族とは関わり合いたくはない。それだけだ。少なくとも日本人は平然と現政権を非難できる自由がある。悔しかったら「習近平は独裁者！」だと叫んでみろよ。笑

中文

WANGRUI@wangruipro·21h

@FJkXzp4aKi9538 @Konekoutena bro，现在是2026年不是1986年，中国700日元包邮两把的破雨伞在日本的便利店一把卖2500日元，你要是真忍心看你的同胞遇到更大的物价通膨，那尽可以推动断交。忘了说了，日本进出口几乎都靠海运，一半太平洋一半马六甲，中日关系推动下去，北冰洋航线还有可能分你用一用。要当个成年人而不是小孩

中文

803

旅の賢治@FJkXzp4aKi9538·1d

@Konekoutena 中国人の感覚と我々の隔たりが水と油のように絶対に交わらないという事だけは確か。お互いにとって干渉しない事が第一。だから日本には絶対に来ないで欲しい。我々も行かないようにしよう。国交断絶を目指す事がお互いの平和のためです。

日本語

27.9K

枫糖小猫@Konekoutena·2d

在中国看来，高市就是一个带着中二恋爱脑的日系地雷女，平时会跳脚发发脾气，但不会构成任何实质上的威胁。相比之下石破茂才是真正难缠的对手。一方面在国际上给足中国面子，中国不好撕破脸需要拉拢。另一方面又暗中布局亚洲北约，围堵中国军事。你知道他的威胁还要给他面子，这种做的比说的多，老谋深算的政治家才不好对付。就像中国互联网上一直把特朗普当笑话，但对拜登却感受到了实际上的威胁

只因你太美@X7mXgO1JHO65011

@DMM_zbr @Na75628Com @Konekoutena 普通中国人对高市挑衅的危机感？其实并没有，因为大部分中国人体会不到任何感觉，最多一个觉得这位女首相嘴上把不住门，说话不考虑后果，简直和小孩子一样，完全没有一国领导人该有的样子而已。因为现阶段日本没有能力对中国造成任何实际性的威胁，自然普通民众是体会不到的。当然在日中国人可能例外

中文

804

3.2K

172K

WANGRUI@wangruipro·21h

@discountifu 现在gemini模型经常高负载，不过用 gemini 3 flash 跑跑openclaw之类的还可以

中文

3.4K

大梦想家迪士尼@discountifu·1d

用 Google pro 赠送的 gemini 免费额度跑 hermes 或者 openclaw 根本不要钱啊，为啥还有很多朋友抱怨贵🤔

中文

369

123.8K

WANGRUI@wangruipro·1d

@JasonZX 我看到有个英文评论，说 Dwarkesh 就像一个10B 参数量的模型，每秒输出2000个token，但是在思维链中挣扎。Jensen 是一个2T 的模型，虽然吐字慢但是切中要害。

中文

131

12.9K

Jason Z@JasonZX·1d

英伟达CEO Jenson和Dwarkesh Patel这次访谈在大约57分36秒开始，持续约30-40分钟，激烈得几乎快吵起来。黄仁勋多次打断、语气明显不悦，用“幼稚”、“极端”、“不合逻辑”、“失败者心态”等强硬词汇反击Dwarkesh的观点。大家有时间一定看一看。我现在好奇这张照片是采访之前拍的还是之后拍的。

Dwarkesh Patel@dwarkesh_sp

The Jensen Huang episode. 0:00:00 – Is Nvidia’s biggest moat its grip on scarce supply chains? 0:16:25 – Will TPUs break Nvidia’s hold on AI compute? 0:41:06 – Why doesn’t Nvidia become a hyperscaler? 0:57:36 – Should we be selling AI chips to China? 1:35:06 – Why doesn’t Nvidia make multiple different chip architectures? Look up Dwarkesh Podcast on YouTube, Apple Podcasts, Spotify, etc. Enjoy!

中文

156

174

1.2K

595.7K

WANGRUI@wangruipro·1d

@xiaoshunli 不然高原地区为什么人口上不去，肯定是环境恶劣啊，西藏驻扎的部队，20多岁，但是不少都因为缺氧秃头了。同学前阵子骑摩托自驾过去，最后得到一个结论就是没醉找罪受。不过开车或旅游的话，其实也还好，毕竟自然风光和内陆、沿海或海岛是完全不同的。

中文

大顺利@xiaoshunli·3d

西藏这种高原只有大傻逼才去。大傻逼们不知道，西藏有钱人基本不在西藏，全部他妈跑成都买房，定居，吃喝玩乐了。这是因为西藏完全不适合住人。高原反应很容易死人，西藏这种海拔，只要你一感冒，直接死翘翘。要是有条件，谁他妈想住这么危险的地方啊。像我这种顶级重视安全和环境的人，死都不可能去西藏的。谁要去受苦啊，谁要去朝圣啊，谁要去这种本地人都不住的地方啊？

中文

358

629

317.1K

WANGRUI retweetledi

思维怪怪@0xLogicrw·2d

DeepSeek 今天发布 DeepGEMM 开源以来最大一次更新。这个去年 2 月「开源周」期间发布的 GPU 算子库，原本只做 FP8 矩阵乘法，现在扩展为覆盖大模型推理关键环节的完整算子库，支持 FP8、FP4、BF16 多种精度的矩阵运算，以及 MoE 和注意力评分等专用算子。核心新增是 Mega MoE。MoE（混合专家）架构是 DeepSeek V3 等模型的基础，推理时需要依次执行五个步骤：EP 分发、第一层线性变换、SwiGLU 激活、第二层线性变换、EP 合并。传统做法是五个独立 kernel 依次调用，每次调用都要等上一步完成、数据在显存里搬来搬去。Mega MoE 把这五步融合成一个 kernel，让 NVLink 通信和 Tensor Core 计算同时进行，省去中间的等待和数据搬运。目前仅支持 FP8×FP4 精度组合，需要 PyTorch 2.9 及以上版本，团队表示仍在优化中，性能对比数据将稍后公布。其他新增包括：FP8×FP4 混合精度矩阵乘法、支持更大 MTP 的 FP4 注意力评分算子（Indexer）、PDL（程序化依赖启动，一种减少 kernel 启动延迟的 GPU 调度优化）、更快的 JIT 编译速度，以及对 MoE 矩阵运算的多项优化。此次更新还适配了 DeepEPv2 的 MoE 数据布局。 PR 说明中特别注明：「本次发布仅与 DeepGEMM 开发相关，与内部模型发布无关。」 github.com/deepseek-ai/De…

中文

17.7K

WANGRUI@wangruipro·1d

2011年9月，大学同学的朋友考到我们大学，他从新疆阿克苏出发，坐了3天3夜火车，坐到长沙。长时间的坐姿让他双腿浮肿，我们把他从火车站抬回寝室。 2010年去上海世博会，邮寄纪念品给家人和亲戚，快速问我是哪里人，我说我是兰州的，他想了下，说兰州啊，在中国的最西边，我笑了，我说，兰州到中国的最西边，还要2500公里呢。如今，父母已经退休，他们开始了自驾，从24年底到现在一共自驾了大约200天，才只是去了西南和新疆。我从读书到现在工作，自己闲的时候去了若干城市，才发现，就算在这“大一统”的社会中，各地的差异也远比想象的要大，才能心生敬畏。

中文

1.1K

夏河@jlaw520·2d

这位台湾朋友：你可能不相信，大陆人生在广阔无垠的神州大地，迁移与奔波是改革开放40年来14亿人从小到大的常态：读书，南下，北上，迎八方来客，做四海生意，我们的教育基因就是『行万里路』没有人会因为谁“出远门”而妒忌，无论去哪，因为人人都在路上。去过日本能吹嘘二十年……这是你们台湾人特有的精神怪癖，因为你们生在一个孤独的小岛上，视野就那一亩三分地。再加上几十年了地缘政治被国际彻底抛弃，如同罗大佑写下的经典《亚细亚孤儿》日据时代被殖民的岁月就成了你们距离“强者”最近的历史印记，所以你们认为去过日本是一件光耀门楣的大事，我站在悲天悯人的视角是能理解的。但没必要以己度人，贻笑大方。前几天郑丽文访陆，乘坐百万级宇通T7行政防弹版车，被绿营媒体嘲讽『北京居然让郑丽文坐河南小巴』在你们不怀好意的讪笑中，全世界都懵了。河南宇通是目前全球销量第一的大中型客车公司（60多个国家常年热销）被誉为客车界华为，人尽皆知的国货之光！而你们居然不认识，还像井底之蛙般误以为中国河南制造就＝廉价土气。这个细节出卖了什么？出卖了你们的社会几十年不变，没有丝毫认知上的进步，还活在崇洋媚外，谁有钱谁就买台进口车，谁有见识就去趟日本……的那个上世纪90年代。

limuy🤪Live Free or Die@aMeow0429

@ma7foreverlove @jlaw520 早你二十年去過日本你嫉妒了？

中文

132

1.2K

128.3K

WANGRUI@wangruipro·1d

如果运行 GLM5，需要4台机器才能加载长上下文，进行长下文输入测试，GPU利用率只有30%多，可见带宽已成制约的主要因素。

WANGRUI@wangruipro

最近在测试某国产算力硬件，单卡64G 显存，8卡一节点。目前来看，核心难点就二：第一是多卡并行通信，比如 stepfun\minimax 这样的模型，tp8 相比 tp4 带来的吞吐提升非常有限。第二是算子适配，比如相同的 10B 激活的模型，推理速度差别奇大，需要为各家模型做定制化优化。不过相比前年底或去年初，确实已经有明显得提升，至少一两千亿量级模型已经有可用性，也就是能处理一二十并发，每个请求小几十 token 每秒的decode速度。我感觉今年硬件上能摸到 H200 的屁股，但软件上仍然有巨大的鸿沟。

中文