WaydeMo

1.9K posts

WaydeMo

@yangqch

have fun

California, USA Katılım Ekim 2009

231 Takip Edilen965 Takipçiler

WaydeMo retweetledi

Jason Zhu@GoSailGlobal·5 May

Stanford CS336 上，Tatsu 讲了一节 LLM 架构课，把过去 3 年所有主流 LLM 拆开，看它们的共通模板结论挺爆：90% 的架构选择已经收敛，你随便挑一个开源大模型，它跟其他模型在这些维度上几乎一模一样讲师的原话 - 2024 年大家都在 cosplay Llama2 - 2025 年的主题是「怎么训得不崩」 - 2026 年的主题是「怎么扛住长上下文」下面是 2026 年开源 LLM 的标准模板你训自己的模型可以直接抄【架构层已经收敛的 7 件事】 1）Layer Norm 挪出残差流（pre-norm）原版 Transformer 把 LN 放在残差里几乎所有现代模型都挪到外面原因：keep your residual stream clean 梯度反传更稳 2）RMS Norm 替代 LayerNorm LayerNorm 的减均值 + 加 bias 那部分实际没怎么帮上忙丢掉之后 flops 只省 0.17% 但运行时省到 25% （瓶颈在数据搬运计算反而次要） 3）所有 bias 项全删跟 RMS Norm 一个道理系统层省内存搬运 4）激活函数用 SwiGLU 或 GeGLU gated linear unit 几乎所有现代模型都用 Llama 系 / Qwen / Mistral 用 SwiGLU Google 系（Gemma / T5）用 GeGLU 区别极小选哪个都行 5）位置编码用 RoPE 2024 年之后基本统一了原理：把每对维度按位置旋转一个角度让 inner product 只依赖相对位置 6）Transformer block 串联（不是并联） GPT-J / Palm 试过并联现在基本被放弃串联的实现优化得太好了并联省的那点系统开销不值得损失表达力 7）Layer norm 可以「撒」哪儿不稳就在哪儿加 LN attention 之前能加之后能加两边都加（double norm）也可以现代模型很多这样做【超参数已经收敛的 5 个数】 1）feedforward 维度 / hidden 维度 - 非 GLU 模型：4 倍 - GLU 模型：8/3 ≈ 2.67 倍（因为 GLU 多一组矩阵要保持总参数量） - Llama 系：3.5 倍 - T5 1.0 试过 64 倍后来 T5 1.1 改回标准别学 2）head 数 × head 维度 ≈ hidden 维度几乎所有模型都遵守 T5 是为数不多的例外 3）模型纵横比（hidden / 层数）≈ 100 太深 pipeline parallel 难做太宽表达力受限 100 这个数字是系统约束 + 表达力的平衡点 4）vocab size 单语模型：30K 左右（早期 GPT-2 那种）多语 / 通用模型：100K-200K（GPT-4 / Llama 3 / Gemma 都在这个范围）现代基本都是后者 5）weight decay 仍然普遍使用但研究发现它在 LLM 里干的事其实是优化器干预让你最终能收敛到更深的最优点跟你想的「防过拟合」没什么关系所以别因为「单 epoch 不会过拟合」就把它关掉【稳定性三个救命 trick】训练大模型最怕中途 loss 突然飙升然后 NaN 全军覆没现代模型用三个 trick 防这件事 1）Z-loss output softmax 的 normalizer 容易爆加一个 (log Z)² 的正则项让 Z 始终接近 1 DCLM / Olmo 都用 2）QK norm attention 的 Q 和 K 在矩阵乘之前各加一个 LN 让 softmax 的输入永远是单位尺度 multimodal 圈先用起来现在所有大模型都加 3）Logit soft cap（仅 Google 系） attention logit 用 tanh 硬封顶 Gemma 2/3/4 都在用但会损失一点点性能慎用【Attention 两个新趋势】 1）GQA（Grouped Query Attention）几乎统一原版 multi-head 推理时 KV cache 会让算术强度崩到 1/h GQA 共享 K 和 V 但保留多个 Q 表达力几乎不损失推理成本砍掉 80% 现在所有要做生产部署的大模型没有不用 GQA 的 2）局部 + 全局 attention 交替处理长上下文的新方式 Cohere Command A 起头现在 Llama 4 / Gemma 4 / Olmo 3 全在用比如每 4 层有 1 层 full attention 其他 3 层是 sliding window 只看附近的 token 比纯 SSM 更稳比纯 full attention 便宜得多（Qwen 3.5 做了变体把 sliding window 那 3 层换成 SSM）收尾一句如果你正在训自己的 LLM，上面这一套就是 2026 年的「默认配置」不需要重新发明，直接抄如果你只是想看懂 GitHub 上那些 modeling_xxx.py 这一份足够你不再被术语吓住

Roan@RohOnChain

Anthropic pays $750,000+ a year for engineers who can build LLM architectures from scratch. Stanford taught the entire thing in 1 hour lecture & released it for free. Bookmark & watch this today before someone takes it down.

中文

590

3.1K

535.6K

WaydeMo@yangqch·24 Oca

@ChifaKing 说得好像很意外一样

中文

143

Chifa King@ChifaKing·24 Oca

我还没找着直播源，中国队就0:2落后了 😭

中文

1.9K

WaydeMo@yangqch·13 Oca

@FengMartin3 @Yintinusa 你光说一个月付不比较保险的额度是没意义的

中文

Feng Martin@FengMartin3·12 Oca

@Yintinusa 我们公司很小，不提供保险，我自己支付医疗保险。上过政府网站查询奥巴马医保，好像需要我支付一千。我就购买了UnitedHealth ，刚开始每月$300多，去年给涨到接近$400，然后10月份换了一个agent还是unitedhealth, 收费$311，包含牙医和视力在内。对我来说，奥巴马医保是shit，纯粹是欺骗。

中文

843

Daisy@Yintinusa·12 Oca

我再给大家说一个扎心的事实，所谓的中产，其实并不是中产. 他们的保险如果不是公司在帮他承担，他们的单位在承担，让他自己买，他也会选择奥巴马保险. 这是我认识的一个朋友给我的印象，他当年在一个大公司打工，年薪20万，老婆奔驰老公保时捷，住着豪宅，公司给他兜底保险. 后面自己辞职创业，买的也是奥巴马保险. 别站在道德高地嘲笑底层人士，你扪心自问，如果让你自己买，你还会买公司给你匹配的高价商业保险吗？一个月一人1000的保险你会买吗？你一家三口买稍微好点的保险就要3000一个月你能承担吗？在美国，高收入人群占比多少你有了解吗？美国人打几份工的底层人士你们没看见吗？我接触的都是普通工人，他们不是中产，看到了太多的现实，这些现实让我不能蒙着眼睛说话.

Major Tom@wanyanaguda73

@Yintinusa 也不是所有州都有奥巴马医保的覆盖，反对奥巴马医保的都是稳定的中产，而庇护州非法移民转成合法的穷鬼太多当然支持奥巴马医保扩大覆盖

中文

365

116.9K

WaydeMo@yangqch·13 Oca

@Yintinusa 一个月1000的保险兜底肯定比较充分比如一年最大自付额低于2000 那么一年的医疗支出就能控制在1w5美元以内对于年收入20w的人来说挺值得的。

中文

WaydeMo@yangqch·20 Eki

@usJoe3 @yibingsg @grok 这个Ethan说的是真的吗？

中文

Fairice@yibingsg·18 Eki

杰夫·贝索斯的前妻麦肯齐·斯科特在离婚后拿走了380亿美元。她拿这笔钱做了什么？——她在短短4年里捐出了140亿美元。她的捐赠速度，超过了历史上任何一个人。麦肯齐·斯科特本可以像其他亿万富翁一样：玩对冲基金，坐私人飞机，参加慈善晚宴。但她没有。她重写了游戏规则。自2019年以来，她已经向1600多个组织捐赠了超过140亿美元。没有附加条件。没有冠名权。没有200页的资助申请。只有信任。社区大学、食物银行、种族平权组织、女性庇护所——这些通常得不到亿万富翁电话的地方，都收到了她的帮助。她的模式简单又激进：捐得多捐得快退出聚光灯她不会提前宣布接下来要去哪儿捐。她不上论坛、不参加讨论会。她甚至没有自己的基金会。她签完支票就离开，而在一个慈善常常变成表演的世界里，这种“转身离开”反而最打动人。麦肯齐·斯科特正在证明——你可以在大规模地改变人生的同时，不必把它变成一场秀。在美国所有的亿万富翁中，这位最安静的，也许正是影响最大的那一个。

中文

238

231

1.8K

561.1K

WaydeMo@yangqch·10 Eki

@diyas_1989 如果是你他确实不会show up

中文

107

Diyas.Σίσυφος(embracing bubble)@diyas_1989·10 Eki

What if i throw 10k but he refuse to show up?

Diyas.Σίσυφος(embracing bubble) tweet media

English

22K

WaydeMo@yangqch·28 Eyl

@diyas_1989 我没沉住气在INTC爆发前夜卖了

中文

Diyas.Σίσυφος(embracing bubble)@diyas_1989·26 Eyl

lol “又要到饭了兄弟们！”

Jukan@jukan05

Trump administration considering plan to reduce semiconductor imports • U.S. plan would require companies to secure the same volume of domestically produced semiconductors as imported ones. • Trump targeting semiconductor manufacturers with new import-restriction plan. • Companies that fail to match the ratio of imports to domestic production would face tariffs.

中文

7.3K

WaydeMo@yangqch·17 Ağu

@diyas_1989 Intel不是要丢弃fab吗

中文

Diyas.Σίσυφος(embracing bubble)@diyas_1989·17 Ağu

@yangqch Yeah that is happening.

English

128

Diyas.Σίσυφος(embracing bubble)@diyas_1989·15 Ağu

trump midterm strategy 1. Chip act all in Intel and buy Ohio 2. Weed reschedule buy Texas/Iowa weed farmers and purple state urban voters. 3 Urk Rus war pause buy national support so himself no longer midterm poison.

English

3.1K

WaydeMo@yangqch·9 Ağu

@diyas_1989 真走了你还来得及？

中文

110

Diyas.Σίσυφος(embracing bubble)@diyas_1989·8 Ağu

Plz stop ping me about anything about intel since I will only sell if & only if tan is out. Thanks for ur inquiry!

English

WaydeMo@yangqch·14 Tem

@TtracyS87606 沃顿毕业去个二线城市准能过上小资生活非在湾区纽约卷那只能是为了更大的突破。

中文

1.3K

WaydeMo@yangqch·12 Tem

@diyas_1989 Why do they target China though?

English

106

Diyas.Σίσυφος(embracing bubble)@diyas_1989·12 Tem

@yangqch So wat they still have boarder dispute and Canada has tariff on Chinese EV too.

English

109

Diyas.Σίσυφος(embracing bubble)@diyas_1989·12 Tem

If india reduce auto tariff, tsla sales will turnaround soon.

English

1.2K

WaydeMo@yangqch·12 Tem

@diyas_1989 This is country target tarriff. China will retaliate

English

Diyas.Σίσυφος(embracing bubble)@diyas_1989·12 Tem

@yangqch Not include Chinese cars

English

107

WaydeMo@yangqch·11 Tem

@diyas_1989 I thought Fed is independent...

English

Diyas.Σίσυφος(embracing bubble)@diyas_1989·11 Tem

bull

venusinox@venusinox1

holy

English

4.3K

WaydeMo@yangqch·5 Tem

@TruthOfFinance @diyas_1989 没有的事 Mountain View就放了一个多小时说到底还是夏威夷政府没钱

中文

赛先生的小迷弟🇺🇦@TruthOfFinance·5 Tem

@diyas_1989 因为关税原因，烟花都涨价了，各个烟花展都要控制预算。

中文

1.9K

Diyas.Σίσυφος(embracing bubble)@diyas_1989·5 Tem

Just soso

English

3.9K

WaydeMo@yangqch·5 Tem

@diyas_1989 还不如mountain view...

中文

WaydeMo retweetledi

凡人小北@frxiaobei·21 May

我要就坐不住了：这不是 I/O，这他喵的是 Google 开的新一张桌子。你以为他们在发 Gemini 模型，其实他们是在把 Gemini 变成 Chrome、Docs、Gmail、Android……你所有动作背后的“默认大脑”。这哪里是在跟 ChatGPT 比能力，人家直接新开一张桌子不跟你玩了。当你还在加 AI 应用、卷 LLM 接入速度的时候，Google 的生态已经全面 AI 化了。这波不是AI 更聪明了，而是你不知不觉已经活在它里了。聊一聊我的看法，不聊横向对比 ChatGPT 谁强谁弱，看清 Google 这两天已经从追赶变成了主导，直接奔着 AI 生态主导权来了。👇

中文

178

1.2K

446.7K

WaydeMo@yangqch·20 May

@diyas_1989 @divram_ai You fuse fake with real?

English

107

Diyas.Σίσυφος(embracing bubble)@diyas_1989·20 May

@divram_ai same thing, AI growth = btc.

English

195

Diyas.Σίσυφος(embracing bubble)@diyas_1989·20 May

lmao I think 5% - 4.5% range will last for years, higher for longer.

归零的人: 明日香女神大人&芷若姊姊的死舔狗@1perrorojo

可以算跌的 84.53->5.05% 84->5.089% 83.85->5.1% 83.17->5.15% 83->5.163% 82.49->5.2% 82->5.236% 81.81->5.25% 81.12->5.3% 81->5.309% 80.45->5.35% 80->5.383% 80以下->-6324%因为美元已经成为废纸而我也会在时代广场纳斯达克交易所门口（也是nypd门口）公开切腹自杀向特朗普陛下尽忠

English

4.1K

WaydeMo@yangqch·17 May

@diyas_1989 Tiffany says i should buy Apple

English

110

Diyas.Σίσυφος(embracing bubble)@diyas_1989·8 May

intc bottoming processes r over

English

9.8K

Keşfet

@ChifaKing @FengMartin3 @Yintinusa @usJoe3 @yibingsg @grok @diyas_1989 @TtracyS87606