WaydeMo

1.9K posts

WaydeMo

WaydeMo

@yangqch

have fun

California, USA Se unió Ekim 2009
231 Siguiendo965 Seguidores
WaydeMo retuiteado
Jason Zhu
Jason Zhu@GoSailGlobal·
Stanford CS336 上,Tatsu 讲了一节 LLM 架构课,把过去 3 年所有主流 LLM 拆开,看它们的共通模板 结论挺爆:90% 的架构选择已经收敛,你随便挑一个开源大模型,它跟其他模型在这些维度上几乎一模一样 讲师的原话 - 2024 年大家都在 cosplay Llama2 - 2025 年的主题是「怎么训得不崩」 - 2026 年的主题是「怎么扛住长上下文」 下面是 2026 年开源 LLM 的标准模板 你训自己的模型可以直接抄 【架构层 已经收敛的 7 件事】 1)Layer Norm 挪出残差流(pre-norm) 原版 Transformer 把 LN 放在残差里 几乎所有现代模型都挪到外面 原因:keep your residual stream clean 梯度反传更稳 2)RMS Norm 替代 LayerNorm LayerNorm 的减均值 + 加 bias 那部分实际没怎么帮上忙 丢掉之后 flops 只省 0.17% 但运行时省到 25% (瓶颈在数据搬运 计算反而次要) 3)所有 bias 项全删 跟 RMS Norm 一个道理 系统层省内存搬运 4)激活函数用 SwiGLU 或 GeGLU gated linear unit 几乎所有现代模型都用 Llama 系 / Qwen / Mistral 用 SwiGLU Google 系(Gemma / T5)用 GeGLU 区别极小 选哪个都行 5)位置编码用 RoPE 2024 年之后基本统一了 原理:把每对维度按位置旋转一个角度 让 inner product 只依赖相对位置 6)Transformer block 串联(不是并联) GPT-J / Palm 试过并联 现在基本被放弃 串联的实现优化得太好了 并联省的那点系统开销不值得损失表达力 7)Layer norm 可以「撒」 哪儿不稳就在哪儿加 LN attention 之前能加 之后能加 两边都加(double norm)也可以 现代模型很多这样做 【超参数 已经收敛的 5 个数】 1)feedforward 维度 / hidden 维度 - 非 GLU 模型:4 倍 - GLU 模型:8/3 ≈ 2.67 倍(因为 GLU 多一组矩阵 要保持总参数量) - Llama 系:3.5 倍 - T5 1.0 试过 64 倍 后来 T5 1.1 改回标准 别学 2)head 数 × head 维度 ≈ hidden 维度 几乎所有模型都遵守 T5 是为数不多的例外 3)模型纵横比(hidden / 层数)≈ 100 太深 pipeline parallel 难做 太宽 表达力受限 100 这个数字是系统约束 + 表达力的平衡点 4)vocab size 单语模型:30K 左右(早期 GPT-2 那种) 多语 / 通用模型:100K-200K(GPT-4 / Llama 3 / Gemma 都在这个范围) 现代基本都是后者 5)weight decay 仍然普遍使用 但研究发现它在 LLM 里干的事其实是优化器干预 让你最终能收敛到更深的最优点 跟你想的「防过拟合」没什么关系 所以别因为「单 epoch 不会过拟合」就把它关掉 【稳定性 三个救命 trick】 训练大模型最怕中途 loss 突然飙升 然后 NaN 全军覆没 现代模型用三个 trick 防这件事 1)Z-loss output softmax 的 normalizer 容易爆 加一个 (log Z)² 的正则项 让 Z 始终接近 1 DCLM / Olmo 都用 2)QK norm attention 的 Q 和 K 在矩阵乘之前各加一个 LN 让 softmax 的输入永远是单位尺度 multimodal 圈先用起来 现在所有大模型都加 3)Logit soft cap(仅 Google 系) attention logit 用 tanh 硬封顶 Gemma 2/3/4 都在用 但会损失一点点性能 慎用 【Attention 两个新趋势】 1)GQA(Grouped Query Attention)几乎统一 原版 multi-head 推理时 KV cache 会让算术强度崩到 1/h GQA 共享 K 和 V 但保留多个 Q 表达力几乎不损失 推理成本砍掉 80% 现在所有要做生产部署的大模型 没有不用 GQA 的 2)局部 + 全局 attention 交替 处理长上下文的新方式 Cohere Command A 起头 现在 Llama 4 / Gemma 4 / Olmo 3 全在用 比如每 4 层有 1 层 full attention 其他 3 层是 sliding window 只看附近的 token 比纯 SSM 更稳 比纯 full attention 便宜得多 (Qwen 3.5 做了变体 把 sliding window 那 3 层换成 SSM) 收尾一句 如果你正在训自己的 LLM,上面这一套就是 2026 年的「默认配置」 不需要重新发明,直接抄 如果你只是想看懂 GitHub 上那些 modeling_xxx.py 这一份足够你不再被术语吓住
Roan@RohOnChain

Anthropic pays $750,000+ a year for engineers who can build LLM architectures from scratch. Stanford taught the entire thing in 1 hour lecture & released it for free. Bookmark & watch this today before someone takes it down.

中文
29
590
3.1K
535.6K
Chifa King
Chifa King@ChifaKing·
我还没找着直播源,中国队就0:2落后了 😭
中文
3
0
3
1.9K
Feng Martin
Feng Martin@FengMartin3·
@Yintinusa 我们公司很小,不提供保险,我自己支付医疗保险。上过政府网站查询奥巴马医保,好像需要我支付一千。我就购买了UnitedHealth ,刚开始每月$300多,去年给涨到接近$400,然后10月份换了一个agent还是unitedhealth, 收费$311,包含牙医和视力在内。对我来说,奥巴马医保是shit,纯粹是欺骗。
中文
2
0
8
843
Daisy
Daisy@Yintinusa·
我再给大家说一个扎心的事实,所谓的中产,其实并不是中产. 他们的保险如果不是公司在帮他承担,他们的单位在承担,让他自己买,他也会选择奥巴马保险. 这是我认识的一个朋友给我的印象,他当年在一个大公司打工,年薪20万,老婆奔驰老公保时捷,住着豪宅,公司给他兜底保险. 后面自己辞职创业,买的也是奥巴马保险. 别站在道德高地嘲笑底层人士,你扪心自问,如果让你自己买,你还会买公司给你匹配的高价商业保险吗? 一个月一人1000的保险你会买吗?你一家三口买稍微好点的保险就要3000一个月你能承担吗? 在美国,高收入人群占比多少你有了解吗?美国人打几份工的底层人士你们没看见吗?我接触的都是普通工人,他们不是中产,看到了太多的现实,这些现实让我不能蒙着眼睛说话.
Major Tom@wanyanaguda73

@Yintinusa 也不是所有州都有奥巴马医保的覆盖,反对奥巴马医保的都是稳定的中产,而庇护州非法移民转成合法的穷鬼太多当然支持奥巴马医保扩大覆盖

中文
69
30
365
116.9K
WaydeMo
WaydeMo@yangqch·
@Yintinusa 一个月1000的保险 兜底肯定比较充分 比如一年最大自付额低于2000 那么一年的医疗支出就能控制在1w5美元以内 对于年收入20w的人来说 挺值得的。
中文
0
0
0
41
Fairice
Fairice@yibingsg·
杰夫·贝索斯的前妻麦肯齐·斯科特在离婚后拿走了380亿美元。 她拿这笔钱做了什么?——她在短短4年里捐出了140亿美元。她的捐赠速度,超过了历史上任何一个人。 麦肯齐·斯科特本可以像其他亿万富翁一样:玩对冲基金,坐私人飞机,参加慈善晚宴。但她没有。她重写了游戏规则。 自2019年以来,她已经向1600多个组织捐赠了超过140亿美元。 没有附加条件。没有冠名权。没有200页的资助申请。只有信任。 社区大学、食物银行、种族平权组织、女性庇护所——这些通常得不到亿万富翁电话的地方,都收到了她的帮助。 她的模式简单又激进: 捐得多 捐得快 退出聚光灯 她不会提前宣布接下来要去哪儿捐。 她不上论坛、不参加讨论会。 她甚至没有自己的基金会。 她签完支票就离开,而在一个慈善常常变成表演的世界里,这种“转身离开”反而最打动人。 麦肯齐·斯科特正在证明——你可以在大规模地改变人生的同时,不必把它变成一场秀。 在美国所有的亿万富翁中,这位最安静的,也许正是影响最大的那一个。
Fairice tweet media
中文
238
231
1.8K
561.1K
WaydeMo
WaydeMo@yangqch·
@diyas_1989 我没沉住气 在INTC爆发前夜卖了
中文
0
0
0
60
Diyas.Σίσυφος(embracing bubble)
trump midterm strategy 1. Chip act all in Intel and buy Ohio 2. Weed reschedule buy Texas/Iowa weed farmers and purple state urban voters. 3 Urk Rus war pause buy national support so himself no longer midterm poison.
English
3
0
12
3.1K
WaydeMo
WaydeMo@yangqch·
@TtracyS87606 沃顿毕业去个二线城市准能过上小资生活 非在湾区纽约卷那只能是为了更大的突破。
中文
0
0
2
1.3K
WaydeMo
WaydeMo@yangqch·
@diyas_1989 This is country target tarriff. China will retaliate
English
1
0
0
80
WaydeMo retuiteado
凡人小北
凡人小北@frxiaobei·
我要就坐不住了:这不是 I/O,这他喵的是 Google 开的新一张桌子。 你以为他们在发 Gemini 模型,其实他们是在把 Gemini 变成 Chrome、Docs、Gmail、Android……你所有动作背后的“默认大脑”。 这哪里是在跟 ChatGPT 比能力,人家直接新开一张桌子不跟你玩了。 当你还在加 AI 应用、卷 LLM 接入速度的时候,Google 的生态已经全面 AI 化了。 这波不是AI 更聪明了,而是你不知不觉已经活在它里了。 聊一聊我的看法,不聊横向对比 ChatGPT 谁强谁弱, 看清 Google 这两天已经从追赶变成了主导,直接奔着 AI 生态主导权来了。👇
中文
59
178
1.2K
446.7K