宏卫国

5.7K posts

宏卫国

@zuopaileader

新新左派领导人，真共产党人，川粉➕习粉。俯首甘为美女牛，横眉冷对装逼犯

广大农村 Katılım Mart 2011

473 Takip Edilen249 Takipçiler

Sabitlenmiş Tweet

宏卫国@zuopaileader·6 Ağu

颠覆西方社会的战士们

中文

宏卫国@zuopaileader·19h

@Phoenix_AlphaX 你这逻辑到底是你丑还是她丑？

中文

617

须影吟者🕊️@Phoenix_AlphaX·1d

颜值真的有那么重要吗？我相过一次亲，对方是个26岁的处女，一次恋爱都没谈过，但是相过很多次。两个星期后的早上，我抱着怀里的她问为什么相那么多次都没遇到合适的？她笑盈盈的凑上来亲了一口看着我的眼睛说因为喜欢你啊😂😂😂

中文

319

426

322.2K

宏卫国@zuopaileader·19h

@GoSailGlobal 这字幕垃圾的可以。ai时代精品课程加废物ai助理

中文

411

Jason Zhu@GoSailGlobal·1d

Stanford CS336 上，Tatsu 讲了一节 LLM 架构课，把过去 3 年所有主流 LLM 拆开，看它们的共通模板结论挺爆：90% 的架构选择已经收敛，你随便挑一个开源大模型，它跟其他模型在这些维度上几乎一模一样讲师的原话 - 2024 年大家都在 cosplay Llama2 - 2025 年的主题是「怎么训得不崩」 - 2026 年的主题是「怎么扛住长上下文」下面是 2026 年开源 LLM 的标准模板你训自己的模型可以直接抄【架构层已经收敛的 7 件事】 1）Layer Norm 挪出残差流（pre-norm）原版 Transformer 把 LN 放在残差里几乎所有现代模型都挪到外面原因：keep your residual stream clean 梯度反传更稳 2）RMS Norm 替代 LayerNorm LayerNorm 的减均值 + 加 bias 那部分实际没怎么帮上忙丢掉之后 flops 只省 0.17% 但运行时省到 25% （瓶颈在数据搬运计算反而次要） 3）所有 bias 项全删跟 RMS Norm 一个道理系统层省内存搬运 4）激活函数用 SwiGLU 或 GeGLU gated linear unit 几乎所有现代模型都用 Llama 系 / Qwen / Mistral 用 SwiGLU Google 系（Gemma / T5）用 GeGLU 区别极小选哪个都行 5）位置编码用 RoPE 2024 年之后基本统一了原理：把每对维度按位置旋转一个角度让 inner product 只依赖相对位置 6）Transformer block 串联（不是并联） GPT-J / Palm 试过并联现在基本被放弃串联的实现优化得太好了并联省的那点系统开销不值得损失表达力 7）Layer norm 可以「撒」哪儿不稳就在哪儿加 LN attention 之前能加之后能加两边都加（double norm）也可以现代模型很多这样做【超参数已经收敛的 5 个数】 1）feedforward 维度 / hidden 维度 - 非 GLU 模型：4 倍 - GLU 模型：8/3 ≈ 2.67 倍（因为 GLU 多一组矩阵要保持总参数量） - Llama 系：3.5 倍 - T5 1.0 试过 64 倍后来 T5 1.1 改回标准别学 2）head 数 × head 维度 ≈ hidden 维度几乎所有模型都遵守 T5 是为数不多的例外 3）模型纵横比（hidden / 层数）≈ 100 太深 pipeline parallel 难做太宽表达力受限 100 这个数字是系统约束 + 表达力的平衡点 4）vocab size 单语模型：30K 左右（早期 GPT-2 那种）多语 / 通用模型：100K-200K（GPT-4 / Llama 3 / Gemma 都在这个范围）现代基本都是后者 5）weight decay 仍然普遍使用但研究发现它在 LLM 里干的事其实是优化器干预让你最终能收敛到更深的最优点跟你想的「防过拟合」没什么关系所以别因为「单 epoch 不会过拟合」就把它关掉【稳定性三个救命 trick】训练大模型最怕中途 loss 突然飙升然后 NaN 全军覆没现代模型用三个 trick 防这件事 1）Z-loss output softmax 的 normalizer 容易爆加一个 (log Z)² 的正则项让 Z 始终接近 1 DCLM / Olmo 都用 2）QK norm attention 的 Q 和 K 在矩阵乘之前各加一个 LN 让 softmax 的输入永远是单位尺度 multimodal 圈先用起来现在所有大模型都加 3）Logit soft cap（仅 Google 系） attention logit 用 tanh 硬封顶 Gemma 2/3/4 都在用但会损失一点点性能慎用【Attention 两个新趋势】 1）GQA（Grouped Query Attention）几乎统一原版 multi-head 推理时 KV cache 会让算术强度崩到 1/h GQA 共享 K 和 V 但保留多个 Q 表达力几乎不损失推理成本砍掉 80% 现在所有要做生产部署的大模型没有不用 GQA 的 2）局部 + 全局 attention 交替处理长上下文的新方式 Cohere Command A 起头现在 Llama 4 / Gemma 4 / Olmo 3 全在用比如每 4 层有 1 层 full attention 其他 3 层是 sliding window 只看附近的 token 比纯 SSM 更稳比纯 full attention 便宜得多（Qwen 3.5 做了变体把 sliding window 那 3 层换成 SSM）收尾一句如果你正在训自己的 LLM，上面这一套就是 2026 年的「默认配置」不需要重新发明，直接抄如果你只是想看懂 GitHub 上那些 modeling_xxx.py 这一份足够你不再被术语吓住

Roan@RohOnChain

Anthropic pays $750,000+ a year for engineers who can build LLM architectures from scratch. Stanford taught the entire thing in 1 hour lecture & released it for free. Bookmark & watch this today before someone takes it down.

中文

507

2.7K

435.5K

宏卫国@zuopaileader·1d

@sunyunran 这竹杆子身材还美成这样呢

中文

1.5K

孙云冉.eth@sunyunran·2d

张元英出圈名场面之开球，为什么会有人穿着普普通通的牛仔裤就美成这样😲

中文

844

1.6K

1.4M

宏卫国@zuopaileader·2d

@Leeaqaa @Chengeshuo 屁股还可以好吧

中文

Lee@Leeaqaa·3d

@Chengeshuo 赞达亚不是白人，而且她丑得一逼，从来没觉得她好看，好莱坞政治正确的产物罢了

中文

2.9K

宏卫国@zuopaileader·3d

@lvjin1993 确实拍的好看，家里有佣人天天打扫吗

中文

Li Mengbai@lvjin1993·4d

当亲戚以为女子住20年楼龄老小区，觉得她日子过得拮据……于是，她直接来了个全屋一镜到底。

中文

1.3K

7.6K

45.9K

宏卫国@zuopaileader·28 Nis

@xianzhe9527 身体感觉完全不一样

中文

1.2K

招财猫@xianzhe9527·28 Nis

谁知道性交射精和手淫射精之间的区别？

中文

328

590

1.5M

宏卫国@zuopaileader·28 Nis

@bangzhu_x 我也觉得叫爸爸是国内小鸡鸡阳痿男的癖好。自己没男性魅力的心理补偿，直到我我有天操了一个国妞……

中文

3.4K

邦主@bangzhu_x·27 Nis

床上的“骚话”要怎么说才能让女人更爽呢🫣 #延时 #男女 #两性 #夫妻关系 #保健 #约会 #美女 #补肾 #技巧 #男人女人

中文

675

290

7.1K

652.1K

宏卫国@zuopaileader·24 Nis

@chennan789 这文案说的也挺傻逼的，好好的人话不说说的一股AI娘娘腔味

中文

2.5K

陳男@chennan789·24 Nis

史上最离谱翻红事件诞生，资本砸下四个亿的真金白银，试图将S级大剧逐玉的男主张凌赫捧上神坛。结果这泼天的富贵却精准的绕过了所有参演人员，砸中了一个根本没有出演该剧，今年已经51岁的过气演员何润东。在商业投资中，这叫典型的正向溢出效应，但溢出的如此疯狂，可谓闻所未闻。短短半个月，何润东在抖音单平台狂涨近200万高净值粉丝。关于他的二创视频播放量暴力突破12亿大关，更让圈内资本眼红的是市场的真金白银投票。

中文

290

1.7K

340.9K

宏卫国@zuopaileader·23 Nis

@xqt1688 滚

日本語

5.3K

江南雨💦投研@xqt1688·23 Nis

聪明的老婆能看懂 ! 这话说的没毛病，要细读，

中文

844

606

3.3M

宏卫国@zuopaileader·19 Nis

@royxy 英国的建筑大多稀奇古怪，但是维护的都很好，虽然维护成本是巨额的

中文

463

骆逸@royxy·19 Nis

看到有人在贴广州大剧院的近照。这是扎哈老太太在中国的第一个项目。没几年就已经旧成这种不能看的样子了。项目刚建成的时候，我去现场参观就发现施工质量本来就比较差。这种熵极低的现代和后现代建筑，最大的问题就是根本没有能力对抗熵的增加、时间的侵袭。一旦岁月流逝，很快就会变得破败不堪。

中文

113

58.8K

宏卫国@zuopaileader·18 Nis

@rwayne 确实有点丢人，不过美女可以原谅

中文

485

Roland.W@rwayne·17 Nis

啊？？？ Tra是麻省理工本科的？？？啊？？？

Tra的美本日记@not_racc

x.com/i/article/2042…

中文

386

199.1K

宏卫国@zuopaileader·17 Nis

@wangjupaian 我看这啥大冰舅舅官腔挺足的。

中文

112

王局拍案@wangjupaian·16 Nis

【主播大冰连线网友：这山东孩子开口就是“科级干部风”】4月16日，大冰直播连线一名山东网友，这名山东网友说话自带官腔，科级干部式发言： “那好，今天咱们就步入正题。” “主要是请您帮我梳理两个议题和两个方法论。” 评论区网友调侃： “这么大的架子，一点官都没有！” “在我们这算嘴笨的！”

中文

270

2.1K

453.1K

宏卫国@zuopaileader·15 Nis

@hungjnling6 这男的还没素质了。自己老婆追求女权自由不支持还在冷嘲热讽

中文

8.2K

老黄不黄@hungjnling6·14 Nis

女人和教练玩车震，被老公抓现行！

中文

103

1.5K

405K

宏卫国@zuopaileader·12 Nis

@Zenzhe99 激光通信怎么保持一直对准？

中文

428

华尔街财经 | WS × AI Era@WSInsights·11 Nis

40万公里外的深空如何开4K直播？难道太空有WIFI吗? 3分钟为你揭秘NASA深空黑科技产品以及马斯克正在布局的“月链”计划👍🏼 #宇宙未解之谜 #阿尔忒弥斯2号

中文

160

11.2K

宏卫国@zuopaileader·12 Nis

@Tanxinbuzu @royxy 你比一下呀

日本語

129

貪心不足@Tanxinbuzu·11 Nis

@royxy 比较一下两国的登月载荷，实际上并不存在竞赛

中文

1.4K

骆逸@royxy·11 Nis

虽然阿尔忒弥斯二成功返回，以前我也一直觉得，在这一轮登月竞赛当中，美国还是明显优势。但是今天看了一些资料，了解了两国登月装备研发的进展，我第一次有把握的认为这次中国会比美国先实现载人登月。美国的登月器目前太滞后了。不管是空叉还是蓝色起源，目前都在初级阶段。川普号称2028年登月的计划根本就是镜花水月。

中文

50.5K

宏卫国@zuopaileader·9 Nis

@FLMdongtianfudi 这律师也没啥聪明的只不过是给钱干爬下了罢了

中文

1.1K

Fang知识分享@FLMdongtianfudi·8 Nis

20秒被这个律师干趴下，“聪明是最重要的东西”。

中文

237

234

2.1K

176.1K

宏卫国@zuopaileader·5 Nis

@meimei1935 这就是中国的逆袭爽文的ai洋人版无聊

中文

560

菲菲4.0@meimei1935·5 Nis

曼哈顿凌晨两点的顶级香槟，终究洗不净凯尔骨子里的傲慢与偏见。他自诩立于云端，却在看到一张烫金邀请函与一件破旧毛毯同台时，瞬间崩塌了那层名为“优雅”的漆面。在这场名流汇聚的盛宴里，最寒碜的不是莉娜冻红的手，而是凯尔那颗只能靠俯视弱者来维持尊严的、贫瘠的心。殊不知，那女孩正是会所的联合创始人，她故意以最卑微的模样现身，只为测试应聘者是否拥有一颗善良的心。可笑的是，那个本有机会被录用的人，却用最赤裸的势利与冷酷，亲手把自己的前途撕得粉碎。

中文

101

651

17.6K

宏卫国@zuopaileader·31 Mar

@hank_aibtc 谁让他们自己用ai来开发发布。ai干活就这样子

中文

19.1K

HankAI@hank_aibtc·31 Mar

兄弟们，这波Claude Code 源码泄露太乐了，直接等于Anthropic给开源了。事情是这样的：他们发npm包的时候，压根没在.npmignore里把source map文件过滤掉。结果一堆开发者装完包，就在node_modules 里翻出那个超大.map文件，里面藏着完整的TypeScript源码映射。随便一还原， 1900多个文件原封不动摆在那儿，终端CLI架构、40多个工具、50来个命令，全都一览无余。 GitHub上已经有人打包上传了， Bun运行时、Anthropic SDK怎么接、权限控制怎么搞、自然语言转代码的流程……全都能扒。之前老版本就出过一次这事儿，这次又重蹈覆辙，属实草台班子现场。对我们这些搞AI工具的来说，这简直是天上掉馅饼。想自己搭个类似agentic coding CLI的，直接抄作业就行，省了多少试错时间。想看的直接冲这个仓库：github.com/instructkr/cla… 学完别白嫖，记得给原作者点个star，或者自己改改发个更好玩的版本。 AI圈子就爱这种意外的开源精神