宏卫国

5.7K posts

宏卫国 banner
宏卫国

宏卫国

@zuopaileader

新新左派领导人,真共产党人,川粉➕习粉 。俯首甘为美女牛,横眉冷对装逼犯

广大农村 Katılım Mart 2011
473 Takip Edilen249 Takipçiler
Sabitlenmiş Tweet
宏卫国
宏卫国@zuopaileader·
颠覆西方社会的战士们
宏卫国 tweet media
中文
2
0
5
0
须影吟者🕊️
须影吟者🕊️@Phoenix_AlphaX·
颜值真的有那么重要吗? 我相过一次亲,对方是个26岁的处女,一次恋爱都没谈过,但是相过很多次。 两个星期后的早上,我抱着怀里的她问为什么相那么多次都没遇到合适的? 她笑盈盈的凑上来亲了一口看着我的眼睛说因为喜欢你啊😂😂😂
中文
319
6
426
322.2K
宏卫国
宏卫国@zuopaileader·
@GoSailGlobal 这字幕垃圾的可以。ai时代精品课程加废物ai助理
中文
0
0
0
411
Jason Zhu
Jason Zhu@GoSailGlobal·
Stanford CS336 上,Tatsu 讲了一节 LLM 架构课,把过去 3 年所有主流 LLM 拆开,看它们的共通模板 结论挺爆:90% 的架构选择已经收敛,你随便挑一个开源大模型,它跟其他模型在这些维度上几乎一模一样 讲师的原话 - 2024 年大家都在 cosplay Llama2 - 2025 年的主题是「怎么训得不崩」 - 2026 年的主题是「怎么扛住长上下文」 下面是 2026 年开源 LLM 的标准模板 你训自己的模型可以直接抄 【架构层 已经收敛的 7 件事】 1)Layer Norm 挪出残差流(pre-norm) 原版 Transformer 把 LN 放在残差里 几乎所有现代模型都挪到外面 原因:keep your residual stream clean 梯度反传更稳 2)RMS Norm 替代 LayerNorm LayerNorm 的减均值 + 加 bias 那部分实际没怎么帮上忙 丢掉之后 flops 只省 0.17% 但运行时省到 25% (瓶颈在数据搬运 计算反而次要) 3)所有 bias 项全删 跟 RMS Norm 一个道理 系统层省内存搬运 4)激活函数用 SwiGLU 或 GeGLU gated linear unit 几乎所有现代模型都用 Llama 系 / Qwen / Mistral 用 SwiGLU Google 系(Gemma / T5)用 GeGLU 区别极小 选哪个都行 5)位置编码用 RoPE 2024 年之后基本统一了 原理:把每对维度按位置旋转一个角度 让 inner product 只依赖相对位置 6)Transformer block 串联(不是并联) GPT-J / Palm 试过并联 现在基本被放弃 串联的实现优化得太好了 并联省的那点系统开销不值得损失表达力 7)Layer norm 可以「撒」 哪儿不稳就在哪儿加 LN attention 之前能加 之后能加 两边都加(double norm)也可以 现代模型很多这样做 【超参数 已经收敛的 5 个数】 1)feedforward 维度 / hidden 维度 - 非 GLU 模型:4 倍 - GLU 模型:8/3 ≈ 2.67 倍(因为 GLU 多一组矩阵 要保持总参数量) - Llama 系:3.5 倍 - T5 1.0 试过 64 倍 后来 T5 1.1 改回标准 别学 2)head 数 × head 维度 ≈ hidden 维度 几乎所有模型都遵守 T5 是为数不多的例外 3)模型纵横比(hidden / 层数)≈ 100 太深 pipeline parallel 难做 太宽 表达力受限 100 这个数字是系统约束 + 表达力的平衡点 4)vocab size 单语模型:30K 左右(早期 GPT-2 那种) 多语 / 通用模型:100K-200K(GPT-4 / Llama 3 / Gemma 都在这个范围) 现代基本都是后者 5)weight decay 仍然普遍使用 但研究发现它在 LLM 里干的事其实是优化器干预 让你最终能收敛到更深的最优点 跟你想的「防过拟合」没什么关系 所以别因为「单 epoch 不会过拟合」就把它关掉 【稳定性 三个救命 trick】 训练大模型最怕中途 loss 突然飙升 然后 NaN 全军覆没 现代模型用三个 trick 防这件事 1)Z-loss output softmax 的 normalizer 容易爆 加一个 (log Z)² 的正则项 让 Z 始终接近 1 DCLM / Olmo 都用 2)QK norm attention 的 Q 和 K 在矩阵乘之前各加一个 LN 让 softmax 的输入永远是单位尺度 multimodal 圈先用起来 现在所有大模型都加 3)Logit soft cap(仅 Google 系) attention logit 用 tanh 硬封顶 Gemma 2/3/4 都在用 但会损失一点点性能 慎用 【Attention 两个新趋势】 1)GQA(Grouped Query Attention)几乎统一 原版 multi-head 推理时 KV cache 会让算术强度崩到 1/h GQA 共享 K 和 V 但保留多个 Q 表达力几乎不损失 推理成本砍掉 80% 现在所有要做生产部署的大模型 没有不用 GQA 的 2)局部 + 全局 attention 交替 处理长上下文的新方式 Cohere Command A 起头 现在 Llama 4 / Gemma 4 / Olmo 3 全在用 比如每 4 层有 1 层 full attention 其他 3 层是 sliding window 只看附近的 token 比纯 SSM 更稳 比纯 full attention 便宜得多 (Qwen 3.5 做了变体 把 sliding window 那 3 层换成 SSM) 收尾一句 如果你正在训自己的 LLM,上面这一套就是 2026 年的「默认配置」 不需要重新发明,直接抄 如果你只是想看懂 GitHub 上那些 modeling_xxx.py 这一份足够你不再被术语吓住
Roan@RohOnChain

Anthropic pays $750,000+ a year for engineers who can build LLM architectures from scratch. Stanford taught the entire thing in 1 hour lecture & released it for free. Bookmark & watch this today before someone takes it down.

中文
23
507
2.7K
435.5K
孙云冉.eth
孙云冉.eth@sunyunran·
张元英出圈名场面之开球,为什么会有人穿着普普通通的牛仔裤就美成这样😲
中文
844
24
1.6K
1.4M
Lee
Lee@Leeaqaa·
@Chengeshuo 赞达亚不是白人,而且她丑得一逼,从来没觉得她好看,好莱坞政治正确的产物罢了
中文
1
0
6
2.9K
宏卫国
宏卫国@zuopaileader·
@lvjin1993 确实拍的好看,家里有佣人天天打扫吗
中文
0
0
0
15
Li Mengbai
Li Mengbai@lvjin1993·
当亲戚以为女子住20年楼龄老小区,觉得她日子过得拮据……于是,她直接来了个全屋一镜到底。
中文
1.3K
7.6K
45.9K
3M
招财猫
招财猫@xianzhe9527·
谁知道性交射精和手淫射精之间的区别?
中文
328
17
590
1.5M
宏卫国
宏卫国@zuopaileader·
@bangzhu_x 我也觉得叫爸爸是国内小鸡鸡阳痿男的癖好。自己没男性魅力的心理补偿,直到我我有天操了一个国妞……
中文
0
0
1
3.4K
邦主
邦主@bangzhu_x·
床上的“骚话”要怎么说 才能让女人更爽呢🫣 #延时 #男女 #两性 #夫妻关系 #保健 #约会 #美女 #补肾 #技巧 #男人女人
中文
675
290
7.1K
652.1K
宏卫国
宏卫国@zuopaileader·
@chennan789 这文案说的也挺傻逼的,好好的人话不说说的一股AI娘娘腔味
中文
0
1
6
2.5K
陳男
陳男@chennan789·
史上最离谱翻红事件诞生,资本砸下四个亿的真金白银,试图将S级大剧逐玉的男主张凌赫捧上神坛。 结果这泼天的富贵却精准的绕过了所有参演人员,砸中了一个根本没有出演该剧,今年已经51岁的过气演员何润东。 在商业投资中,这叫典型的正向溢出效应,但溢出的如此疯狂,可谓闻所未闻。 短短半个月,何润东在抖音单平台狂涨近200万高净值粉丝。 关于他的二创视频播放量暴力突破12亿大关,更让圈内资本眼红的是市场的真金白银投票。
中文
290
88
1.7K
340.9K
江南雨💦投研
江南雨💦投研@xqt1688·
聪明的老婆能看懂 ! 这话说的没毛病,要细读,
江南雨💦投研 tweet media
中文
844
9
606
3.3M
宏卫国
宏卫国@zuopaileader·
@royxy 英国的建筑大多稀奇古怪,但是维护的都很好,虽然维护成本是巨额的
中文
0
0
0
463
骆逸
骆逸@royxy·
看到有人在贴广州大剧院的近照。这是扎哈老太太在中国的第一个项目。没几年就已经旧成这种不能看的样子了。项目刚建成的时候,我去现场参观就发现施工质量本来就比较差。这种熵极低的现代和后现代建筑,最大的问题就是根本没有能力对抗熵的增加、时间的侵袭。一旦岁月流逝,很快就会变得破败不堪。
骆逸 tweet media骆逸 tweet media
中文
55
10
113
58.8K
宏卫国
宏卫国@zuopaileader·
@rwayne 确实有点丢人,不过美女可以原谅
中文
0
0
0
485
王局拍案
王局拍案@wangjupaian·
【主播大冰连线网友:这山东孩子开口就是“科级干部风”】4月16日,大冰直播连线一名山东网友,这名山东网友说话自带官腔,科级干部式发言: “那好,今天咱们就步入正题。” “主要是请您帮我梳理两个议题和两个方法论。” 评论区网友调侃: “这么大的架子,一点官都没有!” “在我们这算嘴笨的!”
中文
270
69
2.1K
453.1K
宏卫国
宏卫国@zuopaileader·
@hungjnling6 这男的还没素质了。自己老婆追求女权自由不支持还在冷嘲热讽
中文
3
0
20
8.2K
老黄不黄
老黄不黄@hungjnling6·
女人和教练玩车震,被老公抓现行!
中文
103
42
1.5K
405K
宏卫国
宏卫国@zuopaileader·
@Zenzhe99 激光通信怎么保持一直对准?
中文
0
0
1
428
华尔街财经 | WS × AI Era
40万公里外的深空如何开4K直播? 难道太空有WIFI吗? 3分钟为你揭秘NASA深空黑科技产品 以及马斯克正在布局的“月链”计划👍🏼 #宇宙未解之谜 #阿尔忒弥斯2号
中文
3
19
160
11.2K
貪心不足
貪心不足@Tanxinbuzu·
@royxy 比较一下两国的登月载荷,实际上并不存在竞赛
中文
1
0
3
1.4K
骆逸
骆逸@royxy·
虽然阿尔忒弥斯二成功返回,以前我也一直觉得,在这一轮登月竞赛当中,美国还是明显优势。但是今天看了一些资料,了解了两国登月装备研发的进展,我第一次有把握的认为这次中国会比美国先实现载人登月。美国的登月器目前太滞后了。不管是空叉还是蓝色起源,目前都在初级阶段。川普号称2028年登月的计划根本就是镜花水月。
中文
45
10
77
50.5K
Fang知识分享
Fang知识分享@FLMdongtianfudi·
20秒被这个律师干趴下,“聪明是最重要的东西”。
中文
237
234
2.1K
176.1K
宏卫国
宏卫国@zuopaileader·
@meimei1935 这就是中国的逆袭爽文的ai洋人版无聊
中文
0
0
14
560
菲菲4.0
菲菲4.0@meimei1935·
曼哈顿凌晨两点的顶级香槟,终究洗不净凯尔骨子里的傲慢与偏见。他自诩立于云端,却在看到一张烫金邀请函与一件破旧毛毯同台时,瞬间崩塌了那层名为“优雅”的漆面。在这场名流汇聚的盛宴里,最寒碜的不是莉娜冻红的手,而是凯尔那颗只能靠俯视弱者来维持尊严的、贫瘠的心。 殊不知,那女孩正是会所的联合创始人,她故意以最卑微的模样现身,只为测试应聘者是否拥有一颗善良的心。可笑的是,那个本有机会被录用的人,却用最赤裸的势利与冷酷,亲手把自己的前途撕得粉碎。
中文
41
101
651
17.6K
宏卫国
宏卫国@zuopaileader·
@hank_aibtc 谁让他们自己用ai来开发发布。ai干活就这样子
中文
3
0
66
19.1K
HankAI
HankAI@hank_aibtc·
兄弟们,这波Claude Code 源码泄露太乐了,直接等于Anthropic给开源了。 事情是这样的: 他们发npm包的时候,压根没在.npmignore里 把source map文件过滤掉。结果一堆开发者装完包, 就在node_modules 里翻出那个超大.map文件,里面藏着 完整的TypeScript源码映射。随便一还原, 1900多个文件原封不动摆在那儿,终端CLI架构、40多个工具、50来个命令,全都一览无余。 GitHub上已经有人打包上传了, Bun运行时、Anthropic SDK怎么接、 权限控制怎么搞、自然语言转代码的流程……全都能扒。之前老版本就出过一次这事儿,这次又重蹈覆辙,属实草台班子现场。 对我们这些搞AI工具的来说, 这简直是天上掉馅饼。想自己 搭个类似agentic coding CLI的, 直接抄作业就行,省了多少试错时间。 想看的直接冲这个仓库:github.com/instructkr/cla… 学完别白嫖,记得给原作者点个star, 或者自己改改发个更好玩的版本。 AI圈子就爱这种意外的开源精神
中文
72
388
2.2K
395.2K
宏卫国
宏卫国@zuopaileader·
@huangyun_122 和tmd黄仁勋一个调调就是你有钱能烧token?
中文
0
0
0
480
黄赟
黄赟@huangyun_122·
一个最能体现你当下 AI Coding 水平的问题: 你能让 codex,claude code, gemini cli 无人值守运行多长时间? 注意⚠️:是无人值守,你可以去跑步,吃饭,睡觉,回来就拿结果的那种
中文
102
38
413
145.4K