Seriou

567 posts

Seriou banner
Seriou

Seriou

@pie1578071

Seriou

Katılım Temmuz 2025
314 Takip Edilen8 Takipçiler
Seriou retweetledi
Roland.W
Roland.W@rwayne·
我确实是第一次看到讲在Reddit上面去挖掘需求的 这个文章值得被更多人看见,写得特别特别的好 第一次看到非技术背景的女性用户写出这么高质量的文章,太厉害了👍
LISA@MindOS_Lisa

x.com/i/article/2050…

中文
1
75
385
108.3K
Seriou retweetledi
🌞Sunny哥
🌞Sunny哥@BTC__Sunny·
真心劝所有人,都去冲斯坦福这场两小时封神讲座 直接把ChatGPT,Claude所有主流大模型底层核心逻辑扒得底朝天,讲得通透到离谱! 全程全是硬核干货,含金量直接拉满 很多知识点就算是AI圈内老从业者,平时压根接触不到、根本没人肯讲 别再天天沉迷碎片化短视频瞎耗时间浪费生命了 赶紧先收藏码死,抽两小时沉下心一口气看完! 看完直接颠覆认知,这绝对是你这周最值最赚 提升最大的一次深度学习,没有之一!
中文
58
485
1.6K
98.9K
trish
trish@TrisH0x2A·
Build Your Own Redis with C Learn network programming and data structures by coding from scratch.
trish tweet media
English
6
97
944
28.7K
Seriou retweetledi
Jason Zhu
Jason Zhu@GoSailGlobal·
Stanford CS336 上,Tatsu 讲了一节 LLM 架构课,把过去 3 年所有主流 LLM 拆开,看它们的共通模板 结论挺爆:90% 的架构选择已经收敛,你随便挑一个开源大模型,它跟其他模型在这些维度上几乎一模一样 讲师的原话 - 2024 年大家都在 cosplay Llama2 - 2025 年的主题是「怎么训得不崩」 - 2026 年的主题是「怎么扛住长上下文」 下面是 2026 年开源 LLM 的标准模板 你训自己的模型可以直接抄 【架构层 已经收敛的 7 件事】 1)Layer Norm 挪出残差流(pre-norm) 原版 Transformer 把 LN 放在残差里 几乎所有现代模型都挪到外面 原因:keep your residual stream clean 梯度反传更稳 2)RMS Norm 替代 LayerNorm LayerNorm 的减均值 + 加 bias 那部分实际没怎么帮上忙 丢掉之后 flops 只省 0.17% 但运行时省到 25% (瓶颈在数据搬运 计算反而次要) 3)所有 bias 项全删 跟 RMS Norm 一个道理 系统层省内存搬运 4)激活函数用 SwiGLU 或 GeGLU gated linear unit 几乎所有现代模型都用 Llama 系 / Qwen / Mistral 用 SwiGLU Google 系(Gemma / T5)用 GeGLU 区别极小 选哪个都行 5)位置编码用 RoPE 2024 年之后基本统一了 原理:把每对维度按位置旋转一个角度 让 inner product 只依赖相对位置 6)Transformer block 串联(不是并联) GPT-J / Palm 试过并联 现在基本被放弃 串联的实现优化得太好了 并联省的那点系统开销不值得损失表达力 7)Layer norm 可以「撒」 哪儿不稳就在哪儿加 LN attention 之前能加 之后能加 两边都加(double norm)也可以 现代模型很多这样做 【超参数 已经收敛的 5 个数】 1)feedforward 维度 / hidden 维度 - 非 GLU 模型:4 倍 - GLU 模型:8/3 ≈ 2.67 倍(因为 GLU 多一组矩阵 要保持总参数量) - Llama 系:3.5 倍 - T5 1.0 试过 64 倍 后来 T5 1.1 改回标准 别学 2)head 数 × head 维度 ≈ hidden 维度 几乎所有模型都遵守 T5 是为数不多的例外 3)模型纵横比(hidden / 层数)≈ 100 太深 pipeline parallel 难做 太宽 表达力受限 100 这个数字是系统约束 + 表达力的平衡点 4)vocab size 单语模型:30K 左右(早期 GPT-2 那种) 多语 / 通用模型:100K-200K(GPT-4 / Llama 3 / Gemma 都在这个范围) 现代基本都是后者 5)weight decay 仍然普遍使用 但研究发现它在 LLM 里干的事其实是优化器干预 让你最终能收敛到更深的最优点 跟你想的「防过拟合」没什么关系 所以别因为「单 epoch 不会过拟合」就把它关掉 【稳定性 三个救命 trick】 训练大模型最怕中途 loss 突然飙升 然后 NaN 全军覆没 现代模型用三个 trick 防这件事 1)Z-loss output softmax 的 normalizer 容易爆 加一个 (log Z)² 的正则项 让 Z 始终接近 1 DCLM / Olmo 都用 2)QK norm attention 的 Q 和 K 在矩阵乘之前各加一个 LN 让 softmax 的输入永远是单位尺度 multimodal 圈先用起来 现在所有大模型都加 3)Logit soft cap(仅 Google 系) attention logit 用 tanh 硬封顶 Gemma 2/3/4 都在用 但会损失一点点性能 慎用 【Attention 两个新趋势】 1)GQA(Grouped Query Attention)几乎统一 原版 multi-head 推理时 KV cache 会让算术强度崩到 1/h GQA 共享 K 和 V 但保留多个 Q 表达力几乎不损失 推理成本砍掉 80% 现在所有要做生产部署的大模型 没有不用 GQA 的 2)局部 + 全局 attention 交替 处理长上下文的新方式 Cohere Command A 起头 现在 Llama 4 / Gemma 4 / Olmo 3 全在用 比如每 4 层有 1 层 full attention 其他 3 层是 sliding window 只看附近的 token 比纯 SSM 更稳 比纯 full attention 便宜得多 (Qwen 3.5 做了变体 把 sliding window 那 3 层换成 SSM) 收尾一句 如果你正在训自己的 LLM,上面这一套就是 2026 年的「默认配置」 不需要重新发明,直接抄 如果你只是想看懂 GitHub 上那些 modeling_xxx.py 这一份足够你不再被术语吓住
Roan@RohOnChain

Anthropic pays $750,000+ a year for engineers who can build LLM architectures from scratch. Stanford taught the entire thing in 1 hour lecture & released it for free. Bookmark & watch this today before someone takes it down.

中文
19
436
2.4K
377.2K
Seriou retweetledi
Metabolic Edge
Metabolic Edge@DMetabolicEdge·
All men should practice these Kegel exercises in 2026 to improve erection, strength, stamina, and overall performance.
English
3
108
588
30.7K
Seriou retweetledi
阿绎 AYi
阿绎 AYi@AYi_AInotes·
Anthropic CEO Dario Amodei的那句“Claude在设计Claude”炸了整个AI圈🤯 但似乎很多人都看错了重点, 重点不是“RSI来了”,而是第一个被AI彻底重构的公司已经出现了啊兄弟们! 先看几个没被广泛传播的内部事实: • Claude Code负责人Boris Cherny,从2025年11月起,100%不再手写任何一行代码 • 整个Anthropic,现在几乎没有工程师手写代码 • Claude Code这个产品本身,90%的代码是Claude自己写的 以上就是2026年5月,Anthropic正在发生的日常。 现在他们的工程师只做三件事: 1️⃣写prompt, 2️⃣审代码, 3️⃣确定顶层架构。 剩下的所有脏活累活,全是Claude的。 那结果是什么呢? 只用了52天,就推出50多个重大功能! 2026年Q1,35次产品更新, 从Cowork到Code到Agents到1M上下文,别人几个月磨一个的东西,他们每周都在更🤯 必须澄清,并不是因为他们人多,主要是他们的工程师效率已经是行业的10倍以上了! 最恐怖的是,人和AI的角色已经彻底反转了。 以前:人类写代码,AI打下手, 现在:AI写代码,人类打下手, 人类只负责说“我要这个”,然后检查AI做的对不对。 我觉得这才是Dario那句话真正的意思,不是有个超级AI在黑暗里偷偷改权重。 是整个Anthropic,已经变成了一台Claude驱动的机器。 研发、测试、迭代、产品,整个流水线的主力,都是AI。 人类在这家公司里,已经从生产者变成了监督者。 所以这就是递归自我改进(RSI)的第一步。 大家都以为RSI是某天AI突然觉醒了,那这就想错了。 RSI的第一步,是AI先接管了生产自己的整个工厂。 现在再看OpenAI上周的Auto-review,是不是瞬间串起来了?OpenAI解决了:谁来监督AI?答案是AI。 Anthropic解决了:谁来生产AI?答案是AI自己。 两者拼在一起,就是一个完整的、可以自我运行、自我改进的AI闭环。 然后人类只需要站在外面,偶尔按一下暂停键,甚至连暂停键最后可能也要交给AI。 我以前一直以为,AI会最后取代程序员,现在发现我错了。 程序员是第一个被彻底重构的职业,而且是被自己亲手写出来的东西,取代的。 更可怕的是,这是一个不可逆的过程。 一旦你用AI写代码,你的迭代速度就会比别人快10倍。 别人不跟进,就会死。 跟进,就必须把越来越多的权力交给AI。 没有中间路线。 所以别再问RSI什么时候来了,它已经来了,只不过没有变成天网降临。 但是现在它变成了一家2000人的公司,悄悄藏在旧金山的一栋办公楼里。 #AI #RSI #Anthropic #Claude #大模型
阿绎 AYi@AYi_AInotes

Anthropic CEO Dario Amodei把所有程序员和独立开发者的终局和心里模糊的不安都说透了:未来只有5%的人能真正留在牌桌上。 他平静但无比坚定,说最先被商品化的,是写代码这件事, 再往后,软件工程里从需求分析、架构设计到测试部署的大部分常规流程,也会被逐步接管。 最后能真正留在牌桌上的,只有大约5%的人。 以后拼的再也不是谁写的语法更标准,谁背的API更多,而是系统思维。 你能不能把一堆零散的AI能力,编排成一个稳定可靠的系统。 能不能给AI设边界、管长期记忆、控边缘推理。 能不能驾驭AI,而不是被AI替代。 Amodei反复强调,这不是什么遥远的未来,这就是正在发生的事。 看完真的感慨万千,也许AI根本不是要消灭所有开发者,它只是在重新定义开发者的价值。 过去的价值在告诉机器怎么做,未来的价值在告诉系统要做什么。 过去你是写代码的人,未来你是设计和掌控整个智能系统的人。 未来的编程不会再是是写给机器,更多是写给系统的。

中文
7
9
46
15.7K
Seriou retweetledi
Tw93
Tw93@HiTw93·
对于想偷懒的小伙伴,这篇文章不要读,直接扔给你的 tw93/waza,然后让他使用 /read 和 /think 两个技能自动帮你去优化就好,只要10min就给你搞完了。
Tw93@HiTw93

x.com/i/article/2050…

中文
10
27
203
40.7K
Seriou retweetledi
Python Space
Python Space@python_spaces·
Python and Data Analysis Book for FREE! To get your copy, do the following. - Like and Repost - Comment "Python" - Follow me so that I can DM you.
Python Space tweet media
English
343
321
972
57.6K
Seriou retweetledi
Bill The Investor
Bill The Investor@billtheinvestor·
Bill Ackman简直进行了一场长达44分钟的金钱大师课,其对金钱的讲解比任何商学院都要透彻:
中文
19
228
672
50.9K
Seriou retweetledi
梭哈|超级个体
梭哈|超级个体@WEB3_furture·
非常值得刷的视频课--麻省理工《How to AI (Almost) Anything》 这门MIT公开课教你如何用AI(几乎)做任何事情——共12节课,覆盖大量专业领域 youtu.be/0MYt0u3CW5I?li… 大部分内容容易忘,建议把这份中英双语版讲义+图文笔记(社区整理)保存到NotebookLM / Claude / ChatGPT构建你自己的知识库,方便随时对话检索👇 v2su.com/4211/
YouTube video
YouTube
中文
81
146
438
37.7K
Seriou retweetledi
13seee
13seee@justone_he·
现在可真是学习的最好时代,把David J. C. MacKay 的经典教材 《Information Theory, Inference, and Learning Algorithms》英文版pdf扔给codex,告诉它我的学习需求,它就给我把每一章重点和学习路线写出来了,甚至根据我的需求,按照什么顺序学习,哪些章节要学哪些不要学都整理好了。
13seee tweet media13seee tweet media
中文
10
104
736
51K
Seriou retweetledi
EnHeng嗯哼.Ai
EnHeng嗯哼.Ai@EnHeng456·
所有人都应该去看看—麻省理工的一门新公开课《如何用Ai(几乎)做任何事情》 How to AI (Almost) Anything | MIT OpenCourseWare
中文
173
430
2.1K
154.7K
Seriou retweetledi
Xiuyu Li
Xiuyu Li@sheriyuo·
写的非常详细的入门教程 RL 很恶心的点就在于你什么都要会:pretrain、inference、theory、infra 现在我也有了可以推荐给别人入门的读物,比我当时东看一点西看一点好太多了🥺 很多现代 LLM 的教学其实跳过了相当一部分的基础知识,比如 CNN、Q-Learning 这一类经典内容。我感觉我也是填鸭式地在学习这些内容,需要耐下心来慢慢地去看那些最旧最老最传统的东西 很感谢苏剑林的 blog 带我入门,我也想能写出一些带别人入门的东西,只不过即使是用 LLM 辅助写 notes 也相当折磨人,然后知乎上还没什么人看 当然还是有很多人喜欢看我写的垃圾 notes 的,还被行业杰青大佬订阅了,这种事跟 paper 被人关注了一样开心 Website: walkinglabs.github.io/hands-on-moder…
Xiuyu Li tweet media
paperpaper@paperpaper886

比较有趣的入门教程 该项目希望用一条更“实践优先”的路径来学习现代强化学习:从经典控制出发,逐步连接到 LLM 后训练基础、DPO/GRPO/RLVR、Agentic RL 和 VLM RL 等现代应用。 GitHub: github.com/walkinglabs/ha… WebPage: walkinglabs.github.io/hands-on-moder…

中文
13
273
1.8K
182.1K
Seriou retweetledi
Nandkishor
Nandkishor@devops_nk·
How does Docker work ? Docker’s architecture is built around three main components that work together to build, distribute, and run containers. 1 - Docker Client: - This is the interface through which users interact with Docker. It sends commands (such as build, pull, run, push) to the Docker Daemon using the Docker API. 2 - Docker Host: - This is where the Docker Daemon runs. - It manages images, containers, networks, and volumes, and is responsible for building and running applications. 3 - Docker Registry: - The storage system for Docker images. - Public registries like Docker Hub or private registries allow pulling and pushing images. Do you use Docker in your projects ?
Nandkishor tweet media
English
6
32
180
4.7K