Seriou

567 posts

Seriou

@pie1578071

Seriou

Katılım Temmuz 2025

314 Takip Edilen8 Takipçiler

Seriou retweetledi

Roland.W@rwayne·1d

我确实是第一次看到讲在Reddit上面去挖掘需求的这个文章值得被更多人看见，写得特别特别的好第一次看到非技术背景的女性用户写出这么高质量的文章，太厉害了👍

LISA@MindOS_Lisa

x.com/i/article/2050…

中文

385

108.3K

Seriou retweetledi

🌞Sunny哥@BTC__Sunny·8h

真心劝所有人，都去冲斯坦福这场两小时封神讲座直接把ChatGPT，Claude所有主流大模型底层核心逻辑扒得底朝天，讲得通透到离谱！全程全是硬核干货，含金量直接拉满很多知识点就算是AI圈内老从业者，平时压根接触不到、根本没人肯讲别再天天沉迷碎片化短视频瞎耗时间浪费生命了赶紧先收藏码死，抽两小时沉下心一口气看完！看完直接颠覆认知，这绝对是你这周最值最赚提升最大的一次深度学习，没有之一！

中文

485

1.6K

98.9K

Seriou@pie1578071·2m

@TrisH0x2A build your own things

English

Seriou retweetledi

trish@TrisH0x2A·1d

read this awesome article here: build-your-own.org/redis/

English

2.6K

trish@TrisH0x2A·1d

Build Your Own Redis with C Learn network programming and data structures by coding from scratch.

English

944

28.7K

Seriou retweetledi

Jason Zhu@GoSailGlobal·1d

Stanford CS336 上，Tatsu 讲了一节 LLM 架构课，把过去 3 年所有主流 LLM 拆开，看它们的共通模板结论挺爆：90% 的架构选择已经收敛，你随便挑一个开源大模型，它跟其他模型在这些维度上几乎一模一样讲师的原话 - 2024 年大家都在 cosplay Llama2 - 2025 年的主题是「怎么训得不崩」 - 2026 年的主题是「怎么扛住长上下文」下面是 2026 年开源 LLM 的标准模板你训自己的模型可以直接抄【架构层已经收敛的 7 件事】 1）Layer Norm 挪出残差流（pre-norm）原版 Transformer 把 LN 放在残差里几乎所有现代模型都挪到外面原因：keep your residual stream clean 梯度反传更稳 2）RMS Norm 替代 LayerNorm LayerNorm 的减均值 + 加 bias 那部分实际没怎么帮上忙丢掉之后 flops 只省 0.17% 但运行时省到 25% （瓶颈在数据搬运计算反而次要） 3）所有 bias 项全删跟 RMS Norm 一个道理系统层省内存搬运 4）激活函数用 SwiGLU 或 GeGLU gated linear unit 几乎所有现代模型都用 Llama 系 / Qwen / Mistral 用 SwiGLU Google 系（Gemma / T5）用 GeGLU 区别极小选哪个都行 5）位置编码用 RoPE 2024 年之后基本统一了原理：把每对维度按位置旋转一个角度让 inner product 只依赖相对位置 6）Transformer block 串联（不是并联） GPT-J / Palm 试过并联现在基本被放弃串联的实现优化得太好了并联省的那点系统开销不值得损失表达力 7）Layer norm 可以「撒」哪儿不稳就在哪儿加 LN attention 之前能加之后能加两边都加（double norm）也可以现代模型很多这样做【超参数已经收敛的 5 个数】 1）feedforward 维度 / hidden 维度 - 非 GLU 模型：4 倍 - GLU 模型：8/3 ≈ 2.67 倍（因为 GLU 多一组矩阵要保持总参数量） - Llama 系：3.5 倍 - T5 1.0 试过 64 倍后来 T5 1.1 改回标准别学 2）head 数 × head 维度 ≈ hidden 维度几乎所有模型都遵守 T5 是为数不多的例外 3）模型纵横比（hidden / 层数）≈ 100 太深 pipeline parallel 难做太宽表达力受限 100 这个数字是系统约束 + 表达力的平衡点 4）vocab size 单语模型：30K 左右（早期 GPT-2 那种）多语 / 通用模型：100K-200K（GPT-4 / Llama 3 / Gemma 都在这个范围）现代基本都是后者 5）weight decay 仍然普遍使用但研究发现它在 LLM 里干的事其实是优化器干预让你最终能收敛到更深的最优点跟你想的「防过拟合」没什么关系所以别因为「单 epoch 不会过拟合」就把它关掉【稳定性三个救命 trick】训练大模型最怕中途 loss 突然飙升然后 NaN 全军覆没现代模型用三个 trick 防这件事 1）Z-loss output softmax 的 normalizer 容易爆加一个 (log Z)² 的正则项让 Z 始终接近 1 DCLM / Olmo 都用 2）QK norm attention 的 Q 和 K 在矩阵乘之前各加一个 LN 让 softmax 的输入永远是单位尺度 multimodal 圈先用起来现在所有大模型都加 3）Logit soft cap（仅 Google 系） attention logit 用 tanh 硬封顶 Gemma 2/3/4 都在用但会损失一点点性能慎用【Attention 两个新趋势】 1）GQA（Grouped Query Attention）几乎统一原版 multi-head 推理时 KV cache 会让算术强度崩到 1/h GQA 共享 K 和 V 但保留多个 Q 表达力几乎不损失推理成本砍掉 80% 现在所有要做生产部署的大模型没有不用 GQA 的 2）局部 + 全局 attention 交替处理长上下文的新方式 Cohere Command A 起头现在 Llama 4 / Gemma 4 / Olmo 3 全在用比如每 4 层有 1 层 full attention 其他 3 层是 sliding window 只看附近的 token 比纯 SSM 更稳比纯 full attention 便宜得多（Qwen 3.5 做了变体把 sliding window 那 3 层换成 SSM）收尾一句如果你正在训自己的 LLM，上面这一套就是 2026 年的「默认配置」不需要重新发明，直接抄如果你只是想看懂 GitHub 上那些 modeling_xxx.py 这一份足够你不再被术语吓住

Roan@RohOnChain

Anthropic pays $750,000+ a year for engineers who can build LLM architectures from scratch. Stanford taught the entire thing in 1 hour lecture & released it for free. Bookmark & watch this today before someone takes it down.

中文

436

2.4K

377.2K

Seriou retweetledi

Metabolic Edge@DMetabolicEdge·1d

All men should practice these Kegel exercises in 2026 to improve erection, strength, stamina, and overall performance.

English

108

588

30.7K

Seriou retweetledi

阿绎 AYi@AYi_AInotes·1d

Anthropic CEO Dario Amodei的那句“Claude在设计Claude”炸了整个AI圈🤯 但似乎很多人都看错了重点，重点不是“RSI来了”，而是第一个被AI彻底重构的公司已经出现了啊兄弟们！先看几个没被广泛传播的内部事实： • Claude Code负责人Boris Cherny，从2025年11月起，100%不再手写任何一行代码 • 整个Anthropic，现在几乎没有工程师手写代码 • Claude Code这个产品本身，90%的代码是Claude自己写的以上就是2026年5月，Anthropic正在发生的日常。现在他们的工程师只做三件事： 1️⃣写prompt， 2️⃣审代码， 3️⃣确定顶层架构。剩下的所有脏活累活，全是Claude的。那结果是什么呢？只用了52天，就推出50多个重大功能！ 2026年Q1，35次产品更新，从Cowork到Code到Agents到1M上下文，别人几个月磨一个的东西，他们每周都在更🤯 必须澄清，并不是因为他们人多，主要是他们的工程师效率已经是行业的10倍以上了！最恐怖的是，人和AI的角色已经彻底反转了。以前：人类写代码，AI打下手，现在：AI写代码，人类打下手，人类只负责说“我要这个”，然后检查AI做的对不对。我觉得这才是Dario那句话真正的意思，不是有个超级AI在黑暗里偷偷改权重。是整个Anthropic，已经变成了一台Claude驱动的机器。研发、测试、迭代、产品，整个流水线的主力，都是AI。人类在这家公司里，已经从生产者变成了监督者。所以这就是递归自我改进（RSI）的第一步。大家都以为RSI是某天AI突然觉醒了，那这就想错了。 RSI的第一步，是AI先接管了生产自己的整个工厂。现在再看OpenAI上周的Auto-review，是不是瞬间串起来了？OpenAI解决了：谁来监督AI？答案是AI。 Anthropic解决了：谁来生产AI？答案是AI自己。两者拼在一起，就是一个完整的、可以自我运行、自我改进的AI闭环。然后人类只需要站在外面，偶尔按一下暂停键，甚至连暂停键最后可能也要交给AI。我以前一直以为，AI会最后取代程序员，现在发现我错了。程序员是第一个被彻底重构的职业，而且是被自己亲手写出来的东西，取代的。更可怕的是，这是一个不可逆的过程。一旦你用AI写代码，你的迭代速度就会比别人快10倍。别人不跟进，就会死。跟进，就必须把越来越多的权力交给AI。没有中间路线。所以别再问RSI什么时候来了，它已经来了，只不过没有变成天网降临。但是现在它变成了一家2000人的公司，悄悄藏在旧金山的一栋办公楼里。 #AI #RSI #Anthropic #Claude #大模型

阿绎 AYi@AYi_AInotes

Anthropic CEO Dario Amodei把所有程序员和独立开发者的终局和心里模糊的不安都说透了：未来只有5%的人能真正留在牌桌上。他平静但无比坚定，说最先被商品化的，是写代码这件事，再往后，软件工程里从需求分析、架构设计到测试部署的大部分常规流程，也会被逐步接管。最后能真正留在牌桌上的，只有大约5%的人。以后拼的再也不是谁写的语法更标准，谁背的API更多，而是系统思维。你能不能把一堆零散的AI能力，编排成一个稳定可靠的系统。能不能给AI设边界、管长期记忆、控边缘推理。能不能驾驭AI，而不是被AI替代。 Amodei反复强调，这不是什么遥远的未来，这就是正在发生的事。看完真的感慨万千，也许AI根本不是要消灭所有开发者，它只是在重新定义开发者的价值。过去的价值在告诉机器怎么做，未来的价值在告诉系统要做什么。过去你是写代码的人，未来你是设计和掌控整个智能系统的人。未来的编程不会再是是写给机器，更多是写给系统的。

中文

15.7K

Seriou retweetledi

Dhanian 🗯️@e_opore·23h

UNDERSTANDING BACKEND SERVICES Grab the Backend Engineering Ebook: codewithdhanian.gumroad.com/l/ungqng

English

1.5K

Seriou retweetledi

Tw93@HiTw93·1d

对于想偷懒的小伙伴，这篇文章不要读，直接扔给你的 tw93/waza，然后让他使用 /read 和 /think 两个技能自动帮你去优化就好，只要10min就给你搞完了。

Tw93@HiTw93

x.com/i/article/2050…

中文

203

40.7K

Seriou retweetledi

Adrian Punk@AdrianPunk115·1d

x.com/i/article/2051…

ZXX

416

157.8K

Seriou@pie1578071·19h

@python_spaces Python

123

Seriou retweetledi

Python Space@python_spaces·1d

Python and Data Analysis Book for FREE! To get your copy, do the following. - Like and Repost - Comment "Python" - Follow me so that I can DM you.

English

343

321

972

57.6K

Seriou retweetledi

Bill The Investor@billtheinvestor·1d

Bill Ackman简直进行了一场长达44分钟的金钱大师课，其对金钱的讲解比任何商学院都要透彻：

中文

228

672

50.9K

Seriou retweetledi

梭哈｜超级个体@WEB3_furture·1d

非常值得刷的视频课--麻省理工《How to AI (Almost) Anything》这门MIT公开课教你如何用AI（几乎）做任何事情——共12节课，覆盖大量专业领域 youtu.be/0MYt0u3CW5I?li… 大部分内容容易忘，建议把这份中英双语版讲义+图文笔记（社区整理）保存到NotebookLM / Claude / ChatGPT构建你自己的知识库，方便随时对话检索👇 v2su.com/4211/

YouTube

中文

146

438

37.7K

Seriou retweetledi

13seee@justone_he·1d

现在可真是学习的最好时代，把David J. C. MacKay 的经典教材《Information Theory, Inference, and Learning Algorithms》英文版pdf扔给codex，告诉它我的学习需求，它就给我把每一章重点和学习路线写出来了，甚至根据我的需求，按照什么顺序学习，哪些章节要学哪些不要学都整理好了。

中文

104

736

51K

Seriou retweetledi

EnHeng嗯哼.Ai@EnHeng456·2d

所有人都应该去看看—麻省理工的一门新公开课《如何用Ai（几乎）做任何事情》 How to AI (Almost) Anything | MIT OpenCourseWare

中文

173

430

2.1K

154.7K

Seriou retweetledi

Xiuyu Li@sheriyuo·2d

写的非常详细的入门教程 RL 很恶心的点就在于你什么都要会：pretrain、inference、theory、infra 现在我也有了可以推荐给别人入门的读物，比我当时东看一点西看一点好太多了🥺 很多现代 LLM 的教学其实跳过了相当一部分的基础知识，比如 CNN、Q-Learning 这一类经典内容。我感觉我也是填鸭式地在学习这些内容，需要耐下心来慢慢地去看那些最旧最老最传统的东西很感谢苏剑林的 blog 带我入门，我也想能写出一些带别人入门的东西，只不过即使是用 LLM 辅助写 notes 也相当折磨人，然后知乎上还没什么人看当然还是有很多人喜欢看我写的垃圾 notes 的，还被行业杰青大佬订阅了，这种事跟 paper 被人关注了一样开心 Website: walkinglabs.github.io/hands-on-moder…

paperpaper@paperpaper886

比较有趣的入门教程该项目希望用一条更“实践优先”的路径来学习现代强化学习：从经典控制出发，逐步连接到 LLM 后训练基础、DPO/GRPO/RLVR、Agentic RL 和 VLM RL 等现代应用。 GitHub: github.com/walkinglabs/ha… WebPage: walkinglabs.github.io/hands-on-moder…

中文

273

1.8K

182.1K

Seriou retweetledi

Nandkishor@devops_nk·1d

How does Docker work ? Docker’s architecture is built around three main components that work together to build, distribute, and run containers. 1 - Docker Client: - This is the interface through which users interact with Docker. It sends commands (such as build, pull, run, push) to the Docker Daemon using the Docker API. 2 - Docker Host: - This is where the Docker Daemon runs. - It manages images, containers, networks, and volumes, and is responsible for building and running applications. 3 - Docker Registry: - The storage system for Docker images. - Public registries like Docker Hub or private registries allow pulling and pushing images. Do you use Docker in your projects ?