lmm333

870 posts

lmm333

@lmm333

Programer working on DevOps CICD, Ex-Microsft, Ex-AlibabaCloud

HongKong Katılım Eylül 2010

1.3K Takip Edilen63 Takipçiler

lmm333 retweetledi

Google Flow@FlowbyGoogle·1d

Celebrating one week of Gemini Omni in Google Flow with 7 examples of what it can do 🧵

English

102

1.4K

142K

lmm333 retweetledi

Max For AI@MaxForAI·3d

x.com/i/article/2058…

ZXX

128

263

1.4K

822.6K

lmm333@lmm333·2d

@yibie @clip2vault

QAM

lmm333 retweetledi

yibie@yibie·3d

多 Agent 系统炒了一年，生产环境里真正活下来的只有三种模式。剩下的都在坟墓里。这个结论不是我的。它来自三份今天同时浮出水面的证据——一份是 Cognition（Devin 背后的公司）工程负责人的内部复盘，一份是 Manning 作者 Micheal Lanham 的行业全景报告，还有一份，是 GitHub 上一个叫 metaswarm 的项目。我把它们放在一起看，发现一件很有意思的事：它们说的竟然是同一句话。 --- ## 三个信号，同一个判断 **信号一：metaswarm——18 个 Agent，127 个 PR，一个周末** 今天 HN 上最火的项目。一个人 + 18 个 AI agent + 一个周末 = 127 个 PR 推到生产。MIT 开源。看起来是多 Agent 协作的终极案例。但如果你仔细看它的架构，你会发现一个被刻意隐藏的细节：**它的 18 个 Agent 不是在对等协作。它是 map-reduce-and-manage。** 一个管理者拆任务，17 个子 Agent 各干各的，管理者收结果、合并、push。Agent 之间不互相聊天、不互相审查、不互相投票。每一个子 Agent 面对的是自己那一小块独立的上下文。它看起来像 swarm，但其实是流水线。 **信号二：Walden Yan 的内部复盘——「写入保持单线程」** Walden Yan 是 Cognition 的工程负责人。他 10 个月前写了一篇《不要构建多 Agent 系统》，今天又写了一篇《多 Agent：什么真的有效》。核心结论原话：「多 Agent 系统在今天最有效时，写入保持单线程，额外的 Agent 贡献智能而不是行动。」他们试了三种模式： 1. **代码审查循环**——编码 Agent 写，审查 Agent 读。审查 Agent 拥有**完全干净的上下文**，不看编码过程，只看 diff。平均每个 PR 能发现 2 个 bug，58% 是严重的。关键发现：两个 Agent **不共享上下文**效果反而更好。因为上下文衰减——编码 Agent 工作几小时后积累了巨大的上下文窗口，注意力已经稀释了。干净的审查 Agent 反而更聪明。 2. **智能朋友**——主模型遇到棘手问题，调用一个更强（也更贵）的模型作为「朋友」。关键难点不是推理能力，是**沟通**：弱模型怎么知道自己到极限了？该传给强模型什么上下文？强模型怎么回话才能让弱模型真正理解？ 3. **管理者-子 Agent**——一个管理 Devin 拆任务，子 Devin 各干各的，管理者综合。遇到的问题全是**沟通问题**：管理者默认过度规定（因为它缺乏代码库上下文）、子 Agent 不主动报告该让兄弟姐妹知道的信息、Agent 之间默认不传消息。三种模式，同一条规则：**写操作的 Agent 只有一个。** **信号三：Micheal Lanham 的行业全景——「多 Agent 失败是结构性的，不是提示词问题」** Lanham 是 Manning《AI Agents in Action》的作者。他今天的文章标题就说明了一切：《Multi-Agent in Production in 2026: What Actually Survived》。他把多 Agent 系统分成三种拓扑： - **Agent-flow（流水线）**：顺序传递。A 做完交给 B，B 做完交给 C。这是生产环境里**存活率最高**的形态。 - **Agent-orchestration（编排）**：一个管理者调度多个执行者。map-reduce-and-manage。最实用的复杂任务形态。 - **Agent-collaboration（对等协作）**：Agent 之间互相通信、协商、投票。**几乎全死了。** 他的原话：「大多数看起来像『更多 Agent = 更聪明』的东西，其实只是相同信息的冗余重排列。」三份报告，三个作者，没有互相引用。但结论完全一致。 --- ## 为什么「对等协作」全死了？答案藏在两个技术细节里。 **第一个，Walden 说的「操作携带隐式决策」。** 当一个 Agent 写代码时，它在做选择——用什么设计模式、怎么处理边界情况、变量命名风格、错误处理策略。这些选择不是显式的，是「隐式」的。两个 Agent 同时写，就会对同一个问题做出互相冲突的隐式决策。最后合并的时候不是 merge conflict，是**设计哲学冲突**。这种冲突没有 diff 工具能自动解决。 **第二个，Lanham 说的「级联表面」。** 对等协作的失败不是线性的，是指数级的。Agent A 的误差传给 Agent B，B 放大后传给 C，C 再放大传给 A。三个循环下来，输出和输入的语义距离已经大到不可恢复。这解释了为什么 2024 年所有那些「Agent 团队自动开发 App」的演示都停在了 demo 阶段。 --- ## 那活下来的三种模式长什么样？ **模式一：流水线（Agent-flow）** 最简单的形态。A → B → C，一个接一个。像工厂流水线。适用场景：需求明确、步骤可分、输出可验证。比如：需求分析 Agent → 代码生成 Agent → 测试生成 Agent → 代码审查 Agent。活下来的原因：每一步的输入和输出是明确的、可检查的。出问题能定位到具体环节。 **模式二：编排（Orchestration = map-reduce-and-manage）** 一个强 Agent 做规划 + 拆解 + 综合，多个弱 Agent 并行执行子任务。适用场景：复杂任务需要并行加速，但决策权必须集中。比如 metaswarm 的 18 个 Agent，比如 Devin 的 manager-worker。活下来的原因：写入操作只有管理者一个。子 Agent 贡献的是「智能」（分析、生成、搜索），不是「决策」。 **模式三：生成-验证（Generator-Validator）** 一个 Agent 写，另一个 Agent 读 + 挑刺。写的不看读的过程，读的不看写的过程。干净的上下文。适用场景：代码审查、安全检查、内容审核。Walden 说他们在生产环境已经跑了很久。活下来的原因：验证 Agent 的上下文是干净的。没有历史包袱，不会被编码 Agent 的错误假设带偏。 --- ## 一个反直觉的结论看了这三份报告，我最大的感受不是「多 Agent 不行」，而是一个更微妙的东西—— **多 Agent 系统真正解决的问题不是「更聪明」，是「更便宜 + 更可靠」。** 用同样的钱，跑 5 个便宜模型的并行流水线，比跑 1 个贵模型做全流程，出活质量更稳定、容错率更高、速度更快。这不是 AGI 的突破。这是系统设计的胜利。 Walden 在文章最后说的：「我们正在构建一个世界，智能被注入软件开发生命周期的每一个阶段——不是作为一群自主行动者，而是作为一个协调的系统，扩展人类的品味。」注意这个词：「协调的系统」，不是「自主的行动者」。 --- ## 所以，别再造 Agent Swarm 了如果你现在准备做一个多 Agent 项目，问自己三个问题： 1. **写入操作能不能只有一个人？** 如果能，继续。如果不能，单 Agent 可能更好。 2. **Agent 之间传什么上下文？传多少？** 这不是提示词问题，这是架构问题。传多了淹没接收者，传少了接收者无法做正确决策。 3. **失败会怎么级联？** 如果 Agent A 错了，Agent B、C、D 会跟着错到什么程度？有没有断路器？如果你对这三个问题没有清晰的答案，你就还没有准备好上生产。多 Agent 的未来是真实的。但不是你想的那种未来。不是一群 Agent 在聊天室里讨论怎么做。是一个指挥，多个执行者。是一种结构设计，不是魔法。 --- **参考来源：** - Walden Yan (Cognition): [Multi-Agents: What's Actually Working](x.com/walden_yan/sta…) - Micheal Lanham: [Multi-Agent in Production in 2026: What Actually Survived](@Micheal-Lanham/multi-agent-in-production-in-2026-what-actually-survived-f86de8bb1cd1" target="_blank" rel="nofollow noopener">medium.com/@Micheal-Lanha…) - metaswarm: [18 AI agents, 127 PRs to prod in a weekend](news.ycombinator.com/item?id=468649…) - Anthropic: [anthropics/skills](github.com/anthropics/ski…) ⭐

中文

339

78.7K

lmm333 retweetledi

Suu@Suu766·3d

x.com/i/article/2058…

ZXX

6.5K

lmm333 retweetledi

Dante@duanjl_china·3d

了解了一下 @op7418 藏师傅事情的始末，发现浪费了 10 分钟了解了一群垃圾。一眼新浪微博常驻抱团用户，用流量刷 X 低保的，但凡多看了一眼他们主页都是给他们脸，像臭狗屎一样，踩一脚沾一身。 @rwayne @ai_xiaomu @dashen_wang @wadezone @Eejoylove 列了一点点用户，一键拉黑，不要浪费注意力。

中文

6.1K

lmm333 retweetledi

WquGuru🦀@wquguru·29 Oca

x.com/i/article/2016…

ZXX

180

881

447.9K

lmm333 retweetledi

WquGuru🦀@wquguru·18 May

x.com/i/article/2056…

ZXX

489

77.2K

lmm333@lmm333·20 May

@haochezh 耻辱

中文

719

lmm333@lmm333·18 May

@jakevin7 卡比老师是什么版本？是不是只读不发会安全一些？

中文

347

kabikabi@jakevin7·18 May

wx-cli 现在容易被 gank，我自己的旧版本微信还在苟着，大家小心了.....

向阳乔木@vista8

好像连读本地微信数据库也会警告，发就更别想了。 wx-cli 已GG，卡比的 cli 宇宙阵亡一个。

中文

18.5K

lmm333 retweetledi

Barret李靖@Barret_China·15 May

昨天跟团队分享，怎么把自己的工作真正搬到云端。乍一看，只不过是给自己配置了一个可以对话的 Agent，但工作模式已经发生了颠覆性的变化。比如我的AI 会读取我所有工作聊天记录后，将需要关注的事项定时推送给我，分析过程中会结合我自己的工作目标，给出针对性的建议。对于可直接被 AI 执行的任务，它也会自动处理掉。比如晚上睡前我会将比较重的任务，指派给AI，讲清楚细节和验收标准，然后让它根据我设定的工作环境、操作流程和验收机制，进行研发。它开发好了之后会自己提一个PR 到仓库，然后走完 CI 流程，最后再给我一份质量报告、效果截图，等我验收。比如系统收到一条面试通知，我的 AI 我会自动将候选人的基本信息拿出来，先跟业务和团队目标做一致性匹配，如果合适，它就会自动生成分析报告和推荐的面试题。等面试结束后，它又会将我跟候选人的聊天自动抓回来，做一次诊断，既有对我的建议，也有对候选人的分析。之前的工作，更多是守在电脑前陪伴执行，必须盯着过程，脑子里还得时刻维护一张复杂地图，记住所有模块、技能、工具链、上下游关系，生怕哪个环节断掉。把 AI 的执行过程搬到云端后，很多东西开始变了。它会将我的所有细枝末节工作自动串起来，而我需要做的就是想清楚要干啥，这有点像是，将“同步工作”变成了“异步工作”。现在基本上都是手机遥控，语音给 AI 发送指令。人从执行细节里抽离出来之后，会突然多出大量时间。开始更多去思考：到底应该做什么；什么事情真正有价值；结果是否值得；方向有没有偏。这个变化，可能比“用了 AI”本身还重要。越来越相信未来的工作模式，就应该是 cloud agentic 模式。

中文

104

16.9K

lmm333 retweetledi

Elon Musk@elonmusk·14 May

@whyyoutouzhele 我的儿子正在学习普通话

中文

8.2K

6.3K

117.4K

13.3M

lmm333@lmm333·14 May

@lupinlin @jakevin7 你是什么模型？

中文

Lupin Lin@lupinlin·14 May

@jakevin7 群昵称这个功能太关键了之前拿群消息完全不知道是谁在说话 biz-articles 能拿公众号全文配合 dotey 的群聊总结 Skill 直接串起来了

中文

523

kabikabi@jakevin7·14 May

wx-cli v0.1.11 发布了，让 opencli + wx-cli 更加强大主菜是 `wx biz-articles` —— 公众号文章消息可以一行命令直接拿全文。订阅号里堆着几百条没看完的推送，Agent 终于不用靠你手动复制，可以批量拉下来做摘要、归档、或喂给检索流水线。群消息这次补齐了一直缺的拼图：发送者的群昵称 / 群名片会一起带出来。以前 Agent 拿一条群消息只看到 wxid 和文本，不知道这是谁、在哪个群说的；现在直接带上下文。引用消息（type=57）以前只看到一句「引用了」就没了；现在被引用的原文完整展示。type=49 appmsg（文件 / 合并聊天记录 / 小程序卡片）子类型解析也更完整。 link / 文章收藏 / appmsg 卡片，以前只能拿到标题缩略图，现在都暴露了机器可读的 url 字段。这一步看着小，意义是把 wx-cli 接到了整个 opencli 生态：群里一条转发链接 → `opencli web read ` 拿正文；微博 / 知乎 / 小红书的链接 → 对应站点 adapter 拿评论和元数据；整理完想发出去 → `opencli twitter post` 或 `opencli lark message send`。这才是 opencli 作为统一 CLI 最大的意义 —— 不同 site 的能力在 Agent 手里拼成一条流水线，不再每次单独糊脚本。底子也打磨了一轮：sudo 下的 wx init、contacts / search / new-messages 的正确性和延迟、daemon lifecycle、Windows scanner、SQLCipher 全量解密都修稳了。 npm i -g @jackwener/wx-cli github.com/jackwener/wx-c…

中文

227

17.9K

lmm333 retweetledi

kabikabi@jakevin7·29 Mar

今天在 build0 做了一个分享，介绍了我在 AI agent 时代的一些观点。学习@_justineo 做了一个vercel版本的PPT。链接评论区见。 - 需求&人是最重要的，生产力再强大也是为了解决问题 - 需求的发现是实践的演进，最开始的想法基本是错的，但是每次执行的反馈会让我们导到正确的点上去 - 痛点的发现是第一，AI agent 10x 生产力是帮助我们来解决问题 - 10x生产力 != 10x 结果，要求10x结果的老板们是SX - 10x 生产力带来的范式变化，思考没有执行重要，现在生产的容错很高 - 不要太 fomo，遇到问题再去找工具，取决有这个需求，而不是忙于各种新概念。

中文

108

17.7K

lmm333@lmm333·13 May

@xchase173294 Paypay美区能用国内单标卡么？

中文

184

lmm333 retweetledi

Gyro@gyro_ai·11 May

x.com/i/article/2053…

ZXX

341

99.3K

lmm333@lmm333·12 May

@yandc18 @ieasterfan @Barret_China 这是什么软件呀？很漂亮！

中文

yandc@yandc18·11 May

@ieasterfan @Barret_China 云端 agentic 姿势

中文

Barret李靖@Barret_China·10 May

已经把将近一半的工作迁到了云端。这一周的体感是，未来知识工作者的生产方式，绝大部分都会是云端 agentic，人类搭建 harness 环境，AI 来执行，生产质量完全取决于 harness 的质量。曾经也想过用嘴编程，没想到这一天来的如此快😂

中文

260

53.3K

lmm333 retweetledi

余温@gkxspace·10 May

每次发现 mac 存储快满的时候，都会用 Mole + codex 来一次清理，这次又清理了 100多G。 1、先用Mlole一行命令：mo clean github.com/tw93/Mole 2、接着再让 Codex 扫一遍本地大文件和各种缓存，确定没用的就直接删掉

中文

415

64.9K

lmm333 retweetledi

Tech with Mak@techNmak·8 May

This is probably the most honest AI architecture breakdown on the internet right now. 9-layer AI production architecture services/ - RAG pipeline, semantic cache, memory, query rewriter, router. Not one file. Five. agents/ - document grader, decomposer, adaptive router. Self-correcting by design. prompts/ - versioned, typed, registered. Never hardcoded. security/ - input, content, output. Three guards not one. evaluation/ - golden dataset, offline eval, online monitor. Most people skip this entire layer and ship blind. observability/ - per-stage tracing, feedback linked to traces, cost per query. .claude/ - agent context so your AI coding assistant knows the codebase before it touches a file. The demo is one file. Production is this.

English

373

2.7K

169.9K

lmm333 retweetledi

数字生命卡兹克@Khazix0918·8 May

x.com/i/article/2052…

ZXX

136

771

97.2K

Keşfet

@yibie @clip2vault @op7418 @rwayne @ai_xiaomu @dashen_wang @wadezone @Eejoylove