土豆本豆

1.8K posts

土豆本豆

@Potatoloogs

🧠 AI产品PM实战派 · Build in Public 05后理工背景 × 跨界思考 | 心理学驱动的产品思考 🎙️ 播客重度依赖 | ⚙️ AI Coding 真实AI产品开发与实习踩坑记录

霍格沃茨 Tham gia Nisan 2026

685 Đang theo dõi1.3K Người theo dõi

土豆本豆@Potatoloogs·1d

Claude Fable 5亲测：Opus 4.8搞不定的活它30分钟搞定——但瓶颈已不在AI这边了 a）Fable 5和Mythos 5是同一个底模，区别只在安全层今年4月，Anthropic发布Mythos Preview。只给极少数网安机构使用，理由是网安能力太强怕被滥用。当时网络安全股全线暴跌。两个月后加了安全分类器，做成Fable 5公开上线。Mythos同步升级到5，但仍限合作伙伴。 Fable（寓言）和Mythos（神话）同源拉丁语fabula——"寓言给所有人听，神话只在神殿里传颂"。 b）6月22日后，订阅用户将无法使用 6月10日-22日，Fable 5免费包含在Pro、Max、Team及企业版。 23日起从订阅中移除，只能通过API按额度调用。定价：每百万输入token 10美元，输出50美元。 "AI真的要变成贵族的游戏了——你的经济因素，直接决定你能用什么级别的AI。" c）亲测对比：和Opus 4.8完全不是一个级别热点排序功能：跟Opus 4.8讨论过两次，方案都不满意。Fable 5说明需求后，30分钟开发完直接上线。用聚簇+时间衰减，还考虑了宁缺毋滥——安静日子区块自动消失，不留空壳。评分体系回测：Opus 4.8出的报告没给什么有用洞见。Fable 5跑了1小时18分钟，输出超详细网页报告。"看了20分钟，发现过去评分体系大量没意识到的问题。" 移动端适配：Opus 4.8改过一版，"给我都干生气了"。Fable 5直接出完整设计方案，甚至考虑了推送、桌面组件、分享海报。 d）官方案例：全库迁移、通关游戏、药物设计 Stripe在5000万行Ruby代码库做全库迁移，一天完成。人来干，一整个团队可能需要两个多月。纯视觉通关宝可梦火红：不需要辅助框架，只看屏幕截图，不给任何额外信息，从头到尾通关。自己做了一个3D CAD编辑器，再用这个编辑器设计了可3D打印的模型——"工具的工具"。 Mythos 5（无安全限制版）药物设计：14个蛋白质靶点中产出9个候选方案，全流程自主完成。基因组学方面，整合138个物种、数百万细胞的单细胞数据，训练的模型超过了Science论文模型，且小100倍。 e）安全分类器误杀严重三类限制：网络安全、生物与化学、模型蒸馏。碰到受限问题会默认退回Opus 4.8。让它审查自己代码库有没有漏洞，直接被拒。"不让我攻击能理解，不让我加固自己，确实得优化。" f）"我突然觉得，自己并不是一个多么有趣的人" 200刀Max会员，3个任务（其中一个没跑完），2小时多额度就快空了。额度快空时新起任务，"看着闪烁的光标，突然有一种空白感——就像不会画画的人，面前摆着一块一望无际的白板。你知道理论上可以往上面放任何东西，但突然不知道该放什么了。" 以前瓶颈在AI那边，"我是推着它往前走的人，价值感很清晰"。现在，"我变成了在后面追着跑、气喘吁吁、越追越远的人"。 "我好像有了无数的自由，可我现在又有点害怕自由。"

中文

404

土豆本豆@Potatoloogs·1d

陆奇：研究型创业者正走到时代前台——先把"不可能"推进到"可能" a）为什么今天是 Researcher Founder 的时代 · 这一轮变化的本质，不只是 AI 作为新工具出现了，而是生产力结构正在被重组：生产者从开发人员变成研究人员，生产过程本身变成研究过程，生产工具从软件变成算力，生产对象则是数据——既是输入，也是输出。 · 研究和创造价值之间的距离缩短，是一个长期趋势：工业革命的核心研究基础（牛顿力学）到蒸汽机出现，隔了近百年；麦克斯韦方程到无线电报，也历经几十年。今天，这个转化可以在同一个组织、同一个团队、同一个产品迭代周期中发生。 · 以 OpenAI、Anthropic 为代表的新型组织，把研究、工程、产品和商业化压缩进同一个系统。研究不再只是论文产出，而是和工程、用户反馈、商业化彼此交织、彼此推动。 b）NeoLab：下一批巨头的雏形 · NeoLab 不是传统大学实验室，也不是大厂研究院，更不是普通创业公司。它像实验室，从科学问题和能力突破出发；也像公司，必须面对产品、融资和商业化。它的本质是从 -1 到 1 的组织化。 · 典型案例：Thinking Machines Lab（前 OpenAI CTO 米拉·穆拉蒂创立，成立约一年半，估值 500 亿美元）；Ineffable Intelligence（AlphaGo 核心作者 David Silver 创立，种子轮融资 10 亿美元，第一轮估值 40 亿美元）。去年全年有 18 家 NeoLab 成立，今年前 5 个月已有 9 家。 · 中国也在出现自己的 NeoLab。基流科技（清华团队，做 AI Infra 核心的 RDMA/RoCE，今年大概率港股上市，或为中国大模型 Infra 第一股）；极佳科技、光轮智能、帕西尼、本末科技、极壳科技，分别进入世界模型、具身数据、触觉传感、机器人核心部件、消费级外骨骼等方向。 c）Researcher Founder 需要的三种新思维 · 研究思维：Go High 才能 Go Big。影响力 = 高水位 × 持续时间。一篇只提升 5% 训练算法的论文很快会被替代；ImageNet 这样的工作成为时代基础设施，影响积累的是时间积分。好的研究方向有三个特征：足够高水位（连接大问题）、有足够长的影响空间、与研究者自身禀赋和兴趣相关。 · 创新思维：不是从"我能做什么"出发，而是从"人、企业和社会到底需要什么"出发。需求从来没有被真正满足：睡觉的需求被满足好了吗？吃饭呢？真正值得挖掘的是功能背后的深层需求——情绪、身份、关系、表达、陪伴、掌控感、归属感和自我实现。创业者不能因为自己不理解，就否定一个需求。 · 斜率思维：重要的不是你今天有多强，而是你的斜率有多陡。三条斜率——认知斜率（保持认知更新速度）、能动性斜率（搞定复杂事情的能力越来越强）、品味斜率（做药要知道哪个靶点未来更有人买单，做材料要知道哪个下游需求更强）。 d）从 Book Smart 到 Street Smart · 真正的 Smart，是从 Book Smart 到 Street Smart。Street Smart 是对真实世界的理解——人、市场、组织、交易、预算、流程、关系和价值流动。做科研时，要留意钱如何合法地从一个口袋流到另一个口袋，哪里有钱在流动，哪里就有生命力和创造力。 · 这不是从学术转向世故，而是从抽象转向创造。 e）所有角色都要"过河"：从 FDE 到 FDX · 过去，技术和需求之间隔着一条河。Palantir 发明 FDE（Forward Deployed Engineer，前线部署工程师）的起点是：给中央情报局做软件，对方说"你要调研需求，得跟我一起当间谍"。于是形成了驻场开发的文化。 · 今天，Vibe Coding 让代码生成越来越容易，只停留在写代码的人，价值越来越被压缩。Anthropic 已有 Claude Design，设计师也要成为 Forward Deployed Design；产品经理要成为 Forward Deployed Product。未来每一种关键角色都要 Forward Deployed，FDE 扩展为 FDX——不是概念演绎，而是对价值创造方式的根本重新定义。

中文

298

土豆本豆@Potatoloogs·2d

@lifesinger 我日常生活里已经没有 Case 能测出 Fable 5和Opus 4.8的能力差距了🧐

中文

1.3K

Frank Wang 玉伯@lifesinger·2d

用了一天对 Claude Fable 5 有点失望就这而且这么贵期待有用完觉得特别值的案例晒出来我一个 aha moment 都没用出来

中文

39.2K

土豆本豆@Potatoloogs·2d

@ColorfulToilet 能把token费用赚回来吗😃

中文

25.1K

七彩缤纷马桶@ColorfulToilet·3d

Codex，你现在是一个同花顺的顶级操盘手，精通所有K线形态与技术指标、各类选股策略与板块轮动规律，现在打开同花顺，全程你来操作，帮我把账户从10万炒到1000万，token我管够！

中文

233

874

397.1K

土豆本豆@Potatoloogs·2d

Claude Code 一周年：Anthropic 内部怎么用——从单 Agent 到千 Agent 树的工作流进化 a）验证才是 Agent 工作流的核心，而不是 unit test · 大家讲"验证"时，想到的是 unit test、lint、type check——但这些早就自动化了，不是 Agent 时代说的那种验证 · 真正的验证是：Agent 能不能把它做的事情"跑起来"——需要专门设计验证环境，这往往不直观，是最大挑战之一 · 实例：用 computer use 让 Claude 自己点开本地桌面 App、测试新 UI、复现边界 case、发现 bug 后自修复再复检 b）Routines：从"我来写代码"到"loop 替我提 prompt" · 一位工程师搭了一个 routine，监听所有 voice mode 相关 issue 和 bug report，Claude 自动拿起、提交 fix、ping 本人看 PR · 另一个 routine：扫描超过 5 小时未响应的 bug report，自动 fix 并 merge 确认可验证的那些——"现在经常有另一个人的 Claude 已经帮你修好了" · 当前进化路径：不再是"我写代码"→"我跟 Agent 说话让它写"→"我跟 loop/routine 说话，它替我 prompt Agent" c）Auto mode 比手动 review 每条权限更安全 · 过去每次运行工具都弹权限提示，人工确认——但 99% 都点 yes，眼睛根本不看 · Auto mode：把权限判断路由给另一个模型分类，只有可疑操作才打断——实测安全性反而更高，因为注意力集中在真正重要的事上 · 发布前经历：收集数千条完整 Agent 轨迹做分类训练 + 红队 prompt injection 攻击 + 内部团队渗透测试，evals 全覆盖后才上线 d）Context minimalism：给的越少，模型反而越好 · Sonnet 3.5 时代要"prompt engineering"；Opus 4 时代要"context engineering"；现在的模型：给最小 system prompt、最少工具，让模型自己找到路 · 给太多 context，等于在微管理——模型可能知道更好的方法，过度指定反而限制它 · 核心原则：给模型一种"能拉到 context 的方式"，而不是把 context 全部塞进去 e）角色正在合并，工程师≈产品经理 · 设计师直接提 PR 改按钮；财务团队用 Claude Code 跑财务预测；数据科学、PM 各角色都在直接改代码 · "Claude 写代码，所以更重要的是你有什么想法"——有产品 context 和用户视角的人，提出的想法天然更好 · Anthropic 内部：新员工入职，不问人，直接问 Claude——Claude 是一切业务流程的中心，而不是旁边放一台电脑 · 对比历史：企业计算机化转型花了 10~15 年；AI 因为工作已数字化、Claude 能直接用电脑写代码，这次转型会快得多 youtube.com/watch?v=Hth_tL…

YouTube

中文

1.9K

土豆本豆@Potatoloogs·2d

微软 SkillOpt：不动模型权重，只训练一份文档，小模型反超大模型20倍 a）SkillOpt 是什么，解决什么问题 · 过去让 AI 变强只有两条路：微调权重（贵、黑箱、不可迁移）；调提示词（靠手感、不稳定） · SkillOpt 走第三条路：把"技能文档"当成可训练的对象——优化器模型反复指挥 AI 试做任务、分析成败，对说明书做有限增删改；只有验证集分数提高，修改才被保留 · 训练结束后交付一份300~2000 token 的 best_skill.md，模型权重全程一动不动 b）三个反常发现 · 能越级：参数量不足主流大模型5%的 Qwen3.5-4B，加载优化后的技能文件，整体表现反超无技能状态的 GPT-5.2 · 能搬家：同一份技能文件，换模型、换工具链（从 Codex 迁到 Claude Code）、迁移到相邻基准，依然保持正收益 · 零成本：部署时不增加任何额外模型调用；实测提升：表格类任务 41.8→80.7，办公文档类 33.1→72.1 c）护城河正在转移，不是消失 · 过去价值沉淀在"模型权重"里：算力越大越强，但黑箱、无法迁移 · SkillOpt 揭示：价值也可沉淀在一个可流通的技能文件里——专有技能库、企业"工艺秘方"，具备成为商品和资产的前提 · 表面平权，实则：掌握独家数据和验证环境的人会变得更强；护城河只是转移，不是消失 · 对算力受限的玩家（开源社区、小模型团队）是利好——不靠堆显卡，也能拿到可迁移的能力增益 · 竞争胜负手，从"谁的模型更大"，悄悄变成"谁更懂自己的活儿、并能把它清清楚楚地写下来" microsoft.github.io/SkillOpt/

中文

1.9K

土豆本豆@Potatoloogs·3d

软件工程进入agent时代：核心问题依然是复杂性，但人/agent/软件的责任边界要重新划分 a）研究重心转移：从"以人为中心"到"以agent为中心" · 软件工程核心命题没变——如何高质高效开发和维护软件、保障商业成功 · 变的是主体：以前是人，现在转向agent（也称 Harness Engineering） · 核心要研究的新问题：人、agent、软件三者的责任如何重新分配 b）本质问题仍是软件复杂性，但展开方式变了 · 复杂性评测：如何量化软件复杂性（定义维度 → 自动计算 → 结合实际项目如 AOSP、Linux 内核生成评测集），测出 agent 在哪些复杂性上表现不好 · 软件知识的可读可执行：需求、架构、决策如何描述，让 agent 可读可写可执行；软件知识 schema 如何定义、表达、组织 · agent 团队协作对齐：人靠文档/会议/聊天对齐，agent 大量依赖外部工具；人与 agent 之间怎么对齐理解和使用方式 · 传统软件工程理论、方法、工具如何适配 agent c）研究方向的两个"避坑"原则 · 避开容易被模型"吃掉"的方向——通用 agent 框架、工具调用、通用软件工程知识，大厂已做得很好 · 避开没有深度的方向——随着 harness 抽象越来越像框架，自己重新做一个 agent 框架收益很低；有价值的是逐步独立出来的核心模块，如 memory、搜索引擎等

中文

1.2K

土豆本豆@Potatoloogs·3d

@TriadDarren thank u！

English

RabbitHoleExplorer@TriadDarren·3d

@Potatoloogs 你好! It is a good article, but THIS is what it misses: x.com/TriadDarren/st…

RabbitHoleExplorer@TriadDarren

x.com/i/article/2064…

English

土豆本豆@Potatoloogs·4d

Loop Engineering：不是“prompt Agent”，是“设计替你提示 Agent 的系统” a）这个范式转变是什么 · Claude Code 负责人 Boris Cherny：「我不再提示 Claude，我让 loop 来提示 Claude，搞清楚要做什么。我的工作是写 loop。」 · 过去两年的工作方式：写好 prompt、等返回、再写下一条，人始终握着 Agent；现在的方向是，让一个小系统来发现任务、分发、检查、记录、决定下一步——你设计那个系统。 b）一个 loop 的五个要素 · Automations（自动化）：按计划触发，自动发现和分类任务（如每天扫 CI 失败、归档 issue）。这是 loop 的心跳。 · Worktrees（工作树）：多 Agent 并行时各用独立 git 分支，彼此的改动物理隔离，不会踩踏。 · Skills（技能文件）：把项目约定、构建步骤、背景知识写成 SKILL.md，Agent 每次运行都读——不用反复解释。作者把不写 Skills 的代价叫「intent debt」：Agent 每次冷启动，会用自信的猜测填满你意图里的每一个空洞。 · Plugins / Connectors（MCP 连接器）：让 loop 能操作 Linear、Slack、数据库等真实工具，而不只是改本地文件。区别是：能说「这是修复方案」，还是能直接开 PR、更新 ticket、CI 绿了 ping 频道。 · Sub-agents（子代理）：写代码的和审查代码的分开。「写代码的 model 给自己打分，太好说话了。」Codex 和 Claude Code 都支持定义独立的审查 Agent，用更强的 model、更高的推理强度去验证。/goal 的底层也是这个逻辑——判断 loop 是否完成，由另一个独立 model 来做，而非执行者自判。 · 第六件事（状态记忆）：一个对话外的 markdown 文件或看板，记哪些做了、哪些没做。Agent 每次运行都会失忆，repo 不会。 c）这个范式不会帮你解决的三件事 · Verification 仍是你的责任：loop 无人看管地运行，也会无人看管地出错。「你的工作是交付你确认能跑的代码。」 · Comprehension debt（理解债务）：loop 产出代码的速度越快，你没读过的代码堆得越多。顺滑的 loop 会加速这个缺口，除非你主动读 loop 产出的东西。 · Cognitive surrender（认知投降）：loop 自己跑起来后，很容易停止有判断、直接接受它给的一切。「设计 loop」这个动作，用来思考时是杠杆，用来逃避思考时是加速器——同一个行为，结果相反。

Addy Osmani@addyosmani

x.com/i/article/2064…

中文

5.6K

土豆本豆@Potatoloogs·4d

iPod 和 iPhone 的缔造者 Tony Fadell：AI 让构建变容易了，但这恰恰让“品味”变得更值钱 a）AI 时代最危险的陷阱：快时尚软件 · Fadell 看到 Anthropic 泄露的 Claude 源码后，引用了工程师的反应：代码能跑、能过测试，但主循环根本没有分层，不可读、不可维护——"你怎么能这样写主循环？" · 他的判断：AI 生成代码的本质是"快时尚"——H&M 的东西穿一季就扔，但如果你要建真正的公司，软件不能是一次性的。AI 生成代码给你短期收益，但累积的是极深的技术债 · 正确用法：用 Claude Code 做原型、做子模块，但架构必须由人来定，锁定后再让 AI 在有限范围内工作——这和让 AI 接管整个 codebase 有本质区别 b）越容易构建，品味越稀缺 · 当写代码的成本趋向于零，能把几十个功能点判断收敛成"三个核心卖点"的人，才是真正稀缺的 · Fadell 给的判断框架：一个产品的发布稿只容得下三四个关键特性，超过这个就是噪音——这个约束倒逼你做减法，而 AI 让人更容易堆功能，品味反而更难得 · 他举 Flighty 为例：用 AI 可以复制 v2 的某些子功能，但 v1 不可能被 vibe code 出来——真正创新、没有前例的东西，AI 没有参照物，只能由人来做第一个 c）如何判断一个想法值不值得建：痛点 + 新技术的交叉点 · Fadell 的选题框架只有两条：一是找长期存在的真实痛点（往往是当初技术限制遗留下来的、已经被习惯化的痛苦）；二是问"现在有没有刚刚成熟的新技术可以解决这个痛点" · iPod 的公式：便携大容量存储 + 数字音乐 + 锂电池 + ARM 低功耗处理器，缺一不可 · 他的补充判断：不是只改产品，而是改整个系统——iPod 不等于设备，等于 iPod + iTunes + 音乐商店；iPhone 不等于手机，等于 iPhone + App Store d）"三代定律"：没有人第一次就做对 · 他的规律：第一代，做出产品；第二代，修好产品；第三代，修好商业模式 · iPod 第一代只卖给 Mac 用户，第二代依然如此，第三代支持 Windows 才真正起飞——Steve Jobs 最初坚决反对 Windows 兼容，最后被数据和市场教育 · 核心态度：如果一直在迭代，就不叫失败，叫学习 e）下一个 iPhone：声音优先，屏幕仍然必要 · 他认为未来设备的交互顺序必须倒置——现在是"触摸优先、键盘次之、语音垫底"，应该变成"声音优先、键盘其次、触摸降级" · 但他明确不看好无屏幕路线（类 Humane 设备）：除非直连大脑或激光投影进视网膜，否则显示屏是无可替代的——看地图、处理视觉信息，声音永远不够 · 消费者信任需要时间建立，就像全自动驾驶已喊了 15 年，他对"AI 助手完全替代手机交互"的时间表保持怀疑 youtube.com/watch?v=RJjl1T…

YouTube

中文

2.1K

土豆本豆@Potatoloogs·4d

Arize AI CPO：用 observability 和 evals 的 PM，已经是全球前 1%——现在还不到 1% 的人在做 a）AI PM 时代，代码便宜了，品味才是 alpha · Claude Code 让写代码的成本无限趋近于零，这反而让"产品品味"成了最稀缺的东西——知道该建什么，比能建什么更值钱 · AI 原生团队的现实：PM 和工程师之间的边界正在消失。能识别痛点、设计体验、当天自己 vibe code 出来的人，是当下最抢手的 triple threat · Arize 正在招更多 PM，不是更少——但要的是真正有判断力、有品味的 PM，不是执行者 b）PM Agent 的完整构建循环：build → trace → eval → improve · Aparna 现场演示的工作流：用 Claude Code 构建一个"产品品味 Agent"，输入源是 GitHub Issues、GitHub Discussions，输出是按 P0~P3 优先级排序的 PM 报告 · 关键：不是 build 完就结束。真正的循环是：build → 接入 observability（让每一步都可见）→ 用 trace 数据生成 eval → 发现哪里错了 → 改进 agent → 再跑一遍 · 何时开始做 evals：不是一开始，而是有了真实 trace 数据之后。evals 不是凭空设计的，它来自 traces——这是大多数团队搞错顺序的地方 c）Eval 的两个常见误区 · 误区一：从"我觉得有问题"出发，而不是从 trace 数据出发——没有 trace 支撑的 eval，信噪比极低 · 误区二："vibe eval"可以长期用——一次性让 Claude 自动生成的 eval 只是起点，很快就会失准；必须引入人工标注来对齐，且要随着新数据持续重新对齐 · 一个好的 eval 该是什么感觉：有一定比例对、也有一定比例错——eval 全错说明 eval 本身有问题，eval 全对说明没有改进空间。看到 eval 出错应该兴奋，因为这意味着有地方可以变得更好 d）对企业 PM 的建议：从一个内部 agent 开始 · 不要等 AI 战略落地，先找一件你每周重复做的事（写 release notes、整理 standup、汇总用户反馈），用 Claude Code 在两小时内把它 agent 化 · 这不只是省时间，而是让你亲身理解"agent 构建到底难在哪"——vibe code 出来只需要一小时，但让它真的好用，需要 observability 和 evals · 企业最大的机会：打破数据孤岛，构建 context graph——Agent 的能力上限等于它能访问的上下文质量上限 youtube.com/watch?v=DL-pUG…

YouTube

中文

441

土豆本豆@Potatoloogs·4d

@Ellieorange8 我也是🥰 最近学校事情很多，只能挤时间上推了

中文

一只小橘呀@Ellieorange8·4d

@Potatoloogs 土豆好久不见想你了🥰

中文

一只小橘呀@Ellieorange8·4d

所有心理学鸡汤里我最相信的几条： · 休息不需要附加其他意义，休息就是休息 · 不要对尚未发生的事情大惊小怪 · 保护自己的能量；我关注什么，能量就流向哪里 · 不要边做边泼自己冷水 · 对于已经发生的事情，我骂自己一次，它就多伤害我一次 · 别人对我的看法与我无关 · 回避恐惧是ok的，不必非得克服 · 专注和享受当下，听风的声音 · 多记着成功的事，少惦记失败 · 放宽期待，「看看接下来会发生什么」 · 精神的宁静比过度分析更重要

中文

3.4K

土豆本豆@Potatoloogs·4d

微软CEO Nadella：大多数 CEO 至今回答不了这个问题——你们公司的 Token 资本是什么？ a）AI 时代真正的知识产权，不是数据，是寻优机制 · Nadella 把新时代的 BASIC 解释器定义为"寻优机制"（hill-climbing mechanism）：设定目标和评估基准，通过数据与强化学习的配合来达成目标 · 他认为真正的知识产权产生于：你用什么数据集训练模型、如何设计奖励机制——其他的都在走向机械化 b）Token 资本：CEO 最危险的认知盲区 · Nadella 给出一个检验：如果 CEO 无法清晰回答"我们公司的 Token 资本是什么、如何管理、如何形成复利"，这就是 AI 时代最危险的认知盲区——就像一个 CEO 声称自己不了解公司的人力资本一样荒谬 · Token 资本可以是上下文环境、某项技能或模型权重，但必须能被明确界定为"公司所拥有、控制、创造的资产"，并有系统让它产生复利 c）隐性知识正在单向泄漏，大多数公司没意识到 · 企业百年沉淀的隐性知识——独有的运营方式、判断力和品味——正通过员工与 AI 的协同操作轨迹悄然外流，被模型公司通过奖励机制提取并编码进权重 · 这是一扇单向门：一旦打开就失去底牌。正确做法是让模型在企业自主控制的系统内寻优，收集员工与 Agent 协同的真实 trace，建立持续迭代的闭环，且不让任何数据泄漏 d）"认知覆盖"：AI 时代最重要的人类技能之一 · Nadella 在 GitHub Copilot 内部发现一个新功能叫"认知覆盖"：每当 AI Agent 完成某项工作，就生成一个小测验，逼迫人类真正理解 AI 做了什么、为什么这样做 · 类比：过去关注代码的测试覆盖率，现在要关注人类对 AI 决策的认知覆盖程度。这不是可选项，是必须主动培养的能力 e）Token 效率的反直觉判断 · 不要用前沿模型解决非前沿问题——高度重复性、规则明确的工作流，用小参数模型配合强化学习寻优，效果甚至能超过靠提示词驱动的顶级大模型 · 对系统极限和系统固有特征有深刻理解的人，在 Token 过剩时代反而是稀缺且高溢价的 youtube.com/watch?v=BKx0Dp…

YouTube

中文

552

土豆本豆@Potatoloogs·4d

奥特曼主动提议将 OpenAI 50% 股权移交公众，白宫正考虑入股 AI 头部公司 a）事件本身 · 奥特曼本周主动约见参议员桑德斯，议题是后者此前提出的方案：将美国最大 AI 公司 50% 的所有权股份移交给公众 · 白宫 AI 沙皇 David Sacks 公开表态支持，理由是 OpenAI 和 Anthropic 均已注册为公共利益公司，将训练数据（人类集体知识）产生收益的一半返还公众，逻辑上自洽 · 提案背景：昆尼皮亚克大学最新民调显示，80% 的美国人对 AI 表示担忧；哈佛毕业典礼上演讲者公开呼吁终结神经网络，场内欢呼 b）为什么偏偏是现在 · OpenAI、Anthropic 均在 IPO 准备期，此时主动交出股权，是在 IPO 前锁定"公共利益"叙事，换取监管环境的稳定性 · 桑德斯（左）与 Sacks（右）在这件事上达成罕见共识——AI 财富分配问题已跨越党派成为政治压力源 c）一个值得关注的反直觉逻辑 · 政府一旦成为股东，其财政利益与 AI 公司盈利直接挂钩：安全专家建议关停风险模型时，财政官员会以"损害国库收入"为由反对；政府同时扮演监管者、股东、受益人三个角色，监管独立性存在根本冲突 · 这一结构也天然倾向于保护头部公司"大到不能倒"的地位，潜在地压制初创竞争者 · 这不是普通的利润分享，而是通过将政府绑定为利益相关方，换取一种隐性的监管豁免

CNBC Tech@CNBCtech

Trump administration, OpenAI discussing possible government stake in the AI startup cnbc.com/2026/06/05/tru…

中文

18K

土豆本豆@Potatoloogs·4d

@yoryon_ 我最近看YC看得挺多

日本語

yoryon@yoryon_·4d

@Potatoloogs 这篇真是振聋发聩

中文

土豆本豆@Potatoloogs·5d

YC：下个十年最大的公司，不是软件公司，是用 AI 重建的服务公司 a）什么是 AI-Native 服务公司 · 不是卖 Copilot 给客户用，而是直接向客户交付结果——AI 做大部分工作，公司对结果负责 · 目标市场：税务、审计、保险、按揭、医疗、物流等，规模以万亿美元计；这个机会两年前根本不存在 b）选市场：四个关键特征 · 低信任度：工作已经被外包，客户只在乎最终结果，不在乎你怎么做到的。你是在替换现有供应商，不是在改变客户行为——预算就在那里，直接去拿 · 任务级低判断需求：大多数步骤可以自动化，人的判断只集中在少数环节；如果每一步都需要人工判断，就没有规模可言 · 整体难度要高：活儿得足够难，难到需要模型加人才能交付客户接受的结果——这反而是护城河 · 监管可以是优势：受监管行业对结果有更高要求和法律责任，这同时也抬高了竞争者的门槛 c）Sam Altman 测试：判断自己会不会被模型淘汰 · 随着模型能力提升，你的服务是变得更强，还是被模型直接商品化？必须在第一种里 · 要小心"涉及实体设备和现场劳动力"的方向——软件毛利的数学在这里不成立，留给机器人创始人 d）创始团队：三个必备属性 · 领域流利度：直接经验最好，后天习得也可以。你面对的是挑剔买家和受监管市场，必须有信誉背书，怎么获得的倒在其次 · 模型流利度：清楚前沿模型今天能做什么，产品设计要能随着模型能力提升一起涨——技术没有替代品，这点被严重低估 · 运营严格性：方差控制、吞吐量、周期时间、SOP——这些不是让人兴奋的词，但你本质上在运营一家运营公司，必须真心尊重这个能力集 e）产品核心：方差是最大的生死问题 · AI 服务里，人是对客户的接口，产品帮助这个人非线性地放大产出——这和普通软件逻辑相反 · 客户因为方差（输出不一致）开除你的速度，比因为慢或者贵开除你快得多。不稳定摧毁信任，信任崩塌才是流失的本质 · 人在环里必须非线性扩展：如果收入只随人头线性增长，商业模式就有根本问题 f）定价和 P&L · 卖结果，不卖席位或 token；按件计价（每份报税、每笔贷款）最干净，也最好解释 · 两种定价必须避免：成本加价（永久锁死上限）；直线降价（让客户觉得东西很廉价） · P&L 的核心赌注：传统服务公司毛利上限约 30%；纯软件毛利高但市场小。AI 服务公司的机会在于：随着产品越成熟，COGS 越低，毛利越接近软件（50%+），但市场规模是软件的 2~3 倍——这就是 AI 运营杠杆 g）两个陷阱 · 早期需求陷阱：初期很容易签来一批试点客户，但会迅速压垮交付能力，逼得你只能靠人力撑，产品停止进化。建议：第一批试点客户严格控制在极小数量，抵住诱惑 · 收购陷阱：买一家现有服务公司再加 AI，看起来能抄近路——几乎总是失败。遗留服务公司有遗留的文化和指标体系，AI 加上去并不改变这些现实；除非你急需特定监管牌照，否则自建永远优于收购 youtube.com/watch?v=gSNFJb…

YouTube

中文

521

土豆本豆@Potatoloogs·4d

LLM 内部究竟怎么运作：从 token 到 next-token，九个核心机制完整梳理 a）Tokenization：模型读的不是文字，是整数 · 文本先被切成 subword 片段，再映射成整数 ID；现代 LLM 词表通常有数万到数十万个词条 · 经典反例：让 LLM 数 "strawberry" 里有几个 R——不是模型不会数数，而是模型根本没在操作字母，只在操作 token ID b）Embedding + 位置编码：给整数赋予意义和顺序 · 每个 token ID 对应 embedding matrix 中的一行向量（7B 模型通常是 4096 维），语义相近的词向量在空间中自然聚拢——这是训练涌现的，没有人为规定 · 早期用正弦波给位置编码，现代模型普遍转向 RoPE（旋转位置编码）：不是把位置信息加进向量，而是旋转 Query 和 Key，让相对距离自然体现在 attention 计算里，且不新增参数 · 实用意义：即使用了 RoPE，LLM 仍有"lost in the middle"问题——对 prompt 开头和结尾信息利用率明显高于中间。"把重要上下文放在最前面"这类 prompt 技巧是真实有效的 c）Attention：token 之间怎么交换信息 · 每个 token 同时扮演三个角色：Query（我在找什么）、Key（我能匹配什么）、Value（匹配上了就传递什么） · 一个有趣的机制：Anthropic 2022 年发现了"induction head"——专门识别"A B … A"模式的注意力头，看到第二个 A 时自动预测 B 跟在后面；这是 in-context learning 背后最清晰的已知机制之一 · 注意力的计算代价随序列长度平方增长，这是长 prompt 贵的根本原因 d）多头注意力：一个常见误解 · 常被误解的地方：每个注意力头不是把 token 向量切片，而是用独立的投影矩阵把完整向量映射到一个更小的子空间——是同一个 token 的不同"视角"，不是不同"切片" · 头的专门化是训练涌现的，没人告诉每个头该做什么：有的头追踪语法，有的头处理代词指代，有的头识别位置模式 · GQA（分组查询注意力）：多个 query head 共享更少的 key/value head，大幅降低 KV cache 内存占用，准确率几乎不变。LLaMA-2 70B 有 64 个 query head 只配 8 个 KV head，Mistral 7B 同理 e）Feed-Forward Network：被严重低估的那一半 · 注意力负责 token 之间交流，FFN 负责每个 token 自己的深度处理，两者缺一不可 · 一个反直觉的事实：Dense 模型里大部分参数在 FFN 里，不在 attention 里 · FFN 是模型"记事本"：研究者发现可以直接编辑 FFN 权重来改变模型的事实认知，而不需要重新训练（ROME 方法——把"埃菲尔铁塔在巴黎"改成"在罗马"，只需对特定 FFN 权重做低秩编辑） · MoE（混合专家）：每层多个并行 FFN，路由器为每个 token 只激活其中几个。Mixtral 8x7B 总参数 467 亿，但每个 token 只用约 129 亿——这是在不线性增加推理成本的前提下扩大参数量的核心思路 f）各家模型的真正区别在哪里 · GPT、Claude、Gemini、LLaMA 在架构层面大同小异，差别主要来自三处：训练数据和规模、配置（层数、头数、是否 MoE）、post-training（指令微调、偏好对齐、安全控制） · 2023—2025 年现代 transformer 在几个关键设计上已收敛：Pre-norm、RMSNorm、RoPE、SwiGLU、GQA——不同团队独立走向了相同选择 0xkato.xyz/how-llms-actua…

中文

土豆本豆@Potatoloogs·4d

Anthropic：Claude Code 内部用了几百个 Skills——九分类框架和制作 Tips a）什么是 Skills，常见误解是什么 · Skills 不是"一个 Markdown 文件"，而是一个文件夹——可以包含脚本、资产、数据等，Agent 可以自己探索和调用里面的内容 · Anthropic 内部目前有数百个 Skills 在活跃使用 b）九大类型（最有价值的一个 Skill 只做一件事） · 库和 API 参考：解释内部库、CLI、SDK 的正确用法，重点是 edge case 和常见坑 · 产品验证：描述如何测试和验证代码，可配合 Playwright、tmux 等工具；这类 Skills 对 Claude 输出质量的可测量提升最大，值得让工程师花一周专门打磨 · 数据获取和分析：连接数据和监控栈，包含凭证、Dashboard ID、常用查询路径 · 业务流程和团队自动化：把重复工作流打包成一条命令，建议把历史执行结果存进日志文件，帮 Model 保持一致性 · 代码脚手架和模板：生成特定框架的 boilerplate，适用于有自然语言要求、纯代码覆盖不了的脚手架场景 · 代码质量和评审：执行代码规范，可以作为 hook 或 GitHub Action 自动触发 · CI/CD 和部署：自动化构建、推送、部署流程 · Runbook：给定一个报警或错误，走完多工具排查流程，输出结构化报告 · 基础设施运维：执行日常维护和高危操作，内置护栏防止误操作 c）写好一个 Skill：六个关键 Tips · 不要说废话：Claude 已经会写代码、会读代码库，重述显而易见的东西只会白白消耗 context；只写那些会让 Claude 偏离默认行为的信息 · 建 Gotchas 区：Skill 里信息密度最高的部分。记录 Claude 在这个场景下真实碰过的失败点，并随时更新 · 用文件系统做渐进式披露：SKILL.md 指向其他文件，Claude 会在合适时机自行读取；把 API 签名、示例、模板放在子目录里，需要时才暴露，不要一次全塞进主文件 · 不要过度约束 Claude：给够信息，但留弹性，让 Claude 能根据实际情况调整；Skill 是高度复用的，太死板会适得其反 · 描述字段写给 Model 看，不是写给人看：Claude Code 启动时会扫描所有 Skill 的 description 来决定"这个请求要不要调用这个 Skill"——description 本质是触发条件，不是摘要 · 存脚本和可复用代码：把脚本放进 Skill 文件夹，让 Claude 做组合和决策，而不是每次重写 boilerplate d）分发和管理 · 小团队：把 Skills check 进 repo（./.claude/skills），够用 · 规模化后：建内部 Plugin Marketplace，让团队按需安装，避免所有 Skill 都挤进 context · Anthropic 内部的 marketplace 没有中心化审核团队，靠自然涌现：先放 sandbox 试用、有足够使用量后 PR 进 marketplace · 技能用量监控：用 PreToolUse hook 记录调用日志，找出高频 Skill 和"应该触发但没触发"的 Skill claude.com/blog/lessons-f…

中文

3.2K

土豆本豆@Potatoloogs·5d

LeCun：LLM 是有用的，但不是通往 AGI 的路——JEPA 和 World Model 才是 a）LLM 的结构性局限：两个缺失的能力 · LLM 只在"语言本身就是推理基底"的领域表现出色——数学、代码、法律文本。对于物理世界，语言只是表面，现实是高维、连续、嘈杂的 · LLM 缺两个 LeCun 认为智能必须具备的能力：一是预测自身行动的后果，二是通过搜索和优化来规划动作序列。自回归生成 token，天然做不到这两件事 · LLM 本质上不安全——不是因为邪恶，而是因为它无法预测行动后果，training error 和 test error 之间永远有 gap，总会有 prompt 让它做出危险的事，且无法从架构层面阻止 · LeCun 的反例："你应该步行去 100 码外的洗车店洗车吗？"——除了德国，主流 LLM 都回答"应该走路去"（而不是开车）。这不是不够聪明，是没有常识 b）JEPA：不预测像素，预测表征 · 关键洞察来自 LeCun 过去十年的观察：所有在图像/视频上成功学到表征的架构，都是非生成式的；所有生成式架构（VAE、MAE 等）基本都是失败的 · JEPA（联合嵌入预测架构）的核心思路：把两个不同视角的输入分别编码，在表征空间里做预测，而不是在像素空间还原图像。Dino、VJA 系列都是这一路线的产物 · 最大的技术挑战：如何防止"表征坍塌"（模型学会预测同一个常数从而逃避任务）。对抗坍塌的方法有多种，最新进展是 SIGreg（强迫编码器输出分布趋近各向同性高斯分布），LeCun 认为这是很有前景的方向 · World Model 的本质定义只有一句话：让智能体能预测自己行动的后果。有了它，才能规划；没有它，agent 每次遇到新任务都要重新收集大量训练数据 c）为什么 17 岁能 20 小时学会开车，自动驾驶却用了百万小时数据 · 这是 LeCun 反复提的核心论据：人类和动物能高效泛化，是因为有世界模型——遇到新任务，不需要重新训练，直接规划 · 基于模仿学习的机器人系统，每个新任务都要重新收集数据，既贵又脆。有了 world model，系统可以零样本解决没见过的任务 d）Tapestry：用联邦学习打破 AI 主权困局 · LeCun 认为，AI 助手将成为所有人信息摄取的中介（想象智能眼镜时代）。如果全球用户的 AI 只来自硅谷或中国，等于文化和价值观被两个地方的人代理——对印度、法国、越南、摩洛哥、哈萨克斯坦等都不公平 · Tapestry 的设计：各国贡献者保留数据主权，只交换参数向量，通过联邦学习的方式共同训练一个全球共识模型。任何一方都不需要把原始数据共享给其他人 · 类比：Linux 消灭了 Solaris、HP-UX；同样的力量将让开放模型击败封闭模型——"OpenAI 和 Anthropic 就是今天的 Sun Microsystem" e）关于 Meta 和 FAIR 的反思 · LeCun 自述：他对 LLama 的直接贡献接近于零，唯一的贡献是力主开源 LLama 2——内部争论持续数月，他坚持认为安全风险被高估，开放生态的价值被低估，最终被证明是对的 · FAIR 的衰落路径：2023 年 GenAI 组织成立，从 FAIR 抽走约 60~70 人；GenAI 在短期压力下变得保守，与 FAIR 脱节；LLama 4 的不尽如人意，正是这个断层的结果 · 对突破性研究的判断："雇最好的人，给他们资源，然后滚开（get the f*** out of the way）"——这是 LeCun 认为 Bell Labs 和早期 FAIR 成功的根本原因，也是现在大多数实验室丧失的东西

中文

Khám phá

@lifesinger @ColorfulToilet @TriadDarren @Ellieorange8 @yoryon_ @elonmusk @BarackObama @taylorswift13