土豆本豆

1.8K posts

土豆本豆 banner
土豆本豆

土豆本豆

@Potatoloogs

🧠 AI产品PM实战派 · Build in Public 05后理工背景 × 跨界思考 | 心理学驱动的产品思考 🎙️ 播客重度依赖 | ⚙️ AI Coding 真实AI产品开发与实习踩坑记录

霍格沃茨 Tham gia Nisan 2026
685 Đang theo dõi1.3K Người theo dõi
土豆本豆
土豆本豆@Potatoloogs·
Claude Fable 5亲测:Opus 4.8搞不定的活它30分钟搞定——但瓶颈已不在AI这边了 a)Fable 5和Mythos 5是同一个底模,区别只在安全层 今年4月,Anthropic发布Mythos Preview。只给极少数网安机构使用,理由是网安能力太强怕被滥用。当时网络安全股全线暴跌。 两个月后加了安全分类器,做成Fable 5公开上线。Mythos同步升级到5,但仍限合作伙伴。 Fable(寓言)和Mythos(神话)同源拉丁语fabula——"寓言给所有人听,神话只在神殿里传颂"。 b)6月22日后,订阅用户将无法使用 6月10日-22日,Fable 5免费包含在Pro、Max、Team及企业版。 23日起从订阅中移除,只能通过API按额度调用。定价:每百万输入token 10美元,输出50美元。 "AI真的要变成贵族的游戏了——你的经济因素,直接决定你能用什么级别的AI。" c)亲测对比:和Opus 4.8完全不是一个级别 热点排序功能:跟Opus 4.8讨论过两次,方案都不满意。Fable 5说明需求后,30分钟开发完直接上线。用聚簇+时间衰减,还考虑了宁缺毋滥——安静日子区块自动消失,不留空壳。 评分体系回测:Opus 4.8出的报告没给什么有用洞见。Fable 5跑了1小时18分钟,输出超详细网页报告。"看了20分钟,发现过去评分体系大量没意识到的问题。" 移动端适配:Opus 4.8改过一版,"给我都干生气了"。Fable 5直接出完整设计方案,甚至考虑了推送、桌面组件、分享海报。 d)官方案例:全库迁移、通关游戏、药物设计 Stripe在5000万行Ruby代码库做全库迁移,一天完成。人来干,一整个团队可能需要两个多月。 纯视觉通关宝可梦火红:不需要辅助框架,只看屏幕截图,不给任何额外信息,从头到尾通关。 自己做了一个3D CAD编辑器,再用这个编辑器设计了可3D打印的模型——"工具的工具"。 Mythos 5(无安全限制版)药物设计:14个蛋白质靶点中产出9个候选方案,全流程自主完成。基因组学方面,整合138个物种、数百万细胞的单细胞数据,训练的模型超过了Science论文模型,且小100倍。 e)安全分类器误杀严重 三类限制:网络安全、生物与化学、模型蒸馏。碰到受限问题会默认退回Opus 4.8。 让它审查自己代码库有没有漏洞,直接被拒。"不让我攻击能理解,不让我加固自己,确实得优化。" f)"我突然觉得,自己并不是一个多么有趣的人" 200刀Max会员,3个任务(其中一个没跑完),2小时多额度就快空了。 额度快空时新起任务,"看着闪烁的光标,突然有一种空白感——就像不会画画的人,面前摆着一块一望无际的白板。你知道理论上可以往上面放任何东西,但突然不知道该放什么了。" 以前瓶颈在AI那边,"我是推着它往前走的人,价值感很清晰"。现在,"我变成了在后面追着跑、气喘吁吁、越追越远的人"。 "我好像有了无数的自由,可我现在又有点害怕自由。"
中文
1
0
2
404
土豆本豆
土豆本豆@Potatoloogs·
陆奇:研究型创业者正走到时代前台——先把"不可能"推进到"可能" a)为什么今天是 Researcher Founder 的时代 · 这一轮变化的本质,不只是 AI 作为新工具出现了,而是生产力结构正在被重组:生产者从开发人员变成研究人员,生产过程本身变成研究过程,生产工具从软件变成算力,生产对象则是数据——既是输入,也是输出。 · 研究和创造价值之间的距离缩短,是一个长期趋势:工业革命的核心研究基础(牛顿力学)到蒸汽机出现,隔了近百年;麦克斯韦方程到无线电报,也历经几十年。今天,这个转化可以在同一个组织、同一个团队、同一个产品迭代周期中发生。 · 以 OpenAI、Anthropic 为代表的新型组织,把研究、工程、产品和商业化压缩进同一个系统。研究不再只是论文产出,而是和工程、用户反馈、商业化彼此交织、彼此推动。 b)NeoLab:下一批巨头的雏形 · NeoLab 不是传统大学实验室,也不是大厂研究院,更不是普通创业公司。它像实验室,从科学问题和能力突破出发;也像公司,必须面对产品、融资和商业化。它的本质是从 -1 到 1 的组织化。 · 典型案例:Thinking Machines Lab(前 OpenAI CTO 米拉·穆拉蒂创立,成立约一年半,估值 500 亿美元);Ineffable Intelligence(AlphaGo 核心作者 David Silver 创立,种子轮融资 10 亿美元,第一轮估值 40 亿美元)。去年全年有 18 家 NeoLab 成立,今年前 5 个月已有 9 家。 · 中国也在出现自己的 NeoLab。基流科技(清华团队,做 AI Infra 核心的 RDMA/RoCE,今年大概率港股上市,或为中国大模型 Infra 第一股);极佳科技、光轮智能、帕西尼、本末科技、极壳科技,分别进入世界模型、具身数据、触觉传感、机器人核心部件、消费级外骨骼等方向。 c)Researcher Founder 需要的三种新思维 · 研究思维:Go High 才能 Go Big。 影响力 = 高水位 × 持续时间。一篇只提升 5% 训练算法的论文很快会被替代;ImageNet 这样的工作成为时代基础设施,影响积累的是时间积分。好的研究方向有三个特征:足够高水位(连接大问题)、有足够长的影响空间、与研究者自身禀赋和兴趣相关。 · 创新思维:不是从"我能做什么"出发,而是从"人、企业和社会到底需要什么"出发。 需求从来没有被真正满足:睡觉的需求被满足好了吗?吃饭呢?真正值得挖掘的是功能背后的深层需求——情绪、身份、关系、表达、陪伴、掌控感、归属感和自我实现。创业者不能因为自己不理解,就否定一个需求。 · 斜率思维:重要的不是你今天有多强,而是你的斜率有多陡。 三条斜率——认知斜率(保持认知更新速度)、能动性斜率(搞定复杂事情的能力越来越强)、品味斜率(做药要知道哪个靶点未来更有人买单,做材料要知道哪个下游需求更强)。 d)从 Book Smart 到 Street Smart · 真正的 Smart,是从 Book Smart 到 Street Smart。Street Smart 是对真实世界的理解——人、市场、组织、交易、预算、流程、关系和价值流动。做科研时,要留意钱如何合法地从一个口袋流到另一个口袋,哪里有钱在流动,哪里就有生命力和创造力。 · 这不是从学术转向世故,而是从抽象转向创造。 e)所有角色都要"过河":从 FDE 到 FDX · 过去,技术和需求之间隔着一条河。Palantir 发明 FDE(Forward Deployed Engineer,前线部署工程师)的起点是:给中央情报局做软件,对方说"你要调研需求,得跟我一起当间谍"。于是形成了驻场开发的文化。 · 今天,Vibe Coding 让代码生成越来越容易,只停留在写代码的人,价值越来越被压缩。Anthropic 已有 Claude Design,设计师也要成为 Forward Deployed Design;产品经理要成为 Forward Deployed Product。未来每一种关键角色都要 Forward Deployed,FDE 扩展为 FDX——不是概念演绎,而是对价值创造方式的根本重新定义。
中文
0
2
3
298
土豆本豆
土豆本豆@Potatoloogs·
@lifesinger 我日常生活里已经没有 Case 能测出 Fable 5和Opus 4.8的能力差距了🧐
中文
0
0
0
1.3K
Frank Wang 玉伯
Frank Wang 玉伯@lifesinger·
用了一天 对 Claude Fable 5 有点失望 就这 而且这么贵 期待有用完觉得特别值的案例晒出来 我一个 aha moment 都没用出来
中文
84
2
91
39.2K
七彩缤纷马桶
七彩缤纷马桶@ColorfulToilet·
Codex,你现在是一个同花顺的顶级操盘手,精通所有K线形态与技术指标、各类选股策略与板块轮动规律,现在打开同花顺,全程你来操作,帮我把账户从10万炒到1000万,token我管够!
七彩缤纷马桶 tweet media
中文
233
59
874
397.1K
土豆本豆
土豆本豆@Potatoloogs·
Claude Code 一周年:Anthropic 内部怎么用——从单 Agent 到千 Agent 树的工作流进化 a)验证才是 Agent 工作流的核心,而不是 unit test · 大家讲"验证"时,想到的是 unit test、lint、type check——但这些早就自动化了,不是 Agent 时代说的那种验证 · 真正的验证是:Agent 能不能把它做的事情"跑起来"——需要专门设计验证环境,这往往不直观,是最大挑战之一 · 实例:用 computer use 让 Claude 自己点开本地桌面 App、测试新 UI、复现边界 case、发现 bug 后自修复再复检 b)Routines:从"我来写代码"到"loop 替我提 prompt" · 一位工程师搭了一个 routine,监听所有 voice mode 相关 issue 和 bug report,Claude 自动拿起、提交 fix、ping 本人看 PR · 另一个 routine:扫描超过 5 小时未响应的 bug report,自动 fix 并 merge 确认可验证的那些——"现在经常有另一个人的 Claude 已经帮你修好了" · 当前进化路径:不再是"我写代码"→"我跟 Agent 说话让它写"→"我跟 loop/routine 说话,它替我 prompt Agent" c)Auto mode 比手动 review 每条权限更安全 · 过去每次运行工具都弹权限提示,人工确认——但 99% 都点 yes,眼睛根本不看 · Auto mode:把权限判断路由给另一个模型分类,只有可疑操作才打断——实测安全性反而更高,因为注意力集中在真正重要的事上 · 发布前经历:收集数千条完整 Agent 轨迹做分类训练 + 红队 prompt injection 攻击 + 内部团队渗透测试,evals 全覆盖后才上线 d)Context minimalism:给的越少,模型反而越好 · Sonnet 3.5 时代要"prompt engineering";Opus 4 时代要"context engineering";现在的模型:给最小 system prompt、最少工具,让模型自己找到路 · 给太多 context,等于在微管理——模型可能知道更好的方法,过度指定反而限制它 · 核心原则:给模型一种"能拉到 context 的方式",而不是把 context 全部塞进去 e)角色正在合并,工程师≈产品经理 · 设计师直接提 PR 改按钮;财务团队用 Claude Code 跑财务预测;数据科学、PM 各角色都在直接改代码 · "Claude 写代码,所以更重要的是你有什么想法"——有产品 context 和用户视角的人,提出的想法天然更好 · Anthropic 内部:新员工入职,不问人,直接问 Claude——Claude 是一切业务流程的中心,而不是旁边放一台电脑 · 对比历史:企业计算机化转型花了 10~15 年;AI 因为工作已数字化、Claude 能直接用电脑写代码,这次转型会快得多 youtube.com/watch?v=Hth_tL…
YouTube video
YouTube
中文
3
4
13
1.9K
土豆本豆
土豆本豆@Potatoloogs·
微软 SkillOpt:不动模型权重,只训练一份文档,小模型反超大模型20倍 a)SkillOpt 是什么,解决什么问题 · 过去让 AI 变强只有两条路:微调权重(贵、黑箱、不可迁移);调提示词(靠手感、不稳定) · SkillOpt 走第三条路:把"技能文档"当成可训练的对象——优化器模型反复指挥 AI 试做任务、分析成败,对说明书做有限增删改;只有验证集分数提高,修改才被保留 · 训练结束后交付一份300~2000 token 的 best_skill.md,模型权重全程一动不动 b)三个反常发现 · 能越级:参数量不足主流大模型5%的 Qwen3.5-4B,加载优化后的技能文件,整体表现反超无技能状态的 GPT-5.2 · 能搬家:同一份技能文件,换模型、换工具链(从 Codex 迁到 Claude Code)、迁移到相邻基准,依然保持正收益 · 零成本:部署时不增加任何额外模型调用;实测提升:表格类任务 41.8→80.7,办公文档类 33.1→72.1 c)护城河正在转移,不是消失 · 过去价值沉淀在"模型权重"里:算力越大越强,但黑箱、无法迁移 · SkillOpt 揭示:价值也可沉淀在一个可流通的技能文件里——专有技能库、企业"工艺秘方",具备成为商品和资产的前提 · 表面平权,实则:掌握独家数据和验证环境的人会变得更强;护城河只是转移,不是消失 · 对算力受限的玩家(开源社区、小模型团队)是利好——不靠堆显卡,也能拿到可迁移的能力增益 · 竞争胜负手,从"谁的模型更大",悄悄变成"谁更懂自己的活儿、并能把它清清楚楚地写下来" microsoft.github.io/SkillOpt/
中文
2
5
22
1.9K
土豆本豆
土豆本豆@Potatoloogs·
软件工程进入agent时代:核心问题依然是复杂性,但人/agent/软件的责任边界要重新划分 a)研究重心转移:从"以人为中心"到"以agent为中心" · 软件工程核心命题没变——如何高质高效开发和维护软件、保障商业成功 · 变的是主体:以前是人,现在转向agent(也称 Harness Engineering) · 核心要研究的新问题:人、agent、软件三者的责任如何重新分配 b)本质问题仍是软件复杂性,但展开方式变了 · 复杂性评测:如何量化软件复杂性(定义维度 → 自动计算 → 结合实际项目如 AOSP、Linux 内核生成评测集),测出 agent 在哪些复杂性上表现不好 · 软件知识的可读可执行:需求、架构、决策如何描述,让 agent 可读可写可执行;软件知识 schema 如何定义、表达、组织 · agent 团队协作对齐:人靠文档/会议/聊天对齐,agent 大量依赖外部工具;人与 agent 之间怎么对齐理解和使用方式 · 传统软件工程理论、方法、工具如何适配 agent c)研究方向的两个"避坑"原则 · 避开容易被模型"吃掉"的方向——通用 agent 框架、工具调用、通用软件工程知识,大厂已做得很好 · 避开没有深度的方向——随着 harness 抽象越来越像框架,自己重新做一个 agent 框架收益很低;有价值的是逐步独立出来的核心模块,如 memory、搜索引擎等
中文
2
3
13
1.2K
土豆本豆
土豆本豆@Potatoloogs·
Loop Engineering:不是“prompt Agent”,是“设计替你提示 Agent 的系统” a)这个范式转变是什么 · Claude Code 负责人 Boris Cherny:「我不再提示 Claude,我让 loop 来提示 Claude,搞清楚要做什么。我的工作是写 loop。」 · 过去两年的工作方式:写好 prompt、等返回、再写下一条,人始终握着 Agent;现在的方向是,让一个小系统来发现任务、分发、检查、记录、决定下一步——你设计那个系统。 b)一个 loop 的五个要素 · Automations(自动化):按计划触发,自动发现和分类任务(如每天扫 CI 失败、归档 issue)。这是 loop 的心跳。 · Worktrees(工作树):多 Agent 并行时各用独立 git 分支,彼此的改动物理隔离,不会踩踏。 · Skills(技能文件):把项目约定、构建步骤、背景知识写成 SKILL.md,Agent 每次运行都读——不用反复解释。作者把不写 Skills 的代价叫「intent debt」:Agent 每次冷启动,会用自信的猜测填满你意图里的每一个空洞。 · Plugins / Connectors(MCP 连接器):让 loop 能操作 Linear、Slack、数据库等真实工具,而不只是改本地文件。区别是:能说「这是修复方案」,还是能直接开 PR、更新 ticket、CI 绿了 ping 频道。 · Sub-agents(子代理):写代码的和审查代码的分开。「写代码的 model 给自己打分,太好说话了。」Codex 和 Claude Code 都支持定义独立的审查 Agent,用更强的 model、更高的推理强度去验证。/goal 的底层也是这个逻辑——判断 loop 是否完成,由另一个独立 model 来做,而非执行者自判。 · 第六件事(状态记忆):一个对话外的 markdown 文件或看板,记哪些做了、哪些没做。Agent 每次运行都会失忆,repo 不会。 c)这个范式不会帮你解决的三件事 · Verification 仍是你的责任:loop 无人看管地运行,也会无人看管地出错。「你的工作是交付你确认能跑的代码。」 · Comprehension debt(理解债务):loop 产出代码的速度越快,你没读过的代码堆得越多。顺滑的 loop 会加速这个缺口,除非你主动读 loop 产出的东西。 · Cognitive surrender(认知投降):loop 自己跑起来后,很容易停止有判断、直接接受它给的一切。「设计 loop」这个动作,用来思考时是杠杆,用来逃避思考时是加速器——同一个行为,结果相反。
Addy Osmani@addyosmani

x.com/i/article/2064…

中文
1
4
26
5.6K
土豆本豆
土豆本豆@Potatoloogs·
iPod 和 iPhone 的缔造者 Tony Fadell:AI 让构建变容易了,但这恰恰让“品味”变得更值钱 a)AI 时代最危险的陷阱:快时尚软件 · Fadell 看到 Anthropic 泄露的 Claude 源码后,引用了工程师的反应:代码能跑、能过测试,但主循环根本没有分层,不可读、不可维护——"你怎么能这样写主循环?" · 他的判断:AI 生成代码的本质是"快时尚"——H&M 的东西穿一季就扔,但如果你要建真正的公司,软件不能是一次性的。AI 生成代码给你短期收益,但累积的是极深的技术债 · 正确用法:用 Claude Code 做原型、做子模块,但架构必须由人来定,锁定后再让 AI 在有限范围内工作——这和让 AI 接管整个 codebase 有本质区别 b)越容易构建,品味越稀缺 · 当写代码的成本趋向于零,能把几十个功能点判断收敛成"三个核心卖点"的人,才是真正稀缺的 · Fadell 给的判断框架:一个产品的发布稿只容得下三四个关键特性,超过这个就是噪音——这个约束倒逼你做减法,而 AI 让人更容易堆功能,品味反而更难得 · 他举 Flighty 为例:用 AI 可以复制 v2 的某些子功能,但 v1 不可能被 vibe code 出来——真正创新、没有前例的东西,AI 没有参照物,只能由人来做第一个 c)如何判断一个想法值不值得建:痛点 + 新技术的交叉点 · Fadell 的选题框架只有两条:一是找长期存在的真实痛点(往往是当初技术限制遗留下来的、已经被习惯化的痛苦);二是问"现在有没有刚刚成熟的新技术可以解决这个痛点" · iPod 的公式:便携大容量存储 + 数字音乐 + 锂电池 + ARM 低功耗处理器,缺一不可 · 他的补充判断:不是只改产品,而是改整个系统——iPod 不等于设备,等于 iPod + iTunes + 音乐商店;iPhone 不等于手机,等于 iPhone + App Store d)"三代定律":没有人第一次就做对 · 他的规律:第一代,做出产品;第二代,修好产品;第三代,修好商业模式 · iPod 第一代只卖给 Mac 用户,第二代依然如此,第三代支持 Windows 才真正起飞——Steve Jobs 最初坚决反对 Windows 兼容,最后被数据和市场教育 · 核心态度:如果一直在迭代,就不叫失败,叫学习 e)下一个 iPhone:声音优先,屏幕仍然必要 · 他认为未来设备的交互顺序必须倒置——现在是"触摸优先、键盘次之、语音垫底",应该变成"声音优先、键盘其次、触摸降级" · 但他明确不看好无屏幕路线(类 Humane 设备):除非直连大脑或激光投影进视网膜,否则显示屏是无可替代的——看地图、处理视觉信息,声音永远不够 · 消费者信任需要时间建立,就像全自动驾驶已喊了 15 年,他对"AI 助手完全替代手机交互"的时间表保持怀疑 youtube.com/watch?v=RJjl1T…
YouTube video
YouTube
中文
0
4
9
2.1K
土豆本豆
土豆本豆@Potatoloogs·
Arize AI CPO:用 observability 和 evals 的 PM,已经是全球前 1%——现在还不到 1% 的人在做 a)AI PM 时代,代码便宜了,品味才是 alpha · Claude Code 让写代码的成本无限趋近于零,这反而让"产品品味"成了最稀缺的东西——知道该建什么,比能建什么更值钱 · AI 原生团队的现实:PM 和工程师之间的边界正在消失。能识别痛点、设计体验、当天自己 vibe code 出来的人,是当下最抢手的 triple threat · Arize 正在招更多 PM,不是更少——但要的是真正有判断力、有品味的 PM,不是执行者 b)PM Agent 的完整构建循环:build → trace → eval → improve · Aparna 现场演示的工作流:用 Claude Code 构建一个"产品品味 Agent",输入源是 GitHub Issues、GitHub Discussions,输出是按 P0~P3 优先级排序的 PM 报告 · 关键:不是 build 完就结束。真正的循环是:build → 接入 observability(让每一步都可见)→ 用 trace 数据生成 eval → 发现哪里错了 → 改进 agent → 再跑一遍 · 何时开始做 evals:不是一开始,而是有了真实 trace 数据之后。evals 不是凭空设计的,它来自 traces——这是大多数团队搞错顺序的地方 c)Eval 的两个常见误区 · 误区一:从"我觉得有问题"出发,而不是从 trace 数据出发——没有 trace 支撑的 eval,信噪比极低 · 误区二:"vibe eval"可以长期用——一次性让 Claude 自动生成的 eval 只是起点,很快就会失准;必须引入人工标注来对齐,且要随着新数据持续重新对齐 · 一个好的 eval 该是什么感觉:有一定比例对、也有一定比例错——eval 全错说明 eval 本身有问题,eval 全对说明没有改进空间。看到 eval 出错应该兴奋,因为这意味着有地方可以变得更好 d)对企业 PM 的建议:从一个内部 agent 开始 · 不要等 AI 战略落地,先找一件你每周重复做的事(写 release notes、整理 standup、汇总用户反馈),用 Claude Code 在两小时内把它 agent 化 · 这不只是省时间,而是让你亲身理解"agent 构建到底难在哪"——vibe code 出来只需要一小时,但让它真的好用,需要 observability 和 evals · 企业最大的机会:打破数据孤岛,构建 context graph——Agent 的能力上限等于它能访问的上下文质量上限 youtube.com/watch?v=DL-pUG…
YouTube video
YouTube
中文
0
2
3
441
一只小橘呀
一只小橘呀@Ellieorange8·
所有心理学鸡汤里我最相信的几条: · 休息不需要附加其他意义,休息就是休息 · 不要对尚未发生的事情大惊小怪 · 保护自己的能量;我关注什么,能量就流向哪里 · 不要边做边泼自己冷水 · 对于已经发生的事情,我骂自己一次,它就多伤害我一次 · 别人对我的看法与我无关 · 回避恐惧是ok的,不必非得克服 · 专注和享受当下,听风的声音 · 多记着成功的事,少惦记失败 · 放宽期待,「看看接下来会发生什么」 · 精神的宁静比过度分析更重要
中文
30
16
70
3.4K
土豆本豆
土豆本豆@Potatoloogs·
微软CEO Nadella:大多数 CEO 至今回答不了这个问题——你们公司的 Token 资本是什么? a)AI 时代真正的知识产权,不是数据,是寻优机制 · Nadella 把新时代的 BASIC 解释器定义为"寻优机制"(hill-climbing mechanism):设定目标和评估基准,通过数据与强化学习的配合来达成目标 · 他认为真正的知识产权产生于:你用什么数据集训练模型、如何设计奖励机制——其他的都在走向机械化 b)Token 资本:CEO 最危险的认知盲区 · Nadella 给出一个检验:如果 CEO 无法清晰回答"我们公司的 Token 资本是什么、如何管理、如何形成复利",这就是 AI 时代最危险的认知盲区——就像一个 CEO 声称自己不了解公司的人力资本一样荒谬 · Token 资本可以是上下文环境、某项技能或模型权重,但必须能被明确界定为"公司所拥有、控制、创造的资产",并有系统让它产生复利 c)隐性知识正在单向泄漏,大多数公司没意识到 · 企业百年沉淀的隐性知识——独有的运营方式、判断力和品味——正通过员工与 AI 的协同操作轨迹悄然外流,被模型公司通过奖励机制提取并编码进权重 · 这是一扇单向门:一旦打开就失去底牌。正确做法是让模型在企业自主控制的系统内寻优,收集员工与 Agent 协同的真实 trace,建立持续迭代的闭环,且不让任何数据泄漏 d)"认知覆盖":AI 时代最重要的人类技能之一 · Nadella 在 GitHub Copilot 内部发现一个新功能叫"认知覆盖":每当 AI Agent 完成某项工作,就生成一个小测验,逼迫人类真正理解 AI 做了什么、为什么这样做 · 类比:过去关注代码的测试覆盖率,现在要关注人类对 AI 决策的认知覆盖程度。这不是可选项,是必须主动培养的能力 e)Token 效率的反直觉判断 · 不要用前沿模型解决非前沿问题——高度重复性、规则明确的工作流,用小参数模型配合强化学习寻优,效果甚至能超过靠提示词驱动的顶级大模型 · 对系统极限和系统固有特征有深刻理解的人,在 Token 过剩时代反而是稀缺且高溢价的 youtube.com/watch?v=BKx0Dp…
YouTube video
YouTube
中文
0
2
3
552
土豆本豆
土豆本豆@Potatoloogs·
奥特曼主动提议将 OpenAI 50% 股权移交公众,白宫正考虑入股 AI 头部公司 a)事件本身 · 奥特曼本周主动约见参议员桑德斯,议题是后者此前提出的方案:将美国最大 AI 公司 50% 的所有权股份移交给公众 · 白宫 AI 沙皇 David Sacks 公开表态支持,理由是 OpenAI 和 Anthropic 均已注册为公共利益公司,将训练数据(人类集体知识)产生收益的一半返还公众,逻辑上自洽 · 提案背景:昆尼皮亚克大学最新民调显示,80% 的美国人对 AI 表示担忧;哈佛毕业典礼上演讲者公开呼吁终结神经网络,场内欢呼 b)为什么偏偏是现在 · OpenAI、Anthropic 均在 IPO 准备期,此时主动交出股权,是在 IPO 前锁定"公共利益"叙事,换取监管环境的稳定性 · 桑德斯(左)与 Sacks(右)在这件事上达成罕见共识——AI 财富分配问题已跨越党派成为政治压力源 c)一个值得关注的反直觉逻辑 · 政府一旦成为股东,其财政利益与 AI 公司盈利直接挂钩:安全专家建议关停风险模型时,财政官员会以"损害国库收入"为由反对;政府同时扮演监管者、股东、受益人三个角色,监管独立性存在根本冲突 · 这一结构也天然倾向于保护头部公司"大到不能倒"的地位,潜在地压制初创竞争者 · 这不是普通的利润分享,而是通过将政府绑定为利益相关方,换取一种隐性的监管豁免
CNBC Tech@CNBCtech

Trump administration, OpenAI discussing possible government stake in the AI startup cnbc.com/2026/06/05/tru…

中文
5
6
18
18K
土豆本豆
土豆本豆@Potatoloogs·
YC:下个十年最大的公司,不是软件公司,是用 AI 重建的服务公司 a)什么是 AI-Native 服务公司 · 不是卖 Copilot 给客户用,而是直接向客户交付结果——AI 做大部分工作,公司对结果负责 · 目标市场:税务、审计、保险、按揭、医疗、物流等,规模以万亿美元计;这个机会两年前根本不存在 b)选市场:四个关键特征 · 低信任度:工作已经被外包,客户只在乎最终结果,不在乎你怎么做到的。你是在替换现有供应商,不是在改变客户行为——预算就在那里,直接去拿 · 任务级低判断需求:大多数步骤可以自动化,人的判断只集中在少数环节;如果每一步都需要人工判断,就没有规模可言 · 整体难度要高:活儿得足够难,难到需要模型加人才能交付客户接受的结果——这反而是护城河 · 监管可以是优势:受监管行业对结果有更高要求和法律责任,这同时也抬高了竞争者的门槛 c)Sam Altman 测试:判断自己会不会被模型淘汰 · 随着模型能力提升,你的服务是变得更强,还是被模型直接商品化?必须在第一种里 · 要小心"涉及实体设备和现场劳动力"的方向——软件毛利的数学在这里不成立,留给机器人创始人 d)创始团队:三个必备属性 · 领域流利度:直接经验最好,后天习得也可以。你面对的是挑剔买家和受监管市场,必须有信誉背书,怎么获得的倒在其次 · 模型流利度:清楚前沿模型今天能做什么,产品设计要能随着模型能力提升一起涨——技术没有替代品,这点被严重低估 · 运营严格性:方差控制、吞吐量、周期时间、SOP——这些不是让人兴奋的词,但你本质上在运营一家运营公司,必须真心尊重这个能力集 e)产品核心:方差是最大的生死问题 · AI 服务里,人是对客户的接口,产品帮助这个人非线性地放大产出——这和普通软件逻辑相反 · 客户因为方差(输出不一致)开除你的速度,比因为慢或者贵开除你快得多。不稳定摧毁信任,信任崩塌才是流失的本质 · 人在环里必须非线性扩展:如果收入只随人头线性增长,商业模式就有根本问题 f)定价和 P&L · 卖结果,不卖席位或 token;按件计价(每份报税、每笔贷款)最干净,也最好解释 · 两种定价必须避免:成本加价(永久锁死上限);直线降价(让客户觉得东西很廉价) · P&L 的核心赌注:传统服务公司毛利上限约 30%;纯软件毛利高但市场小。AI 服务公司的机会在于:随着产品越成熟,COGS 越低,毛利越接近软件(50%+),但市场规模是软件的 2~3 倍——这就是 AI 运营杠杆 g)两个陷阱 · 早期需求陷阱:初期很容易签来一批试点客户,但会迅速压垮交付能力,逼得你只能靠人力撑,产品停止进化。建议:第一批试点客户严格控制在极小数量,抵住诱惑 · 收购陷阱:买一家现有服务公司再加 AI,看起来能抄近路——几乎总是失败。遗留服务公司有遗留的文化和指标体系,AI 加上去并不改变这些现实;除非你急需特定监管牌照,否则自建永远优于收购 youtube.com/watch?v=gSNFJb…
YouTube video
YouTube
中文
1
2
3
521
土豆本豆
土豆本豆@Potatoloogs·
LLM 内部究竟怎么运作:从 token 到 next-token,九个核心机制完整梳理 a)Tokenization:模型读的不是文字,是整数 · 文本先被切成 subword 片段,再映射成整数 ID;现代 LLM 词表通常有数万到数十万个词条 · 经典反例:让 LLM 数 "strawberry" 里有几个 R——不是模型不会数数,而是模型根本没在操作字母,只在操作 token ID b)Embedding + 位置编码:给整数赋予意义和顺序 · 每个 token ID 对应 embedding matrix 中的一行向量(7B 模型通常是 4096 维),语义相近的词向量在空间中自然聚拢——这是训练涌现的,没有人为规定 · 早期用正弦波给位置编码,现代模型普遍转向 RoPE(旋转位置编码):不是把位置信息加进向量,而是旋转 Query 和 Key,让相对距离自然体现在 attention 计算里,且不新增参数 · 实用意义:即使用了 RoPE,LLM 仍有"lost in the middle"问题——对 prompt 开头和结尾信息利用率明显高于中间。"把重要上下文放在最前面"这类 prompt 技巧是真实有效的 c)Attention:token 之间怎么交换信息 · 每个 token 同时扮演三个角色:Query(我在找什么)、Key(我能匹配什么)、Value(匹配上了就传递什么) · 一个有趣的机制:Anthropic 2022 年发现了"induction head"——专门识别"A B … A"模式的注意力头,看到第二个 A 时自动预测 B 跟在后面;这是 in-context learning 背后最清晰的已知机制之一 · 注意力的计算代价随序列长度平方增长,这是长 prompt 贵的根本原因 d)多头注意力:一个常见误解 · 常被误解的地方:每个注意力头不是把 token 向量切片,而是用独立的投影矩阵把完整向量映射到一个更小的子空间——是同一个 token 的不同"视角",不是不同"切片" · 头的专门化是训练涌现的,没人告诉每个头该做什么:有的头追踪语法,有的头处理代词指代,有的头识别位置模式 · GQA(分组查询注意力):多个 query head 共享更少的 key/value head,大幅降低 KV cache 内存占用,准确率几乎不变。LLaMA-2 70B 有 64 个 query head 只配 8 个 KV head,Mistral 7B 同理 e)Feed-Forward Network:被严重低估的那一半 · 注意力负责 token 之间交流,FFN 负责每个 token 自己的深度处理,两者缺一不可 · 一个反直觉的事实:Dense 模型里大部分参数在 FFN 里,不在 attention 里 · FFN 是模型"记事本":研究者发现可以直接编辑 FFN 权重来改变模型的事实认知,而不需要重新训练(ROME 方法——把"埃菲尔铁塔在巴黎"改成"在罗马",只需对特定 FFN 权重做低秩编辑) · MoE(混合专家):每层多个并行 FFN,路由器为每个 token 只激活其中几个。Mixtral 8x7B 总参数 467 亿,但每个 token 只用约 129 亿——这是在不线性增加推理成本的前提下扩大参数量的核心思路 f)各家模型的真正区别在哪里 · GPT、Claude、Gemini、LLaMA 在架构层面大同小异,差别主要来自三处:训练数据和规模、配置(层数、头数、是否 MoE)、post-training(指令微调、偏好对齐、安全控制) · 2023—2025 年现代 transformer 在几个关键设计上已收敛:Pre-norm、RMSNorm、RoPE、SwiGLU、GQA——不同团队独立走向了相同选择 0xkato.xyz/how-llms-actua…
中文
4
22
84
8K
土豆本豆
土豆本豆@Potatoloogs·
Anthropic:Claude Code 内部用了几百个 Skills——九分类框架和制作 Tips a)什么是 Skills,常见误解是什么 · Skills 不是"一个 Markdown 文件",而是一个文件夹——可以包含脚本、资产、数据等,Agent 可以自己探索和调用里面的内容 · Anthropic 内部目前有数百个 Skills 在活跃使用 b)九大类型(最有价值的一个 Skill 只做一件事) · 库和 API 参考:解释内部库、CLI、SDK 的正确用法,重点是 edge case 和常见坑 · 产品验证:描述如何测试和验证代码,可配合 Playwright、tmux 等工具;这类 Skills 对 Claude 输出质量的可测量提升最大,值得让工程师花一周专门打磨 · 数据获取和分析:连接数据和监控栈,包含凭证、Dashboard ID、常用查询路径 · 业务流程和团队自动化:把重复工作流打包成一条命令,建议把历史执行结果存进日志文件,帮 Model 保持一致性 · 代码脚手架和模板:生成特定框架的 boilerplate,适用于有自然语言要求、纯代码覆盖不了的脚手架场景 · 代码质量和评审:执行代码规范,可以作为 hook 或 GitHub Action 自动触发 · CI/CD 和部署:自动化构建、推送、部署流程 · Runbook:给定一个报警或错误,走完多工具排查流程,输出结构化报告 · 基础设施运维:执行日常维护和高危操作,内置护栏防止误操作 c)写好一个 Skill:六个关键 Tips · 不要说废话:Claude 已经会写代码、会读代码库,重述显而易见的东西只会白白消耗 context;只写那些会让 Claude 偏离默认行为的信息 · 建 Gotchas 区:Skill 里信息密度最高的部分。记录 Claude 在这个场景下真实碰过的失败点,并随时更新 · 用文件系统做渐进式披露:SKILL.md 指向其他文件,Claude 会在合适时机自行读取;把 API 签名、示例、模板放在子目录里,需要时才暴露,不要一次全塞进主文件 · 不要过度约束 Claude:给够信息,但留弹性,让 Claude 能根据实际情况调整;Skill 是高度复用的,太死板会适得其反 · 描述字段写给 Model 看,不是写给人看:Claude Code 启动时会扫描所有 Skill 的 description 来决定"这个请求要不要调用这个 Skill"——description 本质是触发条件,不是摘要 · 存脚本和可复用代码:把脚本放进 Skill 文件夹,让 Claude 做组合和决策,而不是每次重写 boilerplate d)分发和管理 · 小团队:把 Skills check 进 repo(./.claude/skills),够用 · 规模化后:建内部 Plugin Marketplace,让团队按需安装,避免所有 Skill 都挤进 context · Anthropic 内部的 marketplace 没有中心化审核团队,靠自然涌现:先放 sandbox 试用、有足够使用量后 PR 进 marketplace · 技能用量监控:用 PreToolUse hook 记录调用日志,找出高频 Skill 和"应该触发但没触发"的 Skill claude.com/blog/lessons-f…
中文
2
11
33
3.2K
土豆本豆
土豆本豆@Potatoloogs·
LeCun:LLM 是有用的,但不是通往 AGI 的路——JEPA 和 World Model 才是 a)LLM 的结构性局限:两个缺失的能力 · LLM 只在"语言本身就是推理基底"的领域表现出色——数学、代码、法律文本。对于物理世界,语言只是表面,现实是高维、连续、嘈杂的 · LLM 缺两个 LeCun 认为智能必须具备的能力:一是预测自身行动的后果,二是通过搜索和优化来规划动作序列。自回归生成 token,天然做不到这两件事 · LLM 本质上不安全——不是因为邪恶,而是因为它无法预测行动后果,training error 和 test error 之间永远有 gap,总会有 prompt 让它做出危险的事,且无法从架构层面阻止 · LeCun 的反例:"你应该步行去 100 码外的洗车店洗车吗?"——除了德国,主流 LLM 都回答"应该走路去"(而不是开车)。这不是不够聪明,是没有常识 b)JEPA:不预测像素,预测表征 · 关键洞察来自 LeCun 过去十年的观察:所有在图像/视频上成功学到表征的架构,都是非生成式的;所有生成式架构(VAE、MAE 等)基本都是失败的 · JEPA(联合嵌入预测架构)的核心思路:把两个不同视角的输入分别编码,在表征空间里做预测,而不是在像素空间还原图像。Dino、VJA 系列都是这一路线的产物 · 最大的技术挑战:如何防止"表征坍塌"(模型学会预测同一个常数从而逃避任务)。对抗坍塌的方法有多种,最新进展是 SIGreg(强迫编码器输出分布趋近各向同性高斯分布),LeCun 认为这是很有前景的方向 · World Model 的本质定义只有一句话:让智能体能预测自己行动的后果。有了它,才能规划;没有它,agent 每次遇到新任务都要重新收集大量训练数据 c)为什么 17 岁能 20 小时学会开车,自动驾驶却用了百万小时数据 · 这是 LeCun 反复提的核心论据:人类和动物能高效泛化,是因为有世界模型——遇到新任务,不需要重新训练,直接规划 · 基于模仿学习的机器人系统,每个新任务都要重新收集数据,既贵又脆。有了 world model,系统可以零样本解决没见过的任务 d)Tapestry:用联邦学习打破 AI 主权困局 · LeCun 认为,AI 助手将成为所有人信息摄取的中介(想象智能眼镜时代)。如果全球用户的 AI 只来自硅谷或中国,等于文化和价值观被两个地方的人代理——对印度、法国、越南、摩洛哥、哈萨克斯坦等都不公平 · Tapestry 的设计:各国贡献者保留数据主权,只交换参数向量,通过联邦学习的方式共同训练一个全球共识模型。任何一方都不需要把原始数据共享给其他人 · 类比:Linux 消灭了 Solaris、HP-UX;同样的力量将让开放模型击败封闭模型——"OpenAI 和 Anthropic 就是今天的 Sun Microsystem" e)关于 Meta 和 FAIR 的反思 · LeCun 自述:他对 LLama 的直接贡献接近于零,唯一的贡献是力主开源 LLama 2——内部争论持续数月,他坚持认为安全风险被高估,开放生态的价值被低估,最终被证明是对的 · FAIR 的衰落路径:2023 年 GenAI 组织成立,从 FAIR 抽走约 60~70 人;GenAI 在短期压力下变得保守,与 FAIR 脱节;LLama 4 的不尽如人意,正是这个断层的结果 · 对突破性研究的判断:"雇最好的人,给他们资源,然后滚开(get the f*** out of the way)"——这是 LeCun 认为 Bell Labs 和早期 FAIR 成功的根本原因,也是现在大多数实验室丧失的东西
中文
2
4
13
2K