yoryon

245 posts

yoryon

@yoryon_

🧠 AI Native | 休学创业 📈 A股投资 | 深度思考 | 持续行动 🌊 成长记录 & 认知体系搭建中

Katılım Ocak 2024

81 Takip Edilen21 Takipçiler

yoryon@yoryon_·16h

@Potatoloogs 6月22日后，订阅用户将无法使用。这太cs了

中文

土豆本豆@Potatoloogs·1d

Claude Fable 5亲测：Opus 4.8搞不定的活它30分钟搞定——但瓶颈已不在AI这边了 a）Fable 5和Mythos 5是同一个底模，区别只在安全层今年4月，Anthropic发布Mythos Preview。只给极少数网安机构使用，理由是网安能力太强怕被滥用。当时网络安全股全线暴跌。两个月后加了安全分类器，做成Fable 5公开上线。Mythos同步升级到5，但仍限合作伙伴。 Fable（寓言）和Mythos（神话）同源拉丁语fabula——"寓言给所有人听，神话只在神殿里传颂"。 b）6月22日后，订阅用户将无法使用 6月10日-22日，Fable 5免费包含在Pro、Max、Team及企业版。 23日起从订阅中移除，只能通过API按额度调用。定价：每百万输入token 10美元，输出50美元。 "AI真的要变成贵族的游戏了——你的经济因素，直接决定你能用什么级别的AI。" c）亲测对比：和Opus 4.8完全不是一个级别热点排序功能：跟Opus 4.8讨论过两次，方案都不满意。Fable 5说明需求后，30分钟开发完直接上线。用聚簇+时间衰减，还考虑了宁缺毋滥——安静日子区块自动消失，不留空壳。评分体系回测：Opus 4.8出的报告没给什么有用洞见。Fable 5跑了1小时18分钟，输出超详细网页报告。"看了20分钟，发现过去评分体系大量没意识到的问题。" 移动端适配：Opus 4.8改过一版，"给我都干生气了"。Fable 5直接出完整设计方案，甚至考虑了推送、桌面组件、分享海报。 d）官方案例：全库迁移、通关游戏、药物设计 Stripe在5000万行Ruby代码库做全库迁移，一天完成。人来干，一整个团队可能需要两个多月。纯视觉通关宝可梦火红：不需要辅助框架，只看屏幕截图，不给任何额外信息，从头到尾通关。自己做了一个3D CAD编辑器，再用这个编辑器设计了可3D打印的模型——"工具的工具"。 Mythos 5（无安全限制版）药物设计：14个蛋白质靶点中产出9个候选方案，全流程自主完成。基因组学方面，整合138个物种、数百万细胞的单细胞数据，训练的模型超过了Science论文模型，且小100倍。 e）安全分类器误杀严重三类限制：网络安全、生物与化学、模型蒸馏。碰到受限问题会默认退回Opus 4.8。让它审查自己代码库有没有漏洞，直接被拒。"不让我攻击能理解，不让我加固自己，确实得优化。" f）"我突然觉得，自己并不是一个多么有趣的人" 200刀Max会员，3个任务（其中一个没跑完），2小时多额度就快空了。额度快空时新起任务，"看着闪烁的光标，突然有一种空白感——就像不会画画的人，面前摆着一块一望无际的白板。你知道理论上可以往上面放任何东西，但突然不知道该放什么了。" 以前瓶颈在AI那边，"我是推着它往前走的人，价值感很清晰"。现在，"我变成了在后面追着跑、气喘吁吁、越追越远的人"。 "我好像有了无数的自由，可我现在又有点害怕自由。"

中文

427

yoryon@yoryon_·4d

@Potatoloogs 这篇真是振聋发聩

中文

土豆本豆@Potatoloogs·5d

YC：下个十年最大的公司，不是软件公司，是用 AI 重建的服务公司 a）什么是 AI-Native 服务公司 · 不是卖 Copilot 给客户用，而是直接向客户交付结果——AI 做大部分工作，公司对结果负责 · 目标市场：税务、审计、保险、按揭、医疗、物流等，规模以万亿美元计；这个机会两年前根本不存在 b）选市场：四个关键特征 · 低信任度：工作已经被外包，客户只在乎最终结果，不在乎你怎么做到的。你是在替换现有供应商，不是在改变客户行为——预算就在那里，直接去拿 · 任务级低判断需求：大多数步骤可以自动化，人的判断只集中在少数环节；如果每一步都需要人工判断，就没有规模可言 · 整体难度要高：活儿得足够难，难到需要模型加人才能交付客户接受的结果——这反而是护城河 · 监管可以是优势：受监管行业对结果有更高要求和法律责任，这同时也抬高了竞争者的门槛 c）Sam Altman 测试：判断自己会不会被模型淘汰 · 随着模型能力提升，你的服务是变得更强，还是被模型直接商品化？必须在第一种里 · 要小心"涉及实体设备和现场劳动力"的方向——软件毛利的数学在这里不成立，留给机器人创始人 d）创始团队：三个必备属性 · 领域流利度：直接经验最好，后天习得也可以。你面对的是挑剔买家和受监管市场，必须有信誉背书，怎么获得的倒在其次 · 模型流利度：清楚前沿模型今天能做什么，产品设计要能随着模型能力提升一起涨——技术没有替代品，这点被严重低估 · 运营严格性：方差控制、吞吐量、周期时间、SOP——这些不是让人兴奋的词，但你本质上在运营一家运营公司，必须真心尊重这个能力集 e）产品核心：方差是最大的生死问题 · AI 服务里，人是对客户的接口，产品帮助这个人非线性地放大产出——这和普通软件逻辑相反 · 客户因为方差（输出不一致）开除你的速度，比因为慢或者贵开除你快得多。不稳定摧毁信任，信任崩塌才是流失的本质 · 人在环里必须非线性扩展：如果收入只随人头线性增长，商业模式就有根本问题 f）定价和 P&L · 卖结果，不卖席位或 token；按件计价（每份报税、每笔贷款）最干净，也最好解释 · 两种定价必须避免：成本加价（永久锁死上限）；直线降价（让客户觉得东西很廉价） · P&L 的核心赌注：传统服务公司毛利上限约 30%；纯软件毛利高但市场小。AI 服务公司的机会在于：随着产品越成熟，COGS 越低，毛利越接近软件（50%+），但市场规模是软件的 2~3 倍——这就是 AI 运营杠杆 g）两个陷阱 · 早期需求陷阱：初期很容易签来一批试点客户，但会迅速压垮交付能力，逼得你只能靠人力撑，产品停止进化。建议：第一批试点客户严格控制在极小数量，抵住诱惑 · 收购陷阱：买一家现有服务公司再加 AI，看起来能抄近路——几乎总是失败。遗留服务公司有遗留的文化和指标体系，AI 加上去并不改变这些现实；除非你急需特定监管牌照，否则自建永远优于收购 youtube.com/watch?v=gSNFJb…

YouTube

中文

524

yoryon@yoryon_·31 May

一个人的一生，有纵向延展的时间，也有横向定格的瞬间。可对别人来讲，常常只有一个切片。然后这个切片，就足够成为你在他们眼中的全部。所以会有很多误解。一个知道自己不完全了解你、并且因此保持某种谦逊的人，比一个自认为很懂你的人，反而更接近真正的理解。

中文

yoryon@yoryon_·30 May

@Clara_J_0529 现在传统行业的ai改造有很大需求

中文

345

Clara J@Clara_J_0529·30 May

所以如果搞ai创业基本上只有三个路吗？咨询中转站卖课

中文

7.9K

yoryon@yoryon_·24 May

@Clara_J_0529 现在有个新词叫coding嘉豪

中文

Clara J@Clara_J_0529·24 May

一想到我的同学都在“豆包豆包” 我就为他们难过 Claude code和codex都没用过好家伙....

中文

9.2K

yoryon@yoryon_·18 May

@Potatoloogs 感谢总结。 1234都做错了。每次写完代码跑了300多个测试。

中文

土豆本豆@Potatoloogs·18 May

Anthropic 发了一份 Claude Code 在大型代码库里的最佳实践，我看完总结了以下几个实用的点。 1. CLAUDE.md 要分层写。根目录放整体架构和核心的避坑点，每个子目录再各放一份局部约定。Claude 进哪个目录就加载哪一份，这样它拿到的上下文永远是跟当前任务最相关的，不会被一大堆无关信息淹没。 2. 启动位置。不要从仓库根目录启动 Claude，从子目录启动反而更好，因为它会自动往上回溯加载所有说明文件，最后拿到的上下文又完整又精准。（我才知道我之前的做法是错的） 3. 测试命令要按子目录切分。改了支付服务就只跑支付相关的测试，别把整个仓库的测试全跑一遍。否则又慢，报错信息又把上下文塞满，全是噪音。 4. 装 LSP。Claude 默认找代码的方式是 grep 搜字符串，同名函数一搜出来几千个结果。但如果你装了语言服务器协议（Python 用 pyright，TypeScript 用 tsserver），它就能按符号定位，直接跳到定义，效率完全不一样。 5. 每 3-6 个月审一次你的配置，尤其是新模型发布之后。当初为旧模型写的规则可能已经不适用了，甚至会反过来限制新模型的能力。 6. 组织层面的建议：哪怕不成立专门的 AI 工具团队，至少指定一个人来统一管理 Claude Code 的配置和规范，不然每个人各搞各的，踩过的坑和总结的经验都传不出来。

ClaudeDevs@ClaudeDevs

What are best practices for running Claude Code at scale? New blog post on what we've learned from teams running it across multi-million-line monorepos, decades-old legacy systems, and distributed microservices: claude.com/blog/how-claud…

中文

308

yoryon@yoryon_·18 May

@Potatoloogs 你是对的

中文

土豆本豆@Potatoloogs·16 May

【期待】（expectation）：一种微妙的暴力，本质是希望对方服从你的意志。

中文

yoryon@yoryon_·16 May

@Clara_J_0529 确实是"人"上"人"

中文

171

Clara J@Clara_J_0529·16 May

大学能谈恋爱的都是人上人

中文

11.8K

yoryon retweetledi

Tw93@HiTw93·19 Mar

x.com/i/article/2034…

ZXX

124

1.2K

5.2K

1.7M

yoryon retweetledi

Cell 细胞@cellinlab·15 May

喔艹？！微信读书官方居然出了一个 Skill！把微信读书里常用能力基本度封装了：支持搜索书籍、查看书架、阅读统计、笔记划线、热门划线、书评、推荐好书，甚至可以拼接深度链接，直接跳回微信读书 App。（需要更新到 10.1.1 skill 地址放评论区了👉

中文

135

259

1.4K

215.5K

yoryon@yoryon_·14 May

@AlchainHust 怕给封号🥲

中文

100

花叔@AlchainHust·14 May

恕我直言

日本語

30.3K

yoryon@yoryon_·14 May

@Potatoloogs 有道理，有些东西语言难以描述，就像甲方的需求。

中文

土豆本豆@Potatoloogs·14 May

一个很有意思的观点：语言是更高级的程序代码，Prompt 本质上是一种高级代码。这个说法如果从计算机科学上严格追究，可能不完全准确。但从 AI 交互的角度看，它非常有启发。因为今天的 Prompt，确实不只是“说话”。它会改变模型的注意力、推理路径、输出风格和任务优先级。某种意义上，我们是在用自然语言给一个概率系统编程。这个观点还让我想到的另一个问题：如果语言已经可以变成代码，那语言捕获不了的经验，会不会变得更值钱？

中文

yoryon@yoryon_·13 May

@Potatoloogs @luoyonghao 竟然是真的，那个男人来了

中文

土豆本豆@Potatoloogs·13 May

@luoyonghao 熟悉的味道，那个男人回来了🤓

中文

677

罗永浩@luoyonghao·13 May

为了海外的工作...... 当然也方便顺便日你妈。

中文

2.6K

271

6.3K

yoryon@yoryon_·13 May

@luoyonghao 卧槽，朋友发给我的时候我还以为是假的

中文

3.6K

yoryon@yoryon_·13 May

@Potatoloogs 学校健身房现在人多吗，背着我偷偷练🥶

中文

土豆本豆@Potatoloogs·13 May

刷推刷累了来健身房放松一下，不懂就问，这是什么水平🧐

中文

325

yoryon@yoryon_·13 May

@Potatoloogs 土豆老师赶快更新面经，要废了

中文

土豆本豆@Potatoloogs·13 May

x.com/i/article/2054…

ZXX

10.3K

yoryon@yoryon_·13 May

@Potatoloogs 牛逼

中文

土豆本豆@Potatoloogs·12 May

在学校的外卖群里看到的这张图，只能说下沉市场还得看豆包😃

中文

122

yoryon@yoryon_·12 May

@Potatoloogs 我来偷偷学了

中文

土豆本豆@Potatoloogs·8 May

x.com/i/article/2052…

ZXX

1.4K

yoryon@yoryon_·12 May

@Potatoloogs all in web4.0

English

土豆本豆@Potatoloogs·11 May

Agent 可开 Cloudflare 账户了。 Cloudflare 联合 Stripe 发布了一份新协议，Agent 可独立完成三件事： 1. Cloudflare 自动创建账户； 2. Stripe 走支付 token 通道； 3. API token 创建完账户后，直接发回 Agent 手里。

中文

yoryon retweetledi

Jiayi Weng@Trinkle23897·8 May

Codex grew programmatic policies with no neural nets: max score on Breakout, and SOTA-level scores on MuJoCo. Maybe heuristics were not too weak. Maybe they were just too expensive to maintain. Maybe it's the next paradigm. trinkle23897.github.io/learning-beyon…

English

235

1.4K

3.2M

Keşfet

@Potatoloogs @Clara_J_0529 @AlchainHust @elonmusk @BarackObama @taylorswift13 @cristiano @BillGates