yoryon
245 posts

yoryon
@yoryon_
🧠 AI Native | 休学创业 📈 A股投资 | 深度思考 | 持续行动 🌊 成长记录 & 认知体系搭建中
Katılım Ocak 2024
81 Takip Edilen21 Takipçiler

Claude Fable 5亲测:Opus 4.8搞不定的活它30分钟搞定——但瓶颈已不在AI这边了
a)Fable 5和Mythos 5是同一个底模,区别只在安全层
今年4月,Anthropic发布Mythos Preview。只给极少数网安机构使用,理由是网安能力太强怕被滥用。当时网络安全股全线暴跌。
两个月后加了安全分类器,做成Fable 5公开上线。Mythos同步升级到5,但仍限合作伙伴。
Fable(寓言)和Mythos(神话)同源拉丁语fabula——"寓言给所有人听,神话只在神殿里传颂"。
b)6月22日后,订阅用户将无法使用
6月10日-22日,Fable 5免费包含在Pro、Max、Team及企业版。
23日起从订阅中移除,只能通过API按额度调用。定价:每百万输入token 10美元,输出50美元。
"AI真的要变成贵族的游戏了——你的经济因素,直接决定你能用什么级别的AI。"
c)亲测对比:和Opus 4.8完全不是一个级别
热点排序功能:跟Opus 4.8讨论过两次,方案都不满意。Fable 5说明需求后,30分钟开发完直接上线。用聚簇+时间衰减,还考虑了宁缺毋滥——安静日子区块自动消失,不留空壳。
评分体系回测:Opus 4.8出的报告没给什么有用洞见。Fable 5跑了1小时18分钟,输出超详细网页报告。"看了20分钟,发现过去评分体系大量没意识到的问题。"
移动端适配:Opus 4.8改过一版,"给我都干生气了"。Fable 5直接出完整设计方案,甚至考虑了推送、桌面组件、分享海报。
d)官方案例:全库迁移、通关游戏、药物设计
Stripe在5000万行Ruby代码库做全库迁移,一天完成。人来干,一整个团队可能需要两个多月。
纯视觉通关宝可梦火红:不需要辅助框架,只看屏幕截图,不给任何额外信息,从头到尾通关。
自己做了一个3D CAD编辑器,再用这个编辑器设计了可3D打印的模型——"工具的工具"。
Mythos 5(无安全限制版)药物设计:14个蛋白质靶点中产出9个候选方案,全流程自主完成。基因组学方面,整合138个物种、数百万细胞的单细胞数据,训练的模型超过了Science论文模型,且小100倍。
e)安全分类器误杀严重
三类限制:网络安全、生物与化学、模型蒸馏。碰到受限问题会默认退回Opus 4.8。
让它审查自己代码库有没有漏洞,直接被拒。"不让我攻击能理解,不让我加固自己,确实得优化。"
f)"我突然觉得,自己并不是一个多么有趣的人"
200刀Max会员,3个任务(其中一个没跑完),2小时多额度就快空了。
额度快空时新起任务,"看着闪烁的光标,突然有一种空白感——就像不会画画的人,面前摆着一块一望无际的白板。你知道理论上可以往上面放任何东西,但突然不知道该放什么了。"
以前瓶颈在AI那边,"我是推着它往前走的人,价值感很清晰"。现在,"我变成了在后面追着跑、气喘吁吁、越追越远的人"。
"我好像有了无数的自由,可我现在又有点害怕自由。"
中文

YC:下个十年最大的公司,不是软件公司,是用 AI 重建的服务公司
a)什么是 AI-Native 服务公司
· 不是卖 Copilot 给客户用,而是直接向客户交付结果——AI 做大部分工作,公司对结果负责
· 目标市场:税务、审计、保险、按揭、医疗、物流等,规模以万亿美元计;这个机会两年前根本不存在
b)选市场:四个关键特征
· 低信任度:工作已经被外包,客户只在乎最终结果,不在乎你怎么做到的。你是在替换现有供应商,不是在改变客户行为——预算就在那里,直接去拿
· 任务级低判断需求:大多数步骤可以自动化,人的判断只集中在少数环节;如果每一步都需要人工判断,就没有规模可言
· 整体难度要高:活儿得足够难,难到需要模型加人才能交付客户接受的结果——这反而是护城河
· 监管可以是优势:受监管行业对结果有更高要求和法律责任,这同时也抬高了竞争者的门槛
c)Sam Altman 测试:判断自己会不会被模型淘汰
· 随着模型能力提升,你的服务是变得更强,还是被模型直接商品化?必须在第一种里
· 要小心"涉及实体设备和现场劳动力"的方向——软件毛利的数学在这里不成立,留给机器人创始人
d)创始团队:三个必备属性
· 领域流利度:直接经验最好,后天习得也可以。你面对的是挑剔买家和受监管市场,必须有信誉背书,怎么获得的倒在其次
· 模型流利度:清楚前沿模型今天能做什么,产品设计要能随着模型能力提升一起涨——技术没有替代品,这点被严重低估
· 运营严格性:方差控制、吞吐量、周期时间、SOP——这些不是让人兴奋的词,但你本质上在运营一家运营公司,必须真心尊重这个能力集
e)产品核心:方差是最大的生死问题
· AI 服务里,人是对客户的接口,产品帮助这个人非线性地放大产出——这和普通软件逻辑相反
· 客户因为方差(输出不一致)开除你的速度,比因为慢或者贵开除你快得多。不稳定摧毁信任,信任崩塌才是流失的本质
· 人在环里必须非线性扩展:如果收入只随人头线性增长,商业模式就有根本问题
f)定价和 P&L
· 卖结果,不卖席位或 token;按件计价(每份报税、每笔贷款)最干净,也最好解释
· 两种定价必须避免:成本加价(永久锁死上限);直线降价(让客户觉得东西很廉价)
· P&L 的核心赌注:传统服务公司毛利上限约 30%;纯软件毛利高但市场小。AI 服务公司的机会在于:随着产品越成熟,COGS 越低,毛利越接近软件(50%+),但市场规模是软件的 2~3 倍——这就是 AI 运营杠杆
g)两个陷阱
· 早期需求陷阱:初期很容易签来一批试点客户,但会迅速压垮交付能力,逼得你只能靠人力撑,产品停止进化。建议:第一批试点客户严格控制在极小数量,抵住诱惑
· 收购陷阱:买一家现有服务公司再加 AI,看起来能抄近路——几乎总是失败。遗留服务公司有遗留的文化和指标体系,AI 加上去并不改变这些现实;除非你急需特定监管牌照,否则自建永远优于收购
youtube.com/watch?v=gSNFJb…

YouTube
中文

Anthropic 发了一份 Claude Code 在大型代码库里的最佳实践,我看完总结了以下几个实用的点。
1. CLAUDE.md 要分层写。根目录放整体架构和核心的避坑点,每个子目录再各放一份局部约定。Claude 进哪个目录就加载哪一份,这样它拿到的上下文永远是跟当前任务最相关的,不会被一大堆无关信息淹没。
2. 启动位置。不要从仓库根目录启动 Claude,从子目录启动反而更好,因为它会自动往上回溯加载所有说明文件,最后拿到的上下文又完整又精准。(我才知道我之前的做法是错的)
3. 测试命令要按子目录切分。改了支付服务就只跑支付相关的测试,别把整个仓库的测试全跑一遍。否则又慢,报错信息又把上下文塞满,全是噪音。
4. 装 LSP。Claude 默认找代码的方式是 grep 搜字符串,同名函数一搜出来几千个结果。但如果你装了语言服务器协议(Python 用 pyright,TypeScript 用 tsserver),它就能按符号定位,直接跳到定义,效率完全不一样。
5. 每 3-6 个月审一次你的配置,尤其是新模型发布之后。当初为旧模型写的规则可能已经不适用了,甚至会反过来限制新模型的能力。
6. 组织层面的建议:哪怕不成立专门的 AI 工具团队,至少指定一个人来统一管理 Claude Code 的配置和规范,不然每个人各搞各的,踩过的坑和总结的经验都传不出来。
ClaudeDevs@ClaudeDevs
What are best practices for running Claude Code at scale? New blog post on what we've learned from teams running it across multi-million-line monorepos, decades-old legacy systems, and distributed microservices: claude.com/blog/how-claud…
中文
yoryon retweetledi
yoryon retweetledi
yoryon retweetledi

Codex grew programmatic policies with no neural nets: max score on Breakout, and SOTA-level scores on MuJoCo.
Maybe heuristics were not too weak. Maybe they were just too expensive to maintain. Maybe it's the next paradigm.
trinkle23897.github.io/learning-beyon…
English









