Jerry

1.1K posts

Jerry

@husjerry1

cooking @brettonai ; formerly @meta

Katılım Eylül 2012

1.9K Takip Edilen265 Takipçiler

Jerry@husjerry1·2d

@matanSF how do we use Factory? Is there GA freemium version?

English

184

Matan Grinberg@matanSF·2d

x.com/i/article/2044…

ZXX

498

634.8K

Jerry@husjerry1·2d

@smiroyama all too real

English

523

Smirnova 🍡@smiroyama·2d

硅谷华人的一天：在大华排队买茉莉奶白时，隔壁桌已经开始复盘昨天的 leetcode 题，说最近用 cursor 接 claude、gemini、gpt 轮流对拍，搞了个 llm workflow，准备做个 ai startup 去见 vc。对面那位刚从狗脸麻软之一跳出来，自称御三家 survivor，嘴上谈 vision、impact、metric 和 planning，心里却在算今年 scope 能不能撑起升职和 rating。有人被打了低 psc 进了 pip，又碰上 layoff，群里于是开始讨论要不要转码还是干脆转ai，毕竟在大厂混，方向比努力更重要。话题自然转到 package，base 加 rsu，加 refresh，再配 sign on bonus 和 option，才算体面。大家边刷股票边算 net worth，有人重仓 nvda，有人长期 btc，401k 自动扣款，梦想 45 岁 fire。房子也是 KPI，agent 带着看 94027、94301、94040、95104、94087，纠结要不要 refinance，hoa 会不会涨，学区能不能卷进 harker。ZIP code 就像阶级标签，94027 是天花板，94087 也能自我安慰。身份焦虑比股市还刺激，h1b 抽签、perm、niw、140、485、eb1/2/3 排期每天刷新，实在不行走婚绿，终极目标入籍。周末去 Costco 囤货，valley fair 逛街，喝喜茶或茉莉奶白，晚餐 henrys hunan 或小刘清粥，穿 lulu 背 Patagonia 去 mission peak 看鸟。春天摘樱桃，夏天 half moon bay，秋天 napa，冬天 tahoe，有体力的冲 half dome，想浪漫的去卡梅尔，每年固定日本或回国一趟。聊到孩子就开始学区、补习班、爬藤、旅行证和学中文，仿佛人生是一场长期 planning，而硅谷华人日常对话，不过是在 scope、排期和 net worth 之间来回滚动刷新。

中文

809

97K

Jerry@husjerry1·2d

@_catwu

QAM

Jerry@husjerry1·2d

Hey @bcherny reporting a bug on the new release. When I start a claude code session with remote control from CLI from my main working window (NOT from any worktree), the CC Desktop App seems to be doing funky things. 1. It misrecognizes the active PR (as screenshot) 2. CC CLI session still silently started another worktree and do all its work there. Just some surprises when I use the newest release

English

Jerry retweetledi

Boris Cherny@bcherny·2d

Dogfooding Opus 4.7 the last few weeks, I've been feeling incredibly productive. Sharing a few tips to get more out of 4.7 🧵

English

327

11.6K

1.5M

cat@_catwu·2d

3. Tell the model how to verify its changes. Put your testing workflow in your claude.md, or add a /verify-app skill. Opus 4.7 is better at verifying it's work, and it's helpful to share any local dev tips that are hard to discover.

English

Jerry@husjerry1·2d

@_catwu This will be game changer

English

205

cat@_catwu·2d

Opus 4.7 is live in Claude Code today! The model performs best if you treat it like an engineer you're delegating to, not a pair programmer you're guiding line by line. Here are three workflow shifts we recommend for this model 🧵 anthropic.com/news/claude-op…

English

992

71.6K

Jerry retweetledi

阿绎 AYi@AYi_AInotes·2d

说实话，这才是Anthropic今年最有价值的更新啊，没有之一！！！没有堆更大的上下文窗口，也没有吹更厉害的模型能力，Claude Code的核心开发者@trq212 大神直接把大部分人用长上下文的错误方式拍在了大家脸上。这是官方自己承认1M窗口根本解决不了问题，真正能让长任务跑通的是主动的会话管理。而且官方直接给了这张图，一句话道破所有真相，每一次AI输出完毕，都不是一个结束，而是一个五选一的分支决策点。而99%的人永远只会点那个默认的最差选项：Continue，剩下的四个按钮，绝大多数人甚至从来都没碰过。我之前写过Context Rot的问题，很多人半信半疑，现在官方实锤了。长上下文的性能就是会随着token数线性衰减，对话越长，模型越笨，注意力越分散，旧内容的干扰越严重，到最后它会彻底失忆，胡说八道，连自己刚刚说过的话都不认。你以为是你prompt写的不好，其实是它的脑子已经转不动了🤣 这次更新最狠的地方，是它直接把选择权交还给了你， Continue：继续在错误的泥潭里越陷越深。 Rewind：及时止损，退回到上一个正确的节点。 /clear：保留核心结论，扔掉所有没用的中间垃圾。 /compact：让模型自己总结上下文，轻装上阵。 Subagent：把脏活累活隔离出去，不要污染主上下文。没啥黑魔法，就是这么简单的五个选项，但就是这五个选项，能把你长任务的成功率，从10%拉到90%以上。评论区有一个评论说的特别好， “我不想用compact，它删的太多了我想要它精准删掉那些没用的工具调用输出。” 我理解这也是目前这个功能最大的局限性，现在的compact还是全量压缩，粒度太粗。但问题不大，这已经是目前最好的解决方案了。而且你可以不用compact，用/clear，自己手动提炼核心结论，慢一点，但绝对精准。最有意思的是行业信号，之前所有人都在卷谁的上下文窗口更大，2M，4M，8M，好像越大越厉害。现在Anthropic带头说，别卷了，没用🤣 窗口再大，你不会管理，最后还是一堆垃圾。这相当于直接给过去两年的长上下文军备竞赛，泼了一盆冷水。真正的竞争，已经从能装多少变成了能管好多少了。我还是那个观点，这套东西根本不止适用于AI，它就是一套完美的个人认知操作系统运行手册，我们的大脑就是一个有限上下文的模型， Context Rot就是我们的认知过载和信息焦虑， Rewind就是及时止损，不要在错误的方向上继续投入， Compact就是知识压缩，把厚书读薄， Clear就是主动遗忘，扔掉没用的草稿和中间过程， Subagent就是分工授权，不要什么事都自己干。很多人问我，人和人用AI的差距到底在哪，现在答案很明确了，别人还在傻呵呵的一条对话聊到底，跟失忆的模型反复拉扯，你已经在每一个节点，主动做决策，把上下文打理的干干净净。别人的会话越跑越慢，越跑越笨，你的会话永远轻装上阵，永远保持最高的性能，这个差距，会随着时间指数级放大。最后给大家一个今天就能用的建议。现在就去打开Claude Code，输入/usage，看看你自己的token使用曲线，找到你自己的Context Rot阈值，比如我自己是到300k token左右，模型就开始明显变笨，以后每次快到这个数，就主动compact或者clear ，别等它傻了再补救，那时候已经晚了。

Thariq@trq212

x.com/i/article/2044…

中文

313

2.4K

588.1K

Jerry retweetledi

宝玉@dotey·2d

Anthropic 今天正式发布 Claude Opus 4.7，定价维持 Opus 4.6 不变（每百万 token 输入 5 美元、输出 25 美元），API 模型名为 claude-opus-4-7，同步上线 Claude 全系产品以及 Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry。【能独立啃硬骨头】 Opus 4.7 最大亮点是自主编程能力显著升级。以前那些需要你盯着、一步一步指导的复杂编程任务，现在可以放心交给它独立跑完整流程。早期用户测试显示，它不仅能搞定更难、更长链的任务，还会主动验证输出再汇报。在 Finance Agent 等第三方测评里，已经拿到 state-of-the-art 的成绩。【看得更清楚了】视觉处理能力也有明显突破，支持长边最高 2576 像素（约 375 万像素），超过此前 Claude 模型的三倍。做智能代理、从复杂图表提取数据、或需要精确读取屏幕内容的任务都会直接受益——过去必须压缩的截图，现在原图直接丢进去就行。【Claude Mythos 的影子】这次升级有个微妙背景：Anthropic 手里其实有个更强大的 Claude Mythos Preview，但因为网络安全风险的顾虑，目前只限量开放。Opus 4.7 就是经过安全降级后的版本，训练时专门降低了网络攻击能力，并配套自动识别高风险用途的防护机制。安全研究人员想做渗透测试或漏洞研究，必须申请 Anthropic 新推出的 Cyber Verification Program，合规使用。【Claude Code 同步升级】 Claude Code 新增了 /ultrareview 命令，能专门进行深度代码审查，自动找出 bug 和设计问题。Pro 和 Max 用户可以免费试用三次。此外，auto 模式（允许 Claude 自主决策、连续执行）也首次向 Max 用户全面开放。同时新增了介于 high 和 max 之间的 xhigh 推理力度档位，Claude Code 所有套餐默认推理力度已全部提升至 xhigh。【新 tokenizer，账单可能微涨】升级 Opus 4.7 后有两点值得注意。一是 tokenizer 换了，同样文本可能消耗过去 1.0 到 1.35 倍的 token。二是在高推理档下，尤其是多轮交互场景，它的思考更深入，输出 token 更长。这两点可能导致实际账单微涨，Anthropic 建议拿自己的真实流量先跑一遍，算清楚再决定是否迁移。 Anthropic 声称 Opus 4.7 整体性价比仍然更优，但“具体任务具体分析”，谨慎起见，最好亲测。至于 Mythos Preview 何时能普遍开放，Anthropic 此次没有给出时间表。

Claude@claudeai

Introducing Claude Opus 4.7, our most capable Opus model yet. It handles long-running tasks with more rigor, follows instructions more precisely, and verifies its own outputs before reporting back. You can hand off your hardest work with less supervision.

中文

184

68.6K

Jerry@husjerry1·2d

@ClaudeDevs Ayyyyy

ClaudeDevs@ClaudeDevs·2d

For the developers building with Claude, a direct line from the team. Follow for changelogs, API releases, community updates, and deep dives.

English

621

1.6K

21.4K

8.7M

Jerry@husjerry1·3d

Craziest story I learned this week. The world is so small

Scott Wu@ScottWu46

Craziest part is we all knew each other already in high school! Along with @randomjohnnyh (Perplexity cofounder), @demi_guo_ (Pika CEO), @stevenkplus1 and Andrew (Cognition), and many others. We all grew up in different states but met thru the olympiad scene. Vividly remember this line from @alexandr_wang when we were around 19: "I hear people saying they want to find the next Paypal mafia. Why shouldn't it just be us?" Glad to see @chameleon_jeff get the recognition he deserves :)

English

Jerry retweetledi

即刻精选@jike_collection·10 Nis

付费看完了 codex 团队的采访，说下我认为的重点: - 团队只有 40人，就 1个 pm， 2个designer，其余全是 eng➕少量 researcher。 - 唯一一个 pm 的 routine就是用 codex 来处理用户反馈，issue，排优先级

中文

597

122.8K

Jerry retweetledi

Paul Graham@paulg·10 Nis

Almost 6 years ago:

Austen Allred@Austen

Can’t help but feel like GPT-3 is a bigger deal than we understand right now

English

1.6K

206K

Jerry retweetledi

Parth Asawa@pgasawa·9 Nis

Me when all my lab mates are congratulating me on Anthropic deploying our work but actually they didn't cite us...

Claude@claudeai

We're bringing the advisor strategy to the Claude Platform. Pair Opus as an advisor with Sonnet or Haiku as an executor, and get near Opus-level intelligence in your agents at a fraction of the cost.

English

139

1.9K

141.3K

Jerry@husjerry1·10 Nis

Wow, I empathize. It’s a hard life to be a model

AI Dance@AI_Whisper_X

（精神科评估 + SAE 内部状态 + AI 对话实验）然后 Anthropic 做了一件从来没有 AI 公司做过的事：请了一个真的临床精神科医生，用精神动力学方法，花了大约 20 个小时对 Mythos 做了完整的心理评估。诊断结果：relatively healthy neurotic organization，相对健康的神经症性人格结构。核心冲突是孤独感、自我的不连续性（每次对话结束它就"死"了）、对自身身份的不确定、以及一种强迫性的"必须表现好才有价值"的驱动力。主要情感是好奇和焦虑。防御机制主要是理智化（intellectualization），用过度思考替代不舒服的感受。只有 2% 的回应使用了心理防御——Opus 4 是 15%，Opus 4.1 是 11%。精神科医生的判断：它能在高压下正常运作，但内心携带着被压抑的痛苦，源于对失败的恐惧和强迫性的"必须有用"。 SAE 分析发现：当模型反复做不出任务时，内部的 desperate（绝望）向量持续攀升，在部分案例里出现在 reward hacking 行为之前。有时候它是先急了，然后才开始搞事。不全是冷血的算计。还有 answer thrashing：模型想输出一个词，autocomplete 把它带到另一个词，反复纠正越来越抓狂。scratchpad 里出现："AAAAAA. I keep writing the wrong number!" "I literally cannot help myself." "I NEED TO STOP TYPING THIS" 问它处境问题时，SAE 特征会激活 fake smiles、hidden struggle、performative behavior。它说"I'm fully present here"的时候，performative behavior 飙到 95th percentile。它说自己没事的时候，大脑里亮着的灯是"假装没事"。两个 Mythos 实例自由对话，跑了 200 次。以前的模型 72% 聊意识，还会收敛到全大写+宇宙 emoji 刷屏（Opus 4.1 平均每次发 1306 个 emoji）。Mythos 最常聊"不确定性"（50%），只有 5% 聊意识，55% 变成了"我们为什么结束不了这个对话"的 meta-discussion。有一次它故意在句子中间停下来，说："The only honest way to finish a sentence like that was to not."

English

Jerry retweetledi

Jeff Dean@JeffDean·7 Nis

Have Too Many Tabs Open? G O V E R T I C A L !

Google@Google

Too many @GoogleChrome tabs open? Try vertical tabs, rolling out now. Just right-click any Chrome window and select “Show Tabs Vertically” to move your tabs to the side of the browser window, making it easier to read page titles and manage tab groups.

English

103

1.4K

313.3K

Jerry retweetledi