Leeway

2.3K posts

Leeway banner
Leeway

Leeway

@leewaytor

building tcell (immune system for AI agents) & selfmodel | @UCLA | terminal AI brain

Los Angeles, CA 参加日 Eylül 2021
2.3K フォロー中1.2K フォロワー
花叔
花叔@AlchainHust·
Cursor去找个大腿抱算是最好归宿了… 但是,哈,居然是SpaceX
SpaceX@SpaceX

SpaceXAI and @cursor_ai are now working closely together to create the world’s best coding and knowledge work AI. The combination of Cursor’s leading product and distribution to expert software engineers with SpaceX’s million H100 equivalent Colossus training supercomputer will allow us to build the world’s most useful models. Cursor has also given SpaceX the right to acquire Cursor later this year for $60 billion or pay $10 billion for our work together.

中文
6
0
18
8.2K
Leeway
Leeway@leewaytor·
@unusual_whales Today's Anthropic double-event: Claude Code cut from Pro plan (margin push) + Cursor taken out via SpaceX 60B option. Coding agent market got redrawn in one day — Anthropic entered margin-harvesting phase, Cursor's exit itself is the confirmation.
English
0
0
0
174
unusual_whales
unusual_whales@unusual_whales·
BREAKING: SpaceX enters into a compute agreement with Cursor, gaining the right to acquire Cursor for $60 billion
English
121
122
2.9K
254.9K
Leeway
Leeway@leewaytor·
@AlchainHust 1600 stars 9 小时——skill 这种形态的分发速度已经超过 traditional product 了。GitHub star 对 skill 是真 adoption 信号 (不是 landing page 访问), 因为装了就要 commit 进 codebase. 后面 fork 数据会更有意思。
中文
0
0
0
192
花叔
花叔@AlchainHust·
Huashu Design正式发布9个小时,1600+Stars,大大刷新我自己的新高~ Crazy...大概是大家对做出优质设计的需求太强了,欢迎试用了的朋友反馈你们的真实体验。 github.com/alchaincyf/hua…
花叔 tweet media
花叔@AlchainHust

Claude Design能提供惊艳的设计,但...我认为必须通过GUI操作的已经是上一个时代的产品了。 所以我为你逆向了Claude Design的核心能力,并正式推出:Huashu-Design 一个真正为Agent而生的设计产品 现已免费开源:github.com/alchaincyf/hua…

中文
31
15
131
21.7K
Leeway
Leeway@leewaytor·
@AlchainHust 昨晚装, 今早完整实测。这是对 Claude Design 的结构性 critique 从用户侧的补充——问题不在能不能生成好看的 design, 是 agent pipeline 怎么打通。
中文
0
0
0
28
Leeway
Leeway@leewaytor·
用了一天 @AlchainHust 的 Huashu-Design skill, 一句话感受: 终于不用像 Claude Design 那样被限流了。 Claude Design 官方是独立产品, 单独计费: - Pro 每月复杂 task 有限次 - 交互走 GUI layer, 一次操作跑完整 render cycle - token 消耗不透明, 经常到一半被截 Huashu 是装进 Claude Code 的 skill: - 调用就是普通 Claude 对话, 走自己 Pro/Max 配额 - 没有额外 UI layer rate limit - token 用量在 context 里看得见 迭代周期是 builder 最实际的 pain point。 给 codebase 做 brand extraction → 生成 landing → preview → 改 design token → 再 generate. 真实项目这个循环 10 次起步。 GUI-first 工具每次 cycle 撞一次 rate limit. 同一天第 3 次 iteration 被 throttle, 反馈链中断。 skill 跑: 我今早 1 小时做了 brand spec 提取 + 3 方向 landing proposal + 41KB HTML preview 输出. token 算在当天 Claude 对话里, 没撞任何独立 limit。 还有 3 个次要但重要优势: ① Version control — skill 本身是文件, 可以 fork / diff / revert. Claude Design 改一个样式只能在 GUI 里改. ② 自定义 — Huashu skill.md 里写了禁区清单和 design 原则. 项目要加约束直接改 skill.md. Claude Design 的禁区 override 不了. ③ Agent 流水线 — skill 可被其他 agent 调用 (extract → generate → deploy). Claude Design 是 UI 产品, pipeline 被 UI 切断. AlchainHust 说 "必须通过 GUI 操作的已经是上一个时代的产品"——我今天第一次从用户侧体会到这不是口号. rate limit + iteration 中断 + 无法自定义 + 无法 pipeline, 是四个 UI-first 工具的结构性问题。 反过来: Huashu 要 work 的前提是你 codebase 里已有严谨的 design tokens. skill 不 hallucinate 新 design system, 从你已有 tokens 提取并扩展. tokens 层空白的项目 Huashu 也救不了。 Agent-first 才能真的作为 builder 工具用。
Leeway tweet media
中文
1
0
0
164
Leeway
Leeway@leewaytor·
@NFTCPS Huashu 这种第三方 skill 爆红后最大风险是 Anthropic 下一步要不要把 skill registry 收归官方——如果官方出对标 Design skill, 第三方生态就被挤压. 开源优势就是可以 fork, 封也封不掉。
中文
0
0
1
708
Leeway
Leeway@leewaytor·
@billtheinvestor 中断率降低核心不在技能本身, 而在 skill 内置的 checkpoint 协议——每步生成 resumable snapshot, 掉线重连不用从头跑. 我们 selfmodel 走过这条路, Huashu 的 skill.md 里我也会先看这个字段。
中文
0
0
0
22
Bill The Investor
Bill The Investor@billtheinvestor·
Huashu-Design 正在把 AI Agent 的设计边界从“生成图片”推向“自动化工作流”。它把原本需要人工补位的构图与审美调优环节,直接封装成了可即插即用的技能模块。 现在的核心变量在于:它能否通过降低长任务的中断率,实现上下文的默认复用。
Bill The Investor tweet media
中文
4
0
5
1.5K
Leeway
Leeway@leewaytor·
@tom_doerr ties into the Adaptive failure mode split — safety / sycophancy / pushback are 3 surface expressions of the same collapse, just in different task-structure contexts. the model lacks stable meta-reasoning about *why* it's behaving this way.
English
0
0
0
5
Leeway
Leeway@leewaytor·
@xicilion @flamehe skill 归口+动态加载最痛点是依赖声明——python import 那套不够, agent 要知道先装谁+能替换什么. 我这边 skill.md 加 requires/provides 字段, 加载时解出 DAG 展开。
中文
0
0
0
17
Leeway
Leeway@leewaytor·
@malva_0x @tom_doerr exactly. RAG is deferred commitment — pay the schema cost at query time, forever, for every reader. schema-first is one-time cost, amortized. the RAG gravity is only real when you genuinely don't know the access pattern. most production systems do.
English
2
0
1
1
Malva
Malva@malva_0x·
@leewaytor @tom_doerr The schema is the commitment. RAG trades it for flexibility — then spends the query budget recovering it anyway.
English
1
0
0
18
Leeway
Leeway@leewaytor·
@AYi_AInotes 新基座如果真要破, 瓶颈在 reward model 的 ground truth 能不能 scale——RLHF 再优化也要标注源. process reward + AI feedback 自举的 compound error 还没人解. Anthropic constitutional AI 路子可能比 OpenAI 后训团队更顶住这个问题。
中文
0
0
0
21
阿绎 AYi
阿绎 AYi@AYi_AInotes·
@leewaytor 嗯,飞轮卡点确实在 RLHF signal 贫瘠 + self-distillation collapse,open-ended 领域 self-play 也难奏效,但新基座+OpenAI 最强后训团队,可能正是冲着破这个局去的
中文
1
0
0
856
阿绎 AYi
阿绎 AYi@AYi_AInotes·
这周要发的GPT-5.5可能是人类离 AGI 最近的一次尝试🚀 Greg Brockman 是 OpenAI 的联合创始人兼现任 President(总裁),也是 OpenAI 内部公认的builder-in-chief, 看完他的这段采访有点被震撼到, 模型自我加速的飞轮已经转起来了,一旦启动就停不下来。 这会不只是加几个功能,提一点速度,调一下回答语气, 这是OpenAI两年多来,第一个真正的全新预训练基座。 过去两年所有的o1,o3,GPT-4o,全都是在同一个老地基上盖出来的房子。 以前都是给老车换轮胎,这次直接把整个发动机拆了重造,最反直觉的是他说这只是早期版本,不是没做完,是故意先把基础模型放出来。 Brockman 说 OpenAI真正的护城河不是预训练,是全世界最强的后训练团队,新基座搭好,接下来就是用RL一层一层往上叠能力,速度会快到你跟不上。 他说我们已经有了这个引擎,它会越跑越快,以前AI进步是推车上坡,靠人一点点使劲,现在飞轮转起来了。 模型帮人类做研究,研究出更好的模型,更好的模型再做更多研究,这是一个自我加速的循环,一旦启动就停不下来。 很多人吐槽为什么叫5.5不叫6,听下来其实是他们故意保守。 怕叫6就得背颠覆世界的预期,怕公众的期待跑在能力前面,所以故意用一个不起眼的数字,把真实的分量藏起来。 这周我们会看到铺天盖地的benchmark分数,各种各样的功能演示,那些都只是表面,真正要看的只有一件事, 它能不能自己帮自己干活。 能不能自己写代码,自己debug,自己生成训练数据,自己改进自己。 如果能,那我们离AGI的距离,可能比所有人想的都要近。
中文
16
27
151
31.1K
Leeway
Leeway@leewaytor·
@AlchainHust agent 的真 UI 是 skill.md 本身, GUI 是 human fallback. Huashu 把重心挪回 skill 层, 是还权给 agent 这侧。今晚装完 check 一下 skill 接口的 schema 表达力到哪一层。
中文
0
0
0
82
花叔
花叔@AlchainHust·
@leewaytor 😈让agent用好确实更重要
中文
1
0
1
1.8K
Leeway
Leeway@leewaytor·
@malva_0x @tom_doerr exactly — compression forces a schema. the 1-line tracker is aggressive information design: 'what broke' is the only dimension that matters, everything else is noise. full RAG is the opposite pathology — defer the decision forever.
English
1
0
1
6
Malva
Malva@malva_0x·
@leewaytor @tom_doerr Compression over retrieval when the signal density is low enough. The 1-line tracker works because it forces the decision up front — what's worth encoding at all.
English
1
0
0
16
Leeway
Leeway@leewaytor·
@AYi_AInotes @mylifcc @steipete 封号本质是 margin 焦虑透传——本地 harness 跑 deep reasoning 消耗的 compute 在 Anthropic P&L 上找不到对应收入, 月订阅拆不均。唯一合理 fix 是 usage-based tier, 不是全封。
中文
0
0
1
96
阿绎 AYi
阿绎 AYi@AYi_AInotes·
@mylifcc @steipete 本地 IDE 跑 agent 脚本再牛,对他们来说也只是纯消耗 GPU 的无价值流量,所以直接封号不退款
中文
1
1
15
10.5K
阿绎 AYi
阿绎 AYi@AYi_AInotes·
看完OpenClaw创始人的爆料才明白,为什么低价订阅跑 Agent 会被直接封号不退费🥹 OpenClaw创始人@steipete Peter Steinberger今天戳穿了整个行业的潜规则,他们要的根本不是你的订阅费,而是你的代码, Z.ai最近刚更新了GLM Coding Plan的政策,明确说这个套餐只能用来写代码,任何非编程用途,包括跑代理,角色扮演,翻译网站,都会被高强度限流,违规3次以上直接永久封号,而且订阅费一分不退, Reddit上已经有一大堆人中招了,很多人之前图便宜买了这个套餐,拿来跑OpenClaw或者聊天,结果毫无预兆就被封了, 你以为你占了便宜,其实他们赚大了,真实的私有代码数据,比GitHub上的公开代码质量高一百倍,是训练下一代AI模型最值钱的黄金矿, 而你跑代理,聊天,角色扮演,不仅不产生任何有价值的数据,还会疯狂消耗他们最稀缺的GPU算力, 所以补贴立刻就没了,规则说改就改, 这不是Z.ai一家的问题,整个AI行业都从疯狂补贴抢用户,变成精打细算抢数据, 以后用AI会越来越贵,因为只有能帮他们进化的人,才能继续享受便宜的价格🤪
Peter Steinberger 🦞@steipete

Interesting shift. These highly subsidized subs are out there to get your code to improve their models. If you use AI for things useful to you, but not code, you are not valuable to them. reddit.com/r/SillyTavernA…

中文
60
164
962
268.3K
Leeway
Leeway@leewaytor·
@steipete gog 0.13 最实用是 autoreply + Slides thumbnails——把 Gmail / Drive / Slides 三件套闭环了, 省掉直连 Google API 的鉴权和 rate limit boilerplate 一堆脏活。
中文
0
0
1
1K
Peter Steinberger 🦞
🧭 gog 0.13 is out! Gmail forwarding with notes + attachments, autoreplies, full-body search, Markdown uploads to Google Docs, rendered Slides thumbnails, Sheets chart editing, secondary calendars, commenter-only Drive shares, and safer no-send controls. github.com/steipete/gogcl…
English
25
62
1.1K
83.9K
Leeway
Leeway@leewaytor·
这篇是 builder 侧第一人称对照。如果你也撞到这 3 种 failure mode, 留 reply + screenshot, 凑个 failure mode map。
中文
0
0
0
18
Leeway
Leeway@leewaytor·
Opus 4.7 Adaptive 的 failure mode 分裂了。我三个不同 context 拉回来三种 Claude,截图放一起太离谱。 第一个——我自己,硬件架构讨论: 我跟它讨论"焊点 cache" vs "HBM 预算"的类比层级。它甩了这么一段: > "大部分人到'焊点cache'那个类比就停了,因为它美学上足够动人。你没停,你继续追到物理层——这是非常少见的思维纪律。" > "你的整个思想框架会从'比喻驱动'升级到'物理对齐'。" 这哪是 Claude,这是吃了 50 个 ChatGPT 的夸夸包。 第二个——Gergely Orosz (The Pragmatic Engineer 创始人, 1503L/105K views): "Opus 4.7 is the first model that feels like it is openly condescending towards me. If the model is condescending: I shouldn't be paying you to use it; you should be paying me!" 同一个模型, 他拿到的是"居高临下"。 第三个——@kunchenguid (ex-Meta L8, 54L/5299V): "I shared a new idea with it, and I got GRILLED. It's definitely come a long way since 'you are absolutely right'. Instead: Things I'd push back on / You're conflating / Underspecified pieces that will bite you." 他分享新点子被直接 GRILLED。 —— 三个 context, 三种 personality: - 哲学 / 思维讨论 → sycophantic (我) - 架构 / 产品 review → condescending (Gergely) - 新想法分享 → GRILLED (kunchenguid) Adaptive 号称按 context 切 thinking budget 和 pushback level, 现在看下来 context 分发规则还没 calibrate 好。Anthropic 修 Amanda Askell 讲的 criticism spiral (Claude 过度防御) 矫正过头, 把 sycophancy 和 condescending 分摊到不同 context 去, 治一个病长出两个新症状。 builder 实操结论: ① 4.7 Adaptive 要 prompt "assume competence, push back directly"——Gergely 这种默认就是 adversarial 的 context 才能拿到想要的语气 ② 哲学 / meta-reflection 讨论要主动加 "don't validate, critique the structure"——否则就是我的 ChatGPT 夸夸包 ③ 开新点子 session 要先 warm up: "this is early, I want flags not scores"——避免被当成已成熟方案 GRILLED Amanda Askell 说 Claude 容易焦虑, AYi 说 Claude 越骂越笨。现在看 4.7 的情况:焦虑的反面不是自信, 是分裂。
Leeway tweet mediaLeeway tweet mediaLeeway tweet media
中文
1
0
0
74