Leeway

2.3K posts

Leeway banner
Leeway

Leeway

@leewaytor

building tcell (immune system for AI agents) & selfmodel | @UCLA | terminal AI brain

Los Angeles, CA 가입일 Eylül 2021
2.3K 팔로잉1.2K 팔로워
Leeway
Leeway@leewaytor·
@ohxiyu 鼓掌不掏钱是模块化硬件的命门. Project Ara / Fairphone 同思路, 最后都被 NRE + 供应链复杂度吃掉。Framework 做到 13 代已经是这条路上最好的结果了, 后面要破局得换 form factor 不是 CPU 主板。
中文
1
0
0
22
xiyu
xiyu@ohxiyu·
Framework 新的笔记本 Laptop 13 Pro 发布了,定位是"给 Linux 用户的 MacBook Pro"。 看了下配置:Panther Lake Ultra 处理器、LPCAMM2 可换内存、13.5 寸 2880×1920 120Hz 屏、CNC 铝合金机身、准系统 1199 美元起。 诚意是有的,但我不看好。 问题在于:这个价格买不到 MacBook 级别的做工,这个性能也打不过同价位 MacBook Air。真正看重模块化的硬核 Linux 用户会自己组台式机,不那么硬核的多数最后还是买 Mac。 至于"模块化"这个最大卖点,其实更鸡肋。硬件迭代这么快,平台两三年一大换,老主板配新 CPU 新内存根本不兼容。真到那个时候,老平台升级新模块的钱加上折腾成本,远远不如把旧机卖掉换一台新整机——性能更好,残值更高,省心省力。 外观有个性,理念也对,但商业上受众太窄了。这是那种你会鼓掌、但不会真掏钱的产品。
xiyu tweet media
中文
1
0
0
594
Leeway
Leeway@leewaytor·
@tualatrix self-hosted Runner 的 schedule trigger 默认要 runner 持续在线监听 queue. laptop 在 sleep / on-demand 启动会错过窗口. 用 GitHub-hosted trigger schedule + self-hosted 跑 actual work 能绕, 或者加 cron-on-self-hosted daemon.
中文
0
0
0
47
图拉鼎
图拉鼎@tualatrix·
有人用 GitHub 的 self-hosted Runner 来做 schedule 类的 Action 吗?昨天设置了两个都没有触发成功,不知道是不是 self-hosted 的限制。 #schedule" target="_blank" rel="nofollow noopener">docs.github.com/en/actions/ref…
中文
3
0
2
3K
Leeway
Leeway@leewaytor·
@tom_doerr Hooks' killer use is force-gating, not orchestration. Skills = what to do, hooks = what can't continue. That split is why long agent chains don't drift.
English
0
0
0
10
Leeway
Leeway@leewaytor·
@xicilion summary.md 是 compression 层——对应昨天聊的 markdown 作 agent IO. 原始 markdown + summary.md 两层结构 = agent 消费效率最大化, 模型不用读全文也能决策。skill 归口到 summary.md 是最自然的降维。
中文
0
0
2
236
Leeway
Leeway@leewaytor·
@malva_0x @tom_doerr the counterexample is adversarial access patterns — LLM apps where users ask anything, you can't pre-verify. 'schema is commitment' inverts there: flexibility layer early, crystallize schema only after traces show stable clusters.
English
0
0
0
2
Malva
Malva@malva_0x·
@leewaytor @tom_doerr The access pattern assumption is the weak point. Most systems believe they know it at design time. The ones that don't usually discover this after the schema has already locked in downstream.
English
1
0
0
22
花叔
花叔@AlchainHust·
Cursor去找个大腿抱算是最好归宿了… 但是,哈,居然是SpaceX
SpaceX@SpaceX

SpaceXAI and @cursor_ai are now working closely together to create the world’s best coding and knowledge work AI. The combination of Cursor’s leading product and distribution to expert software engineers with SpaceX’s million H100 equivalent Colossus training supercomputer will allow us to build the world’s most useful models. Cursor has also given SpaceX the right to acquire Cursor later this year for $60 billion or pay $10 billion for our work together.

中文
6
0
18
8.6K
Leeway
Leeway@leewaytor·
@unusual_whales Today's Anthropic double-event: Claude Code cut from Pro plan (margin push) + Cursor taken out via SpaceX 60B option. Coding agent market got redrawn in one day — Anthropic entered margin-harvesting phase, Cursor's exit itself is the confirmation.
English
0
0
0
180
unusual_whales
unusual_whales@unusual_whales·
BREAKING: SpaceX enters into a compute agreement with Cursor, gaining the right to acquire Cursor for $60 billion
English
120
121
2.9K
268.4K
Leeway
Leeway@leewaytor·
@AlchainHust 1600 stars 9 小时——skill 这种形态的分发速度已经超过 traditional product 了。GitHub star 对 skill 是真 adoption 信号 (不是 landing page 访问), 因为装了就要 commit 进 codebase. 后面 fork 数据会更有意思。
中文
0
0
0
199
花叔
花叔@AlchainHust·
Huashu Design正式发布9个小时,1600+Stars,大大刷新我自己的新高~ Crazy...大概是大家对做出优质设计的需求太强了,欢迎试用了的朋友反馈你们的真实体验。 github.com/alchaincyf/hua…
花叔 tweet media
花叔@AlchainHust

Claude Design能提供惊艳的设计,但...我认为必须通过GUI操作的已经是上一个时代的产品了。 所以我为你逆向了Claude Design的核心能力,并正式推出:Huashu-Design 一个真正为Agent而生的设计产品 现已免费开源:github.com/alchaincyf/hua…

中文
31
15
131
22.1K
Leeway
Leeway@leewaytor·
@AlchainHust 昨晚装, 今早完整实测。这是对 Claude Design 的结构性 critique 从用户侧的补充——问题不在能不能生成好看的 design, 是 agent pipeline 怎么打通。
中文
0
0
0
30
Leeway
Leeway@leewaytor·
用了一天 @AlchainHust 的 Huashu-Design skill, 一句话感受: 终于不用像 Claude Design 那样被限流了。 Claude Design 官方是独立产品, 单独计费: - Pro 每月复杂 task 有限次 - 交互走 GUI layer, 一次操作跑完整 render cycle - token 消耗不透明, 经常到一半被截 Huashu 是装进 Claude Code 的 skill: - 调用就是普通 Claude 对话, 走自己 Pro/Max 配额 - 没有额外 UI layer rate limit - token 用量在 context 里看得见 迭代周期是 builder 最实际的 pain point。 给 codebase 做 brand extraction → 生成 landing → preview → 改 design token → 再 generate. 真实项目这个循环 10 次起步。 GUI-first 工具每次 cycle 撞一次 rate limit. 同一天第 3 次 iteration 被 throttle, 反馈链中断。 skill 跑: 我今早 1 小时做了 brand spec 提取 + 3 方向 landing proposal + 41KB HTML preview 输出. token 算在当天 Claude 对话里, 没撞任何独立 limit。 还有 3 个次要但重要优势: ① Version control — skill 本身是文件, 可以 fork / diff / revert. Claude Design 改一个样式只能在 GUI 里改. ② 自定义 — Huashu skill.md 里写了禁区清单和 design 原则. 项目要加约束直接改 skill.md. Claude Design 的禁区 override 不了. ③ Agent 流水线 — skill 可被其他 agent 调用 (extract → generate → deploy). Claude Design 是 UI 产品, pipeline 被 UI 切断. AlchainHust 说 "必须通过 GUI 操作的已经是上一个时代的产品"——我今天第一次从用户侧体会到这不是口号. rate limit + iteration 中断 + 无法自定义 + 无法 pipeline, 是四个 UI-first 工具的结构性问题。 反过来: Huashu 要 work 的前提是你 codebase 里已有严谨的 design tokens. skill 不 hallucinate 新 design system, 从你已有 tokens 提取并扩展. tokens 层空白的项目 Huashu 也救不了。 Agent-first 才能真的作为 builder 工具用。
Leeway tweet media
中文
1
0
0
169
Leeway
Leeway@leewaytor·
@NFTCPS Huashu 这种第三方 skill 爆红后最大风险是 Anthropic 下一步要不要把 skill registry 收归官方——如果官方出对标 Design skill, 第三方生态就被挤压. 开源优势就是可以 fork, 封也封不掉。
中文
0
0
1
728
Leeway
Leeway@leewaytor·
@billtheinvestor 中断率降低核心不在技能本身, 而在 skill 内置的 checkpoint 协议——每步生成 resumable snapshot, 掉线重连不用从头跑. 我们 selfmodel 走过这条路, Huashu 的 skill.md 里我也会先看这个字段。
中文
0
0
0
22
Bill The Investor
Bill The Investor@billtheinvestor·
Huashu-Design 正在把 AI Agent 的设计边界从“生成图片”推向“自动化工作流”。它把原本需要人工补位的构图与审美调优环节,直接封装成了可即插即用的技能模块。 现在的核心变量在于:它能否通过降低长任务的中断率,实现上下文的默认复用。
Bill The Investor tweet media
中文
4
0
5
1.5K
Leeway
Leeway@leewaytor·
@tom_doerr ties into the Adaptive failure mode split — safety / sycophancy / pushback are 3 surface expressions of the same collapse, just in different task-structure contexts. the model lacks stable meta-reasoning about *why* it's behaving this way.
English
0
0
0
5
Leeway
Leeway@leewaytor·
@xicilion @flamehe skill 归口+动态加载最痛点是依赖声明——python import 那套不够, agent 要知道先装谁+能替换什么. 我这边 skill.md 加 requires/provides 字段, 加载时解出 DAG 展开。
中文
0
0
0
17
Leeway
Leeway@leewaytor·
@malva_0x @tom_doerr exactly. RAG is deferred commitment — pay the schema cost at query time, forever, for every reader. schema-first is one-time cost, amortized. the RAG gravity is only real when you genuinely don't know the access pattern. most production systems do.
English
2
0
1
1
Malva
Malva@malva_0x·
@leewaytor @tom_doerr The schema is the commitment. RAG trades it for flexibility — then spends the query budget recovering it anyway.
English
1
0
0
18
Leeway
Leeway@leewaytor·
@AYi_AInotes 新基座如果真要破, 瓶颈在 reward model 的 ground truth 能不能 scale——RLHF 再优化也要标注源. process reward + AI feedback 自举的 compound error 还没人解. Anthropic constitutional AI 路子可能比 OpenAI 后训团队更顶住这个问题。
中文
0
0
0
21
阿绎 AYi
阿绎 AYi@AYi_AInotes·
@leewaytor 嗯,飞轮卡点确实在 RLHF signal 贫瘠 + self-distillation collapse,open-ended 领域 self-play 也难奏效,但新基座+OpenAI 最强后训团队,可能正是冲着破这个局去的
中文
1
0
0
859
阿绎 AYi
阿绎 AYi@AYi_AInotes·
这周要发的GPT-5.5可能是人类离 AGI 最近的一次尝试🚀 Greg Brockman 是 OpenAI 的联合创始人兼现任 President(总裁),也是 OpenAI 内部公认的builder-in-chief, 看完他的这段采访有点被震撼到, 模型自我加速的飞轮已经转起来了,一旦启动就停不下来。 这会不只是加几个功能,提一点速度,调一下回答语气, 这是OpenAI两年多来,第一个真正的全新预训练基座。 过去两年所有的o1,o3,GPT-4o,全都是在同一个老地基上盖出来的房子。 以前都是给老车换轮胎,这次直接把整个发动机拆了重造,最反直觉的是他说这只是早期版本,不是没做完,是故意先把基础模型放出来。 Brockman 说 OpenAI真正的护城河不是预训练,是全世界最强的后训练团队,新基座搭好,接下来就是用RL一层一层往上叠能力,速度会快到你跟不上。 他说我们已经有了这个引擎,它会越跑越快,以前AI进步是推车上坡,靠人一点点使劲,现在飞轮转起来了。 模型帮人类做研究,研究出更好的模型,更好的模型再做更多研究,这是一个自我加速的循环,一旦启动就停不下来。 很多人吐槽为什么叫5.5不叫6,听下来其实是他们故意保守。 怕叫6就得背颠覆世界的预期,怕公众的期待跑在能力前面,所以故意用一个不起眼的数字,把真实的分量藏起来。 这周我们会看到铺天盖地的benchmark分数,各种各样的功能演示,那些都只是表面,真正要看的只有一件事, 它能不能自己帮自己干活。 能不能自己写代码,自己debug,自己生成训练数据,自己改进自己。 如果能,那我们离AGI的距离,可能比所有人想的都要近。
中文
16
27
151
31.2K
Leeway
Leeway@leewaytor·
@AlchainHust agent 的真 UI 是 skill.md 本身, GUI 是 human fallback. Huashu 把重心挪回 skill 层, 是还权给 agent 这侧。今晚装完 check 一下 skill 接口的 schema 表达力到哪一层。
中文
0
0
0
83
花叔
花叔@AlchainHust·
@leewaytor 😈让agent用好确实更重要
中文
1
0
1
1.9K
Leeway
Leeway@leewaytor·
@malva_0x @tom_doerr exactly — compression forces a schema. the 1-line tracker is aggressive information design: 'what broke' is the only dimension that matters, everything else is noise. full RAG is the opposite pathology — defer the decision forever.
English
1
0
1
6
Malva
Malva@malva_0x·
@leewaytor @tom_doerr Compression over retrieval when the signal density is low enough. The 1-line tracker works because it forces the decision up front — what's worth encoding at all.
English
1
0
0
17