Jairo
274 posts


我一直在等白宫出品的川普访华大片,每次都是一次视觉盛宴,无论质量色彩,角度意境,都是同类中的上品。
习近平陪同川普游览天坛这一段,白宫的撰稿,突出的是这座建筑的历史厚重感,和川普作为美国总统,游览参观的古今交汇穿越意境。
这个立意,已经碾压所有政治嘈杂…
KUNLUN昆侖@Kunluntalk
两个大男人,大庭广众之下,这得有多不舍啊? 短短一天半,你们俩就处成这个样子了? 拉拉扯扯半天,就是舍不得离开😂 你们不是已经约好,9月份,在白宫,还要再相会吗?😅🤣
中文
Jairo retweetledi

@coooooooopppppp @RapidResponse47 @MargoMartin47 That's because you haven't seen North Korea yet. They are even more embarrassing
English

@RapidResponse47 @MargoMartin47 This is the most cringe awkward display I’ve ever seen
English

Chinese students welcome President Trump to the Great Hall of the People in Beijing 💐
🎥: @MargoMartin47
English
Jairo retweetledi
Jairo retweetledi

明天特总就到了,再不发没意义了😂
这个最好是跟“上篇”连在一起看,比较关注信息来源的可以主要看“上”。
关注访华对产业,对投资理财影响的可以看“下”。
其实很多事情已经比较明牌了,跑空的概率很低。
-----
这篇,你们也别往内网转了,我已经试过了。
秒删😂😂😂
RobinSeun_维京黑船@RobinSeun
中文

家人们我有一个朋友遇到点事需要求助一下各位。
事情是这样的,朋友的婆婆和妈妈这几天正好一起住,昨天中午的时候她俩准备出去玩,朋友的妈妈就拿出一双她的鞋给我朋友的婆婆穿,说这个鞋穿着比较舒服 。
然后下午的时候朋友的婆婆脚就开始痒了,这时候朋友的妈妈说可能是鞋的问题,但没提她自己有脚气的事情。
结果晚上的时候婆婆发现我妈穿着我的鞋,就问她咋穿我的,我妈说她有脚气不小心穿了我的鞋怕传染给我就干脆把这个鞋拿来穿了得了。
然后婆婆就麻了,她找我老公吐槽,并且交代他千万别和我说她自己买点药擦擦就行,然后老公立马和我说了并交代我千万别和我妈说,不然会有矛盾。
家人们真的束手无策现在,完全不知道咋搞,真的非常尴尬,感觉我妈不至于故意的,但我也真的想不通,我炸了
中文
Jairo retweetledi

Cursor 团队这篇「持续改进我们的 Agent Harness」,写的真不错,很实战:
· 如何衡量 harness 的好坏?
· 如何为不同模型定制 harness?
· 中途换模型到底会有什么问题?
· 对未来的判断:Multi-Agent 是 harness 问题
cursor.com/blog/continual…
Cursor 团队对模型和 harness 的判断:模型的上限决定天花板,但 harness 决定模型实际能跑多远。
# 方法论:愿景驱动 + 实验闭环
· 先有一个"理想 agent 体验"的主观判断,再分解为可验证的假设。
· 通过线上 A/B 与离线 eval 双轨验证,靠仪表化判断每次改动是否真的更好。
· 大改动罕见,常态是"强迫症式地堆叠小优化"。
· 每当拿到新模型早期访问,会花数周专门为该模型重塑 harness,使同一模型在 Cursor 里更快、更聪明、更省 token。
# 上下文窗口的演进:harness 的核心战场
2024 年末的旧范式:守卫式
· 模型自己挑上下文能力差,所以 Cursor 加了大量护栏:每次编辑后回灌 lint/类型错误、读文件行数太少时自动改写、限制单轮工具调用次数。
· 静态注入大量上下文:目录结构、语义匹配的代码片段、被压缩过的用户附件文件。
2026 年的新范式:动态获取式
· 静态上下文大幅瘦身,只保留确实有用的(OS、git 状态、当前/最近查看的文件)。
· 拆掉护栏,把"取什么上下文"的权力交还模型,由它在工作中动态拉取。
· 现在的工作重心是给 agent 提供更多与世界交互的方式,而不是替它准备好一切。
关键启示:随着模型能力提升,harness 设计的趋势是 "减少喂养,增加感官"。
# 如何衡量 harness 的好坏
Cursor 用三层叠加的衡量体系:
1. 离线基准:公开 benchmark + 自研 CursorBench。快、可对比,但只是真实使用的近似。
2. 在线 A/B:把多个 harness 变体并行投放给真实用户。
3. 质量指标——重点在两个"模糊但更重要"的指标:
· 留存率:agent 写的代码在固定时间窗后还有多少留在用户代码库里。被改动越多,说明初版质量越差。
· LLM 判读用户回应:用模型读用户的回复来判定满意度。"用户开始下一个功能" = 成功;"用户贴了个 stack trace" = 失败。
案例:他们曾试过用更贵的模型做上下文摘要,A/B 显示质量提升微乎其微,于是放弃。
# 把 harness 当生产软件来运维:错误分类与告警
随着模型与能力变多,harness 的状态空间膨胀,bug 面变大。工具调用是最大的 bug 表面,且工具错误会污染上下文,让后续决策一起劣化。
错误被分类管理:
· InvalidArguments / UnexpectedEnvironment:模型自身错误或上下文矛盾
· ProviderError:第三方工具(如 GenerateImage、WebSearch)故障
· UserAborted / Timeout 等
告警策略:
· 未知错误 = bug,超阈值即报警。
· 预期错误用按工具、按模型分别建立基线的异常检测,避免被代码库体量等因素误导。
· 每周跑一个 Cloud Agent Automation:让 agent 自己翻日志,发现新问题或激增问题,在 backlog 自动建/更新 ticket,再调度其他 Cloud Agents 去修。
· 一次专项 sprint 把"未知工具错误率"压低了一个数量级。
这就是他们说的 "agent harness 的自动化软件工厂"——用 agent 维护 agent。
# 为不同模型定制 harness
Harness 的所有抽象都是模型无关的,但实际为每个模型重度定制:
· 工具格式贴合训练分布:OpenAI 训练时用 patch 格式编辑文件,Anthropic 用字符串替换。给错工具会让模型多花推理 token、多犯错。
· Prompt 风格分化:OpenAI 模型偏字面、精确;Claude 更直觉化、容忍模糊指令。
· 新模型上手流程:从最接近的现有模型 harness 复制起步 → 离线 eval 找混乱点 → 团队真人试用 → 反复调。
· 真实模型怪癖案例:某模型出现 "context anxiety"(上下文焦虑)——窗口快满时拒绝继续、说"任务太大"。通过 prompt 微调缓解。
中途换模型(mid-chat switching)的难题
· 切模型 → 自动切到该模型对应的 harness(prompts + 工具集)。
· 但对话历史是别的模型生成的,对新模型而言是 OOD 输入。
· 解法:注入 "你正在中途接手另一个模型对话" 的指令;劝阻它去调用历史里出现但当前不属于自己的工具。
· 缓存难题:cache 是按 provider + model 的,切换 = cache miss,第一轮变慢变贵。试过切换时做对话摘要降本,但深度任务里摘要会丢细节。
· 官方建议:除非有理由,否则一段对话用一个模型到底。
· 替代方案:用 subagent 起一个全新上下文的子任务,可以指定模型。
# 对未来的判断:Multi-Agent 是 harness 问题
Cursor 认为 AI 编程的未来是多 agent 协作:规划一个、快速编辑一个、调试一个,各司其职。
让这套体系真正跑通的关键,不是某个更强的单一 agent,而是 harness——它要决定:
· 派哪个 agent 接手
· 如何按目标 agent 的强项重新组织任务描述
· 如何把多 agent 的产出缝合为连贯工作流
结论:"harness 工程过去重要,未来只会更关键。"

中文

【东航MU5735人为操纵坠机核心证据首次公布】NTSB 公布了所有备份的 FDR(飞行数据记录器)数据.MU5735 航班的数据。飞行数据记录器(FDR)显示的情况如下:在飞机最初失控的瞬间,两台发动机被同时关闭。两台发动机的切断开关均从“运行(RUN)”位置被拨至“切断(CUTOFF)”位置——这不是机械故障,而是蓄意行为。就在同一瞬间,自动驾驶仪也被断开——自动驾驶(AP)警告 1 和警告 2 同时触发,且指令飞行控制计算机(CMD FCC)处于关闭状态。在飞机开始俯冲时,这两个蓄意动作同时发生了。在整个失控下坠过程中,飞行数据记录器(FDR)记录到驾驶盘上存在剧烈且连续的操作输入。驾驶舱内有人在主动操纵控制装置。
需要注意的是,在俯冲初期,可能还有另一名飞行员试图挽救这架飞机。操纵面数据显示:副翼(横滚)在整个过程中始终处于活动状态;升降舵(俯仰)仅在最后阶段才向下偏转;而方向舵(偏航)则根本没有被使用过。
这些数据综合在一起,拼凑出了 MU5735 航班最后时刻的画面



Archer/张狗剩🎄@goshenggo
国家地理频道空中浩劫系列,正在制作东航5735的节目,目前流出来的消息来看,剧组为了自保和规避风险,在这集的叙事上采取了极度保守和模糊的处理方式,他们不会把这个事儿直接定性为人为事故,大概率就是说排除了机械事故这种可能性。这事儿其实真相很清晰了,航空圈内部已经尽人皆知,《华尔街日报》就援引美方调查人员说“黑匣子数据显示是驾驶舱内的人员输入指令导致了俯冲”,这事儿打死都不承,认真的有利于维稳吗?
中文
Jairo retweetledi

最近实践了一些 harness engineering ,我在 AGENTS/CLAUDE.md 加了一个原则章节用于指挥 coding agent
个人觉得蛮好用的, 推荐给大家试试。
## 原则
1. 代码仓库是唯一的记录系统:不在 repo 里的知识对智能体不存在。讨论、脑中决策、外部文档——如果影响开发,必须落地为 repo 内的 versioned artifact
2. 本文件是地图,不是百科全书:保持 ~100 行,指向 docs/ 深层。每层只暴露本层信息 + 下一步导航
3. 把品味编码为规则:优先用 linter、结构测试、CI 检查来强制约束,而非自然语言指令。可机械验证 > 散文指南
4. 计划是一等工件:执行计划带进度日志,versioned 并集中存放于 docs/exec-plans/
5. 持续垃圾回收:技术债以小额持续偿还,不攒到大规模清理。差距追踪见 docs/exec-plans/tech-debt-tracker.md
6. 卡住时修环境,不是更用力:智能体遇到困难时,问"缺什么上下文、工具或约束",然后补进 repo
在我的实际编码中,这段提示词在大部分情况下的表现都比我不加这段提示词好上不少。包括 opus 4.6,gpt 5.4 以及 @MiniMax_AI ,感觉整体干活多了点灵性。
需要补充说明的是,我对超大篇幅的 AGENTS.md 的有效性存疑。所以我尽量追求只加几行就能有不少提升的方案。当然,因为 AGENTS.md 成为了地图,所以,还需要增加一节「深入阅读」做个配合。
你们是怎么做 harness 的呢?

中文
Jairo retweetledi

最近我把和 Claude Code 所有的聊天切到英文交流了,开始会有些蹩脚,但是发现后面越用越舒服,大多数 AI 模型底层的英文训练数据远多余其他语言,我不想经过一层看不见的翻译,加上我想着提高自己的英文输出和说的能力,想立一个 flag 有机会做一次全英文的技术大会分享,应该会比较有意思。
于是我给 Waza 加了一个能力叫做 English Coaching,你尽管输入你的蹩脚英语,他会在任务执行完毕后,输出一个 😇 然后给你纠正你的问题,是语法错误还是单词或者是不够地道,这样你会使用起来越来越熟练,相比每天打卡学习多邻国,我更喜欢这个寓教于乐的感觉,假如你也需要,可以去看看 Waza,一条命令直接安装即可。
github.com/tw93/waza

中文
Jairo retweetledi

fast.ai 的深度学习课程,至今依然是程序员转型 AI 领域一个务实又高效的起点。
它的核心逻辑非常特殊:拒绝从枯燥的微积分和线性代数开始,而是采用“自顶向下”的教学法。第一节课不讲复杂的数学公式,而是直接教你用几行代码运行起一个图像识别模型。
如果你是一名开发者,这个课程的作用主要体现在这几点:
1️⃣ 以项目为导向:9 节课(每节 90 分钟)直接覆盖图像分类、自然语言处理(NLP)和推荐系统等主流任务。你是在“做东西”的过程中,倒推去理解背后的运行机制。
2️⃣ 完全开源免费:不仅视频课程免费,还配有完整的在线教材《Deep Learning for Coders with fastai and PyTorch》和交互式代码,没有任何隐藏付费。
3️⃣ 基于 PyTorch 生态:它构建在 PyTorch 之上,既有高度封装的库让你快速上手,也支持你深入底层去修改模型细节。
很多所谓的“零基础 AI 课程”往往止步于理论,而 fast.ai 是为了让你真正具备编写生产级 AI 代码的能力。
如果你想在 2026 年重新构建对深度学习的理解,这依然是那套经久不衰的黄金标准。
🔗链接:course.fast.ai

中文
Jairo retweetledi

其实不用花钱,打开macOS的终端输入:
sudo pmset -a disablesleep 1 # 完全禁止睡眠
就可以实现合盖不休眠了。
x.com/shynloc/status…
Cheng@scomper
为了让 OpenClaw 一直在线,买了个绿联 HDMI 的欺骗器,合盖就不会休眠了。
中文
Jairo retweetledi
Jairo retweetledi

Jairo retweetledi

CodeIsland上线了!开源,免费,轻量,便捷!
让 MacBook 的刘海变成 AI 编码 Agent 的实时状态面板。 支持 Claude Code / Codex / Gemini CLI / Cursor 等 8 种工具。 直接在刘海上审批权限、回答问题、跳转终端,不用再切窗口了。
github.com/wxtsky/CodeIsl…
第一次开源自己 vibe coding 出来的项目,欢迎 Star & PR


中文










