9efish
459 posts


谁家好人考试会出这种题?“葡萄”是个联绵词,通俗来讲就是汉语里一种“拆开就没意义”的特殊双字词。你拆开“葡”和“萄”都没含义,合起来才指那种水果。再比如蜈蚣、蜘蛛、忐忑、蜿蜒、婆娑、尴尬、澎湃等也是。那你说组词“葡萄糖”算不算,算,但和出题思路又是抵牾的。反正我是没见过这样的语文题。
禿道道🐟@dearemon
想了一下,我也没想出来哈哈哈
中文


公开 benchmark 已经测不出差距了。
Cursor 团队发了篇博客,解释他们为什么要自己做 CursorBench。
问题出在三个地方:
对齐——SWE-bench 大量任务集中在 bug fix,和开发者真实工作场景偏差越来越大。
评分——真实需求本来就是模糊的,同一个请求有十几种正确解法,公开 benchmark 要么误判,要么人为加限制,哪种都不准。
污染——任务来自公开仓库,早进了模型训练数据。OpenAI 最近直接宣布不再报 SWE-bench 分数,因为前沿模型能直接"背"出答案。
───
Cursor 的做法是用 Cursor Blame 把提交代码追溯到原始 agent 请求,自动生成真实请求 + ground-truth 答案的配对,任务来自内部代码库,污染风险低,每几个月刷新一次。
结果是:公开榜单上前沿模型分数越来越挤,Haiku 能赶上 GPT-5 的情况都出现了。但 CursorBench 的排名跟开发者真实体验高度吻合。
───
这篇的核心洞察不只是"Cursor 怎么测评",而是一个行业问题:
我们在用越来越不准的标尺,评估越来越强的模型。
能自建贴近真实场景的 eval pipeline,本身就是竞争壁垒。
cursor.com/blog/cursorben…
中文

我去 一觉醒来 又又又重置了???
不过这一次是我赢了 昨天使劲蹬sam 撸了大量额度
今天再加倍蹬!!!

Go学长@arkuy99
给 codex 下达了一个 100 篇文章的翻译任务。 看明天重置不
中文

Anthropic 刚给 Claude Code 上线了 多 Agent PR 代码审查,内部数据有点夸张。
起因是他们工程师代码产出一年涨了 200%,人工 review 完全跟不上,大部分 PR 只是被扫了一眼。
上线前后对比:
• 有实质性 review 意见的 PR:16% → 54%
• 超 1000 行的大 PR:84% 被标记出问题,平均 7.5 个
• 误报率:不到 1%
两个让我觉得真有用的案例:
第一个——一行生产改动,看起来完全正常,但会让整个服务的认证系统直接崩掉。这种东西扫 diff 根本不会注意到。
第二个——审查一次加密重构时,顺带发现了旁边代码里一个沉睡多年的 bug:类型错误导致每次同步都悄悄清空加密密钥缓存。人工 reviewer 压根不会去翻那块代码。
运作方式:
PR 提交后一组 Agent 并行展开,找 bug → 过滤误报 → 按严重度排序,输出总览评论 + 行内标注,平均 20 分钟出结果,PR 越大投入越多 Agent。
注意: 它不会自动批准 PR,人工仍然必须签字。费用 $15-25 每次,按 token 计费。
这个方向我觉得是对的:AI 生成的代码量在爆炸式增长,review 能力反而成了真正的瓶颈。用 AI 来 review AI 的代码,某种程度上是唯一能 scale 的解法。
现在对 Team 和 Enterprise 用户开放研究预览。
Claude@claudeai
Introducing Code Review, a new feature for Claude Code. When a PR opens, Claude dispatches a team of agents to hunt for bugs.
中文














