鴨鴨嘎嘎 retweetledi
鴨鴨嘎嘎
113 posts

鴨鴨嘎嘎 retweetledi
鴨鴨嘎嘎 retweetledi
鴨鴨嘎嘎 retweetledi
鴨鴨嘎嘎 retweetledi

下班回家,第 N 次看见家里的五年级小朋友坐在电脑前。我凑过去,看到她正触摸板手绘“大黄蜂”,手搓 Scratch。
“不如爸爸教你怎么用 AI 编程、出图吧,贼快!”
“不要!那样没意思!”她很不屑。
于是,在这样一个 Vibe Coding 的时代,小家伙古法纯手工搓了个“丝之歌”。祝贺她 😁 @TeamCherryGames
中文
鴨鴨嘎嘎 retweetledi
鴨鴨嘎嘎 retweetledi

今早英伟达GTC全场最后一个环节,黄仁勋没自己谢幕。他叫出了一个新机器人,迪士尼的雪宝Olaf。
大屏幕上先出现Olaf的动画,然后它直接从屏幕里走了出来。
一个机器人自己走上舞台中央,跟老黄聊天,吐槽站太久腿酸。
晚晚我一开始都没分辨出这是机器人,非常真人化。
嘴能动,眼睛能动,走路一摇一晃。
我看了些资料,迪士尼幻想工程团队说,这个角色最难的地方在于它脚底是两个雪球,让球形脚稳定行走比普通双足机器人难得多。
所以它在Kamino仿真器里跑了成千上万个并行环境做强化学习。
老黄在台上跟Olaf说:你的电脑是我给的,装在你肚子里。
英伟达的Jetson芯片塞在身体里,实时推理。
两周后,这个Olaf机器人,就去巴黎迪士尼打工了,之后部署到香港迪士尼当牛马。
这将是全球第一个自主行走的迪士尼角色。
中文
鴨鴨嘎嘎 retweetledi
鴨鴨嘎嘎 retweetledi

@tvytlx 骗外行人的传奇ai小故事,从头到尾经不起推敲。第一步光测个dna不看表达量就能确定target?然后alphafold,光算个蛋白结构鬼知道肽段能不能被MHC呈递,免疫原性如何?再然后,哥们真以为设计出来就能稳定生产了,以为湿实验好做,蛋白不会降解。更别提疫苗载体。这事有半分真全世界制药大手就地破产。
中文
鴨鴨嘎嘎 retweetledi
鴨鴨嘎嘎 retweetledi
鴨鴨嘎嘎 retweetledi

公开 benchmark 已经测不出差距了。
Cursor 团队发了篇博客,解释他们为什么要自己做 CursorBench。
问题出在三个地方:
对齐——SWE-bench 大量任务集中在 bug fix,和开发者真实工作场景偏差越来越大。
评分——真实需求本来就是模糊的,同一个请求有十几种正确解法,公开 benchmark 要么误判,要么人为加限制,哪种都不准。
污染——任务来自公开仓库,早进了模型训练数据。OpenAI 最近直接宣布不再报 SWE-bench 分数,因为前沿模型能直接"背"出答案。
───
Cursor 的做法是用 Cursor Blame 把提交代码追溯到原始 agent 请求,自动生成真实请求 + ground-truth 答案的配对,任务来自内部代码库,污染风险低,每几个月刷新一次。
结果是:公开榜单上前沿模型分数越来越挤,Haiku 能赶上 GPT-5 的情况都出现了。但 CursorBench 的排名跟开发者真实体验高度吻合。
───
这篇的核心洞察不只是"Cursor 怎么测评",而是一个行业问题:
我们在用越来越不准的标尺,评估越来越强的模型。
能自建贴近真实场景的 eval pipeline,本身就是竞争壁垒。
cursor.com/blog/cursorben…
中文
鴨鴨嘎嘎 retweetledi
鴨鴨嘎嘎 retweetledi
鴨鴨嘎嘎 retweetledi
鴨鴨嘎嘎 retweetledi
鴨鴨嘎嘎 retweetledi



















