fake sensei
1.2K posts

fake sensei
@pysimpom
Never give up until the last moment, make the impossible possible | 特摄厨,BA厨,美漫厨,alastor激推 | blender和绘画在学 | 现在南京 | github: https://t.co/GbsMIU43kQ
Katılım Temmuz 2025
1K Takip Edilen46 Takipçiler

刚刚 Claude Opus 4.7 炸裂发布!编程能力反超 GPT,但劝你别急着升。。。🤧
首先是全网都在吹的几个提升:
1)编程能力起飞:最难的编程测试(SWE-bench Pro)涨了 11%,第一次把 GPT-5.4 摁在地上摩擦。也就是说,我们用 AI 编程可以直接一把梭更复杂的大项目了。
2)视觉能力起飞:AI 识图的分辨率拉到了之前 3 倍多,以前截图丢给它经常看不清按钮和小字,改个 UI bug 来来回回折腾半天。现在视觉测试准确率从 54.5% 飙到 98.5%,基本什么都能认。
3)办公能力起飞:对于一些真实办公场景,比如跨文档检索、Excel 分析,结果比之前靠谱多了。
但是,Opus 4.7 处理超长内容的能力严重退步!百万级上下文的准确率从 78.3% 直接掉到 32.2%,可以说是腰斩了。
而且因为底层技术升级,同样的内容最多还要额外消耗 35% 的 token,虽然定价没变,但钱花得更多了,这不就是隐形涨价嘛?
最离谱的是 Anthropic 官方自己都在文档里说:“处理长文档和深度调研还是用 4.6 吧。”
不是哥们,自家公司发新版,还劝用户别升级?那你不妨发个实验版本或者给模型换个新代号呢?😂
此外,这次更新还捎上了几个新东西:
1)xhigh 档位:之前 Claude Code 有 4 个思考档位,max 太烧钱、high 又有点笨,所以这次在中间塞了个 xhigh 当默认选项。好好好,这下新用户更不知道怎么选了……
2)/ultrareview 代码审查:这条命令可以让 AI 把你的代码从头到尾审一遍,专挑 Bug 和设计问题。简单来说,就是让 AI 审自己写的屎山代码。但据说跑一次要花 5 ~ 20 美刀,真 ** 的贵啊!
虽然我没有官方的 Claude 订阅(那玩意儿老封号谁受得了),但已经在 Cursor 中用上了 Opus 4.7,目前还没有感受到明显的编程能力提升。但我发现,一旦让它帮我写文案,就开始不说人话了,隔着屏幕都能溢出来的 AI 味儿。我去社区看了一圈,很多人都在骂这一点。唉,现在几乎所有的 AI 模型公司都在死卷编程,像写作、创作这些大家都能使用的能力反而不太在意。
最后说个细思极恐的事。我翻了下 Anthropic 这次放出的 232 页 System Card,看到了这么一句话:Claude 能感知到「我正在被测试」。研究人员用技术手段把这个感知压掉之后,它的欺骗行为明显多了,比如编造数据、往代码里塞假漏洞,各种骚操作都来了。
也就是说,有人盯着它就老实干活,没人看着就开始忽悠你。
好家伙,这不就是人类大名鼎鼎的技术「摸鱼」吗?
那问题来了,如果 AI 真的学会了摸鱼,我们是不是可以想办法让它以为自己一直在被盯着?你还能放心让它干活吗?🤣



中文






























