bokuta
3.3K posts


今儿刷到这篇文章,看完之后觉得卧槽牛逼。
赶紧找到了文章里的大佬准备关注一波。
打开主页发现我竟然早就已经关注了😎😎
然后大佬竟然也关注我了😂😂
我何德何能啊😂
168X@168X_Fortune
中文

🚨 0%完成率!AI集体翻车,新基准把代码大模型直接打回原形!
我刚刚刷到这个消息,直接沉默了……
SWE-Bench作者刚放出的地狱级新基准 ProgramBench,要求AI从零开始完整重建真实软件项目,比如FFmpeg、SQLite等),不能联网、不看代码相似度、只验证最终行为是否正确。
结果呢Claude Opus 4.7、GPT-5.4、Gemini 3.1 Pro……所有一线模型,完成率全部是0%!
这说明什么?
AI现在确实很会写代码,但依然不会做软件工程。模型习惯把所有逻辑塞进一个单体文件,完全没有人类工程师的模块化思维、系统规划能力和长期工程构建能力。
代码生成能力还是瓶颈吗?
早就不是了。
卡点,仍然在全局架构设计和工程实践。

中文

我不了解AI产业链,你们还是别跟我对话了
我在干什么?居然煞有其事地跟一个币圈的人解释公司估值和半导体。我真是个蠢材
Finn@sun_finn66909
@ShanghaoJin @fi56622380 先了解下AI产业链吧
中文






















