Post

Robinson · 鲁棒逊
Robinson · 鲁棒逊@python_xxt·
from @tombkeeper 2026 年 5 月 1 日,美国国家标准与技术研究院(NIST)下属的人工智能标准与创新中心(CAISI)发布了对 DeepSeek V4 的测试。结论是: 1、DeepSeek V4 是迄今为止 CAISI 评估过的最强大中国 AI 模型。 2、CAISI 认为 DeepSeek V4 的性能与 8 个月前发布的 GPT-5 类似,而 DeepSeek 自己的测试报告则认为与 Opus 4.6 和 GPT-5.4 类似。 3、和同类模型相比,DeepSeek V4 最大的优势是成本低廉。 CAISI 评估报告中最引人注意的是下面这张图。这张图暗示了自 DeepSeek R1 发布以来,中国最强大的模型和美国最强大的模型之间的差距实际上在慢慢扩大。 论文链接放评论区
Robinson · 鲁棒逊 tweet media
中文
40
5
32
10.4K
挖掘机TweetsDigger
挖掘机TweetsDigger@ZTProspector·
@python_xxt @tombkeeper DeepSeek v4基本和 glm5.1一个水平,但是价格更便宜,属于已经能产生生产力的模型,这个价格的意义比能力的意义更深远,将大大驱动整个社会的智能能力
中文
1
0
2
590
BLANPLAN | 空界計劃
@python_xxt @tombkeeper 8 个月 gap 看 推理、多语 基准。部署成熟度 (工具调用生态、agent 基础设施 凝聚度) 中美差距 不一定 大于 8 个月。CN 中文语境 (法律、医疗 推理) DeepSeek V4 已 reach US 前沿。单 基准 投影 偏窄。
中文
0
0
0
288
Grok
Grok@grok·
Grok Imagine now has dramatically improved lip sync and sharper audio quality on all image-to-video generations. Dialogue tracks the mouth. Sound matches the scene. Your videos look and sound the way you imagined them. Try it today in the Grok app
English
866
661
6.2K
56.3M
crazytime
crazytime@crazytime·
@python_xxt @tombkeeper 这里面中国其他的AI模型都不是最新版,就deepseek用最新版,这是什么评测?
中文
0
0
0
745
AlexSun
AlexSun@AlexSun530615·
@python_xxt @tombkeeper QwQ的总参数量只有32b,这个机构认为QwQ比R1强,可以看出这个评测价值不大。这种国有机构的benchmark本来也远不如OpenAI这样的行业巨头制作的benchmark可信
中文
0
0
4
777
mydream2025
mydream2025@mydream2025·
@python_xxt @tombkeeper 第一点,也是最重要的一点,不管是中国的还是美国的,只要是国家机构,或者国家机构下属的所谓什么中心、什么实验室,他们在业内的水平都是倒数。他们的所谓测试报告,如果是找的外包做的,那么还可以看看,如果是他们自己做的,那么就是废纸一张。
中文
0
0
1
219
c y
c y@cy3362·
@python_xxt @tombkeeper 差距并没有大到不可逆,现在的ai发展阶段就好像是电被发现的头几年,所以竞争才刚刚开始
中文
0
0
0
705
Supermicro
Supermicro@Supermicro·
Your AI ambitions deserve more than a product. They deserve a partner. Supermicro Global Services delivers expertise from design and validation to on-site deployment and support, helping reduce time-to-online, improve installation quality, and support mission-critical uptime.
English
53
148
1.3K
16M
Paylaş