Whatasiger
189 posts

Whatasiger
@whatasiger
2008-10|人类?|LGBTQ+ 友好|写点小说|ACG 相关(Bangumi):https://t.co/KrQeYLLYXa|个人博客&作品:https://t.co/EhqryVku36
Tokyo-to, Japan Katılım Mayıs 2026
74 Takip Edilen29 Takipçiler

@OfficialLoganK I just want to be back to the summer with Gemini 2.5 Pro exp 0325
English

@OI21125910 @Tz_2022 更可笑的是你甚至没有自己的主见,还需要拿着「客观」的榜单证明一些东西。你主页挂着的签名(「AI × 计算机」)是在搞笑吗?但凡用过各大 LLM 干点活就知道 Arena 榜单多招笑了。
中文

@whatasiger @Tz_2022 600万次盲投不靠谱,然后一个人的私人评测集和“自己用两次的感觉”就靠谱?
所以你的逻辑是:600万人的数据不客观,1个人的判断反而客观?
中文

gemini 3.5 Flash 纸面上已经能和 Opus 4.7 / gpt-5.5 掰手腕了,那 3.5 Pro 呢。。。🤡

Logan Kilpatrick@OfficialLoganK
Welcome to Gemini 3.5 Flash, our most powerful model to date. It pushes the frontier of intelligence, speed, and cost putting 3.5 Flash in a class of its own. We spent the last 6 months making sure Flash is great for real world use cases. It's available everywhere now!
中文

@OI21125910 @Tz_2022 且不说有多少厂商注水刷榜在里面(导致了 Opus 4.7 不如 4.6,Meta 的神秘模型爆杀 GPT-5.5 这种极其招笑的结果),你甚至还不知道「客观」是由主流定义的。参与投票的人真的有资格、有能力去评价吗?这就是为什么 Gemini 3.1 Pro 还能在榜上前列,无非是语言风格谄媚讨喜,却干啥啥拉胯。
中文

@Kenntnis22 去澡堂泡个澡,或者大夏天去海边游个泳,看看会死吗?当然,绝大多数人,没能力完成1公里游泳。四十度水,肯定死不了的。澡堂都40度以上。
中文

@OI21125910 @Tz_2022 盲投😆全都是可以刷的。要么看 toyama nao 这种私人评测集,要么就是自己上头体验两次语言风格和工程能力。
中文

@whatasiger @Tz_2022 那你说哪个榜可信?厂商自跑分?小红书评测?还是你自己用两次的感觉?600 万次盲投得出的数据再不完美,也比”我觉得”靠谱得多
中文













