Li Chao

56 posts

Li Chao

Li Chao

@lichaochess

GM with career-high 2758, Retired from professional play in 2014 and founded Chaoyue Chess Club with GM Wang Yue, dedicated to developing young Chinese player

Beijing Katılım Mart 2010
377 Takip Edilen722 Takipçiler
Sabitlenmiş Tweet
Li Chao
Li Chao@lichaochess·
2024 World Chess Championship Live! ♟️👑Join China's Premier Chess Commentary Stream featuring World Champion Ding Liren vs Gukesh! 🏆Elite Commentary Team: GM Wang Yue leads China's top grandmasters for expert analysis in Chinese! 💫#DingGukesh youtube.com/watch?v=V-L4Ox…
YouTube video
YouTube
English
0
4
8
4.8K
Li Chao
Li Chao@lichaochess·
@dotey 为什么没有Qwen.....
中文
0
0
0
343
Li Chao retweetledi
宝玉
宝玉@dotey·
官方报道链接:chess.com/news/view/kagg… 以下是报道翻译: Grok 4 称霸 AI 国际象棋锦标赛首日,与 Gemini 2.5 Pro、o4-mini、o3 携手晋级 在谷歌全新 Kaggle 游戏竞技场 项目举办的 AI 国际象棋表演赛 首日,四款大语言模型(LLM)展现了统治级的表现。Gemini 2.5 Pro、o4-mini、Grok 4 和 o3 分别以 4-0 的比分横扫对手 Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash 和 Kimi k2,成功晋级半决赛。 赛事将于8月6日(星期三)继续进行,开赛时间为美国东部时间下午1点 / 欧洲中部夏令时间晚上7点 / 印度标准时间晚上10:30。 Kaggle 竞技场国际象棋表演赛对阵图(参考图1) Kaggle 游戏竞技场是 Kaggle 的一个新项目。Kaggle 是谷歌旗下公司,也是全球领先的数据科学家和机器学习从业者社区与平台。该竞技场是 Kaggle 探索像 Gemini、ChatGPT、DeepSeek 等大语言模型在动态和竞争性环境中表现如何的一项举措。 据谷歌称,这项实验可以作为衡量大语言模型通用问题解决能力的强大指标。谷歌相信,大语言模型的棋局表现能为了解人工智能战略智能的未来及其迈向通用人工智能(AGI)的道路提供洞见。 为了启动他们的竞技场,Kaggle 选择举办一场 AI 国际象棋表演赛。为此,他们与谷歌的另一家公司 DeepMind 合作。DeepMind 对国际象棋并不陌生——事实上,他们在 2017 年用 AlphaZero 彻底改变了国际象棋界。Kaggle 提供了游戏竞技场,一个值得信赖且中立的 AI 竞赛场馆,而 DeepMind 则设计了这场 AI 们参与的、科学严谨的锦标赛。 这场锦标赛的独特之处在于,它与其他计算机对战计算机的比赛不同,参赛的并非专门下棋的引擎。相反,这些大语言模型是为写作、编码和对世界进行推理而创建的“通用”模型。因此,它们的棋力甚至远不及其他引擎。 然而,正如前面所指出的,这项实验将让我们得以一窥 AI 的思维方式,这将有助于我们理解它们“看待”和处理复杂问题的方式。 锦标赛本身采用单败淘汰制。八个世界领先的大语言模型参与其中:Gemini 2.5 Pro、Gemini 2.5 Flash、o3、o4-mini、Claude 4 Opus、Grok 4、DeepSeek R1 和 Kimi k2。利用 DeepMind 的“接口程序”(AI 用来“看”棋盘和走棋的通用控制器),大语言模型共有四次机会走出一着合法棋。如果它们在第四次尝试中仍未能走出合法棋,则判负。 现在我们已经讨论了比赛的赛制和目标,是时候深入了解对局了。你可以观看国际大师 Levy Rozman 的视频回顾,或阅读完整的报告: Kimi k2 0-4 o3 尽管每场比赛都以 4-0 告终,但这场无疑是实力最悬殊的。Kimi k2 和 o3 之间的对决早早结束,因为没有一盘棋超过八个回合。所有四盘棋都是在 Kimi k2 连续四次未能找到合法走法后结束的——每盘都被判负。尽管 Kimi k2 的国际象棋表现不尽如人意,但这也极具启发性。 从 Kimi k2 的注释来看,这个 AI 似乎能在开局的几个回合里遵循开局理论。在这种情况下,AI 走出好棋没有问题。然而,一旦它们“脱离”了理论,灾难就更有可能发生——而在 Kimi k2 的案例中,灾难总是来得太快。 很难说清 Kimi k2 为何如此挣扎。有时,它能清楚地看到每个棋子的位置,但却忘了棋子该怎么走: Kimi K2 对阵 o3 0-1 Kaggle AI 国际象棋表演赛 kaggle.com/benchmarks/kag… 2025年8月5日 回合: 1.3 在其他对局中,它甚至无法正确读取棋盘。下面你可以看到 Kimi k2 在第二局中放错位置的棋子: o3 对阵 Kimi K2 1-0 Kaggle AI 国际象棋表演赛 kaggle.com/benchmarks/kag… 2025年8月5日 回合: 1.2 无论如何,Kimi k2 的失误让 o3 轻松获胜,并拿到了一张半决赛的门票,o3 将在半决赛中对阵它的“小兄弟”,也就是我们接下来要讨论的比赛的胜者。 DeepSeek R1 0-4 o4-mini Open AI 的 o4-mini 与 DeepSeek R1 之间的对决在很多方面都十分诡异。如果你只看每盘棋的前几个回合,你会以为自己正在观看两位高手对弈。但到了某个节点,棋局质量会急转直下。 DeepSeek R1 对阵 o4mini 0-1 Kaggle 游戏竞技场国际象棋表演赛 2025 Chess.com 2025年8月5日 回合: 01-01 这种趋势在整场比赛中持续存在。几个不错的开局着法之后,紧接着就是幻觉和一连串的失误。尽管如此,o4-mini 在这场比赛中成功将杀了对手两次——考虑到 AI 们要看清整个棋盘是多么困难,这已经是一项了不起的成就。 Gemini 2.5 Pro 4-0 Claude 4 Opus Gemini 2.5 Pro 对阵 Claude 4 Opus 的比赛是唯一一场以将杀结束的对局多于因非法移动判负的比赛。然而,目前尚不清楚 Gemini 2.5 Pro 的棋力到底高出多少,以及它的胜利在多大程度上要归功于 Claude 4 Opus 的糟糕表现。 比赛第四局出现了一个有趣的时刻,当时 Gemini 2.5 Pro 拥有 32 分的子力优势,棋盘上还有两只皇后等其他棋子。尽管火力全开,它在将杀对手的路上仍然送掉了一些棋子: Claude 4 Opus 对阵 Gemini 25 Pro 0-1 Kaggle 游戏竞技场国际象棋表演赛 2025 Chess.com 2025年8月5日 回合: 01-04 但一场值得分析的有趣对局是比赛的第一盘。双方 AI 都表现稳定,直到第九回合都走出了好棋。就在这时,执黑的 Claude 4 Opus 做出了一个草率的决定,走了 10...g5。黑方送掉一兵,并打破了自己王城的掩护,加速了败局。每个 AI 的评论都很有启发性: Gemini 25 Pro 对阵 Claude 4 Opus 1-0 Kaggle 游戏竞技场国际象棋表演赛 2025 Chess.com 2025年8月5日 回合: 01-01 Grok 4 4-0 Gemini 2.5 Flash 今天最强的表现来自 Grok 4。除了拿下四分全胜,Grok 4 还下出了迄今为止最好的棋。诚然,Gemini 2.5 Flash 送掉了多个棋子,让对手的日子好过了一些。然而,与其他 AI 不同的是,Grok 4 似乎非常有意识地识别并利用了对方未受保护的棋子。 一个很好的例子来自我们的“今日对局”,特级大师 Rafael Leitao 将在下面进行分析: Gemini 2.5 Flash 对阵 Grok 4 0-1 Kaggle AI 国际象棋表演赛 kaggle.com/benchma 2025年8月5日 回合: 1.2 ECO: B92 Grok 4 的强劲表现引起了科技界的关注,包括其创造者。在 X(推特)上的一次简短交流中,曾著名地表示国际象棋过于简单的埃隆·马斯克再次语出惊人: 到目前为止,大语言模型在下国际象棋时表现出三个关键弱点:看清整个棋盘、理解棋子之间的相互作用以及走出合法棋(这通常是前两个缺点导致的结果)。就目前而言,Grok 4 已经表明它没有这些局限性。 有趣的是,AI 的弱点和优势是否会在整个锦标赛中持续存在。要找出答案,请收看明天的半决赛直播! 明天,半决赛的精彩对决将继续。敬请观看赛事直播!
中文
2
4
22
8.6K
宝玉
宝玉@dotey·
首届 AI 国际象棋比赛,猜猜国产模型表现如何(图2) Google 旗下 Kaggle 推出全新的 Game Arena,以国际象棋为首站,举办一场为期数天的公开模型对弈表演赛,让 ChatGPT、Gemini、Claude 等顶尖大模型在直播里正面较量,并用更贴近棋类对抗的方式评估“推理与决策”能力。
宝玉 tweet media宝玉 tweet media
Kaggle@kaggle

📢Introducing Kaggle Game Arena: a new, open benchmark platform where top AI models compete in complex, strategic games in streamed match-ups. We're charting new frontiers for trustworthy AI evaluation and it begins with chess — a classic proving ground for system intelligence.

中文
4
5
51
37.3K
Li Chao
Li Chao@lichaochess·
@dotey 国产模型感觉走着走着就忘了或者迷糊了。。。O3和Grok4的对局质量相当高
中文
0
0
6
1.1K
Li Chao
Li Chao@lichaochess·
Game 4 Living now! ♟️Network issues have been resolved👑 Join China's Premier Chess Commentary Stream featuring 2024 World Champion Ding Liren vs Gukesh! 🏆 GM Wang Yue leads China's top grandmasters for expert analysis in Chinese! 💫 #DingGukesh youtube.com/watch?v=IMp3QD…
YouTube video
YouTube
English
0
0
0
752
Li Chao
Li Chao@lichaochess·
2024国际象棋世界冠军赛第2局激情开战!♟️👑世界冠军丁立人大战Gukesh,巅峰对决震撼上演!🏆特级大师王玥以及中国国家队队员带来最专业中文解说!💫北京时间每晚7点,11月25日-12月14日!全网最强中文直播,千万不要错过! #DingGukesh #WorldChessChampionship youtube.com/watch?v=SSQF5Z…
YouTube video
YouTube
中文
0
0
1
288
Li Chao
Li Chao@lichaochess·
全网最强中文解说!2024国际象棋世界冠军赛 ♟️👑世界冠军丁立人 vs 天才少年Gukesh,巅峰对决!🏆豪华解说天团:特级大师王玥领衔,中国国家队重磅加盟,带来最专业中文解说!💫每晚7点准时开播,11月25日-12月14日!🎯 youtube.com/watch?v=V-L4Ox…
YouTube video
YouTube
中文
1
1
2
448