CHEN
2.6K posts

CHEN がリツイート

想和大伙聊聊,在 AI 时代我是如何深入学习一个技术领域的。
之前没有 AI 之前更多是看书、翻这个领域有名的国内外人的所有博客,然后摘抄记录到笔记本,这种速度挺慢,但是很有学习的乐趣,比如当时学习 WebGL 就是这种感觉,可能学懂一个东西差不多要半年空闲时间,慢但快乐。
现在有了 AI 之后,其实我很讨厌网上那种3分钟教你看完百年孤独,也讨厌一切短剧和倍速看电视剧的方式,更多还是挑好的看,吃好一点。
不过最近写你不知道的 Claude Code 和 Agent 系列,除了自己懂的部分外,其实还有大量不太清楚的领域,好在之前收藏了不少文章,刚好借助这一块清库存,全部搞懂输出出去,一直认为,很多时候,不在于看了多少东西,听了多少东西,输入了多少东西,其实用处不大,更加看重你输出了多少东西,这个才是你自己的。
然后我上上周启动了一个深坑挑战自己,研究大模型的训练流程,确保非专业的人也听得懂,探索了2周,刚好这个经验可以分享给大伙,当然成文也差不多好了,最近会发出。
我会把这个学习过程当做写代码一样的组织,第一步收集高质量的资料,比如与之相关的近几年的精品论文,各大模型厂商发布的关键模型的博客,X上模型负责人发表的一些文章,以及斯坦福等高校的近两年关于这一块的课程学习,还有经典的手搓一个大模型的代码仓库等等,这些都是我的一个资料来源过程,我会借助工具自动化全部下载、转md、清洗,梳理,弄好结构化分门别类到我这次研究的仓库。
然后对于自己看得懂的内容就全部看一遍,把不好的删掉,好的留下,对于看不懂的内容,直接借助 Claude 帮我的理解,更复杂一点的直接翻译成中文去阅读,对于代码本地可以跑的就跑起来,不能跑的那种就去看结构,总之会有一个大概的认识和知晓技术原理,这个阶段可以去掉原有一半可能没有用的内容。
到了这个阶段,其实你对这个领域有一个大概的认知了,就可以给这篇文章开始写一个大纲,以及大纲应该结合的来源内容,这里均可以用markdown很多表达,你要讲什么,或者说你想讲什么更想让读者知道,一定一定,文章是写给你给给看的人看的,需要知晓对方的认知水平,和汇报其实差不多。
然后接下来就是苦力活加之前内容的复习过程,和大学时候考试前复习很像,把每一章的内容填充完整,这样下来,你会得到一篇非常长而且有点啰嗦的文章。
这个时候AI就可以帮太忙,你可以让他帮你不改变你原有的内容意思你的语气的情况下,帮我去掉无用的啰嗦内容,以及连贯不到位的内容,或者是这一块缺少的内容,还需要补充什么知识的地方,借助AI继续去完善补充,这里又可以学到很多原来遗漏的东西。
最后整理好以后,可以继续自己读一遍,而非让AI读一遍,这里AI只是工具,千万不要把你的脑袋被AI代替了,这就没有啥意思来,自己读的过程中可以对文章继续修改调优,这里和写代码又非常像了,自测那种感觉,修复问题修问题,最后读了2遍以后,基本感觉完美了,然后就可以发出来给大伙看看。
有小伙伴肯定是担心自己写的东西没有人看,就不太喜欢发出来,或者说就不写了,其实只要你的内容有意义,自然就有读者,而非是你偷懒的理由。
花10min写完这个碎碎念,结束,欢迎交流你是如何学习一个新领域的,下面视频就是我后面要发的那篇你不知道的大模型训练文章的学习仓库,挺有意思,就录了一个视频给大伙看看我的工业化学习方式。
中文

刚刚下楼散步,看到两个宝妈在遛娃,两个很可爱的上幼儿园的小女孩,然后就听到了令人窒息的对话,一个宝妈对自己孩子说:“你看姐姐多厉害,都能喝中药!” 另一位炫耀道:“还是袋装的呢!”
太窒息了,这么小就喝中药,党哥@lidangzzz 是对的,有的宝妈真的很逆天又不自知,唉,太窒息了
中文

Qwen 今天发了 Qwen3.6-Plus,顺手把它接到 Claude Code 里试了下,效果比预期好不少。我让它帮我做一个工程师的个人作品网站,主要看审美和前端实现的表现,直接感受是这次质量提升很明显,Agentic Coding 也更清楚了。放到前端开发和长一点的任务里,它不会停在给你一段代码上,而是会自己接着拆需求、找路径、改代码、跑测试,发现问题再继续修,中间少了很多反复接手的地方。
这次另一个比较明显的点,这次任务拆解、规划、编码交付这条链路更好了,多模态和推理也基本到位了,图像、文本、视频这些输入能放到同一条链路里统一处理,接真实工程任务的感觉更完整,执行过程录了个视频,大伙有兴趣可以看看它是怎么一步步跑下来的。
中文
CHEN がリツイート
CHEN がリツイート

For the first time in over 50 years, humans are Moonbound.
At 6:35 p.m. EDT (2235 UTC) NASA’s Space Launch System rocket and the Orion spacecraft lifted off from the agency’s Kennedy Space Center in Florida, sending four astronauts on a planned test flight around the Moon and back. go.nasa.gov/4tlRfRS

English

Tony Feng和陶哲轩应该偷手了,很多问题没跟你讲。
如果你需要一个AI Agent解决一个数学家级别(top 50 Math PhD thesis)级别的问题,有概率发生两件事:
事件一:消耗极长的时间周期,直接给你解出来了(1%)
事件二:一看问题太难了,找一些逻辑漏洞,回答一个似是而非的问题(99%)
众所周知, Tony Feng和陶哲轩都在公开疯狂进军erdos问题,企图解决人类最后的600多个尚未解决的中等难度的数学大宝库benchmark,
而erdos问题里就大量存在这类问题,比如问“是否存在有限个A,使得……”,这个难度大概是100,
对于这种问题,如果你只扔给一个AI Agent,这个Agent大概率就会回答,
“对啊,我找到了7个有限的解,分别是1、2、3、4、5、6、7”,立刻降到了难度1,
因为它根本没有充分证明
“是否压根就不可能存在无限多个解,我能证明解的数量一定是有限的,有一个边界”,
它只证明了,
“对啊,我给你找了7个,7个就是有限多个,我给你找出来了,你得谢谢我”
然后似是而非地写个报告,写个lean project,能编译,给你把7个写出来了,给你简单写一下latex报告,就完事儿了。
这里有一个最核心问题,Tony Feng讲过,他和deepmind在用gemini 3 deep think + Aletheia进军erdos一些问题时,必须人工半辅助,人工半互动,在关键步骤需要人工challenge一下或者引导一下,
我猜如果不这么做,Tony Feng会发现他的agent会犯同样的错误。
这其实跟人是一样的,你给一个初中生扔一道top 50 PhD thesis级别的问题,初中生压力极大,必然做不出来,大概率随便写两句,假装逻辑通顺就混过去了。
但是这不是我的风格,我的风格是全自动,全全全自动,自动iteratively给出一个完美答案。
我不关心数学里面的细节,因为我也只是个省二,并且压根就没学数学这个垃圾安卓专业(张雪峰实名推荐),很多问题我压根看不懂。
一个初步的解决办法,就是使用goal-driven,让一个subagent持续完成,让一个master agent持续challenge你,从各个方面去攻击你的弱点,让subagent回去修改。
一个更好的解决方法,是存在的,我先自己试试,试出来我再告诉你们。
中文

@ewind_dev 也别太把 Claude Code 当回事,隔壁 codex 一直都是开源。不过,目前看来已经催生出了 instructkr/claw-code 这种拿 AI 完全重写的 Python 版了,史上最快 50k stars github repo
中文














