JKSD-9526 retweetledi
JKSD-9526
560 posts

JKSD-9526 retweetledi

Andrej Karpathy 是 OpenAI 联合创始人、前特斯拉 AI 总监,也是全球最有影响力的 AI 研究者之一。他刚刚发布了一篇 2025 年 LLM 年度回顾。
第一个大变化:训练方法的范式升级
2025 年之前,训练一个好用的大模型基本是三步走:预训练、监督微调、人类反馈强化学习。这个配方从 2020 年用到现在,稳定可靠。
2025 年多了关键的第四步:RLVR,全称是 Reinforcement Learning from Verifiable Rewards,翻译过来就是「可验证奖励的强化学习」。
什么意思?简单说,就是让模型在「有标准答案」的环境里反复练习。比如数学题,答案对就是对,错就是错,不需要人来打分。代码也一样,能跑通就是能跑通。
这和之前的训练有什么本质区别?之前的监督微调和人类反馈,本质上是「照葫芦画瓢」,人给什么样本,模型学什么样本。但 RLVR 不一样,它让模型自己摸索出解题策略。就像学游泳,之前是看教学视频模仿动作,现在是直接扔水里,只要你能游到对岸,怎么划水我不管。
结果呢?模型自己「悟」出了看起来像推理的东西。它学会了把大问题拆成小步骤,学会了走错路时回头重来。这些策略如果靠人类标注示范,根本标不出来,因为人自己也说不清「正确的思考过程」长什么样。
这个变化带来一个连锁反应:算力的分配方式变了。以前大部分算力砸在预训练阶段,现在越来越多算力用于 RL 阶段。模型的参数规模没怎么涨,但推理能力飙升。OpenAI 的 o1 是这条路的起点,o3 是真正让人「感觉到不一样」的拐点。
还有个新玩法:推理时也能花更多算力。让模型「想久一点」,生成更长的推理链条,效果就更好。这相当于多了一个调节能力的旋钮。
第二个大变化:我们终于搞懂了 AI 是什么「形状」的聪明
Karpathy 用了一个很妙的比喻:我们不是在「养动物」,而是在「召唤幽灵」。
人类的智能是进化出来的,优化目标是「在丛林里让部落活下去」。大模型的智能是训练出来的,优化目标是「模仿人类文本、在数学题里拿分、在评测榜单上刷分」。
优化目标完全不同,出来的东西当然也完全不同。
所以 AI 的智能是「参差不齐」的,英文叫 jagged intelligence。它可以在某些领域表现得像全知全能的学者,同时在另一些领域犯小学生都不会犯的错。上一秒帮你推导复杂公式,下一秒被一个简单的越狱提示骗走你的数据。
为什么会这样?因为哪个领域有「可验证的奖励」,模型在那个领域就会长出「尖刺」。数学有标准答案,代码能跑测试,所以这些领域进步飞快。但常识、社交、创意这些领域,什么是「对」很难定义,模型就没法高效学习。
这也让 Karpathy 对基准测试失去了信任。道理很简单:测试题本身就是「可验证环境」,模型完全可以针对测试环境做优化。刷榜变成了一门艺术。所有基准都刷满了,但离真正的通用智能还差得远,这是完全可能发生的事。
第三个大变化:LLM 应用层浮出水面
Cursor 今年火得一塌糊涂,但 Karpathy 认为它最大的意义不是产品本身,而是证明了「LLM 应用」这个新物种的存在。
大家开始讨论「X 领域的 Cursor」,这说明一种新的软件范式成立了。这类应用做什么?
第一,做上下文工程。把相关信息整理好,喂给模型。
第二,编排多个模型调用。后台可能串了一堆 API 调用,平衡效果和成本。
第三,提供专业场景的界面。让人类能在关键节点介入。
第四,给用户一个「自主程度滑杆」。你可以让它多干点,也可以让它少干点。
有个问题被讨论了一整年:这个应用层有多「厚」?模型厂商会不会把所有应用都吃掉?
Karpathy 的判断是:模型厂商培养的是「有通用能力的大学毕业生」,但 LLM 应用负责把这些毕业生组织起来、培训上岗,变成能在具体行业干活的专业团队。数据、传感器、执行器、反馈循环,这些都是应用层的活。
第四个大变化:AI 搬进了你的电脑
Claude Code 是今年最让 Karpathy 印象深刻的产品之一。它展示了「AI 智能体」应该长什么样:能调用工具、能做推理、能循环执行、能解决复杂问题。
但更关键的是,它跑在你的电脑上。用你的环境、你的数据、你的上下文。
Karpathy 认为 OpenAI 在这里判断失误了。他们把 Codex 和智能体的重心放在云端容器里,从 ChatGPT 去调度。这像是在瞄准「AGI 终局」,但我们还没到那一步。
现实是,AI 的能力还是参差不齐的,还需要人类在旁边看着、配合着干活。把智能体放在本地,和开发者并肩工作,才是当下更合理的选择。
Claude Code 用一个极简的命令行界面做到了这一点。AI 不再只是你访问的一个网站,而是「住在」你电脑里的一个小精灵。这是一种全新的人机交互范式。
第五个大变化:Vibe Coding 起飞了
2025 年,AI 的能力跨过了一个门槛:你可以纯用英语描述需求,让它帮你写程序,完全不用管代码长什么样。Karpathy 随手发了条推特,给这种编程方式起了个名字叫 vibe coding,结果这个词火遍全网。
这意味着什么?编程不再是专业程序员的专利,普通人也能做。这和过去所有技术的扩散模式都不一样。以前新技术总是先被大公司、政府、专业人士掌握,然后才慢慢下沉。但大模型反过来,普通人从中受益的比例远超专业人士。
不只是「让不会编程的人能编程」。对会编程的人来说,很多以前「不值得写」的小程序现在都值得写了。Karpathy 自己就用 vibe coding 做了一堆项目:用 Rust 写了个定制的分词器、做了好几个工具类 App、甚至写了一次性的程序只为找一个 bug。
代码突然变得廉价、即用即弃、像草稿纸一样随便写。这会彻底改变软件的形态和程序员的工作内容。
第六个大变化:大模型的「图形界面时代」要来了
Google 的 Gemini Nano Banana 是今年最被低估的产品之一。它能根据对话内容实时生成图片、信息图、动画,把回复「画」出来而不是「写」出来。
Karpathy 把这件事放到更大的历史脉络里看:大模型是下一个重大计算范式,就像 70 年代、80 年代的计算机一样。所以我们会看到类似的演进路径。
现在和大模型「聊天」,有点像 80 年代在终端敲命令。文字是机器喜欢的格式,但不是人喜欢的格式。人其实不爱读文字,读文字又慢又累。人喜欢看图、看视频、看空间布局。这就是传统计算机为什么要发明图形界面。
大模型也需要自己的「GUI」。它应该用我们喜欢的方式跟我们说话:图片、幻灯片、白板、动画、小应用。现在的 Emoji 和 Markdown 只是初级形态,帮文字「化个妆」。真正的 LLM GUI 会是什么样?Nano Banana 是一个早期暗示。
最有意思的是,这不只是图像生成的事。它需要把文本生成、图像生成、世界知识全部绞在一起,在模型权重里融为一体。
Karpathy 的总结是这样的:2025 年的大模型,比他预期的聪明,也比他预期的蠢。两者同时成立。
但有一点很确定:即使以现在的能力,我们连 10% 的潜力都没挖掘出来。还有太多想法可以试,整个领域感觉是敞开的。
他在 Dwarkesh 的播客里说过一句看似矛盾的话:
> 他相信进步会继续飞速推进,
> 同时也相信还有大量的工作要做。
两件事并不矛盾。2026 年系好安全带继续加速吧。

Andrej Karpathy@karpathy
中文
JKSD-9526 retweetledi

分享一个超实用的 AI Agent 实战教程仓库!🔥
实测是现在最好 AI Agent 教程
涵盖 17+ 种前沿 Agentic 架构,每个都配详细讲解 + 可直接运行的 Jupyter Notebook 代码
基于 LangChain & LangGraph 构建,结构清晰、易上手,从基础到高级逐步进阶
快速掌握 Reflection、ReAct、Multi-Agent、Tree of Thoughts 等热门架构,强烈推荐!
我把它翻译成了中文版本
GitHub: github.com/cryptowizard0/…
@nake13 @yangyi @frxiaobei
中文
JKSD-9526 retweetledi
JKSD-9526 retweetledi

(上面提过的和烂大街的就不写了)
ShareX,写了17年的开源免费截图分享编辑录屏工具;
Listary,启动器+与Everything同原理的文件查找+文件选择窗口自动与另一个文件夹窗口同步位置;
Fences,Stardock出品的桌面自动整理器;
Start11,只在Win11上用,用来还原开始菜单的Win10样式+一些别的新功能比如调用everything;
EnPass,密码管理器,用自己的云平台存储;
Directory Opus,多功能现代文件管理器;
AutoHotKey,用来自己写快捷键脚本,也可以用来映射按键;
Sunshine的某个国人fork,串流工具,搭配iOS客户端上的VoidLink(moonlight fork);
ludusavi,开源的游戏存档扫描备份工具;
Sysinternals Suite,被微软收购了的系统管理工具;
PowerToys,微软的power user工具套件;
Xshell+Xftp,SSH+SFTP工具,国际版个人用免费;
Magpie,开源的游戏画面放大工具,有些算法比较好;
GitKraken,可视化Git工具;
Typora,markdown读写;
Notepad++;
VMware Workstation 17.5.2,被博通收购以前的最后一个版本,老系统VMware Tools比较全,Unity也没被砍;
LockHunter,查询文件被谁锁定了;
Total Uninstall,主要用它的那个监视功能,观察系统文件变化;
WizTree,高速的磁盘空间管理软件,NTFS上扫描非常快;
Registry Workshop,顾名思义,比系统自带的好用;
UCheck+Patch My PC,效果比较好的更新检查器,免费可用;
Locale Emulator+LEShortcutCreator+Locale Remulator,转区运行某些游戏和软件;
yt-dlp,用于下载各种视频,远不止youtube能用;
Uniextract,开源工具,这个不是安装的软件,而是分析解压各种安装程序用的,加壳不严的话可以用它来解出绿色版;
K-Lite Codec Pack,解码器包,这个很显然不清真但是可以解决问题;
UWFUtility+一个自己写的脚本,开源,用于管理微软自带的UWF,高危或者不确定结果的操作前先开一波文件系统还原;
Diskgenius+图吧工具箱+Ventoy+微PE+Rufus,装机维护用
中文
JKSD-9526 retweetledi

今天在公司给同事们做了一场简短的AI分享会,我说了一下我日常如何用AI的,同事们觉得都很有收获,在这里也分享给大家。
日常工具
聊天工具: ChatGPT,Gemini,Qwen
学习工具: NotebookLM
输出工具:YouMind
编程工具:后端Codex,前端Antigravity
图片工具:Nano Banana Pro,Lovart
如何使用AI
和AI聊天
在聊天之前我要先想清楚我要问的问题属于什么维度,这里参照四象限,看图片一。
根据维度来选择沟通的方式,比如我要AI帮我做个数据清洗,这属于共识区,我直接把数据给他,让他给我清洗一下,提取我要的结构就可以了。
这里有个小技巧,我们让AI回答的时候让他基于思维框架来回答会出奇的好,比如:
SMART,5W2H,黄金圈,第一性原理,金字塔原理,SWOT,奥卡姆剃刀,二八法则。
具体用法就太多了,我就不一一举例,大家可以给到AI让其分一些应用场景
写提示词
文本创作类
1. 先搜集相关资料,我会使用Deep Research,比如我要写一个儿童绘本提示词,我会让调研一下一个好的儿童绘本要有什么核心要素
2. 告诉AI我要写一个提示词,会提供什么,我需要得到什么,然后提供调研的资料,让其出一个结构化的元提示词
修改一下元提示词,然后去使用,把结果给到AI,说要改进的地方,不断迭代
图片类
找对标,然后发给AI,生成一个json的元提示词,限制800字,然后改里面的主体结构等等
基本能复刻90%
如果对于自己的目标比较模糊,我们要学会让AI对我们进行提问,就是让AI问我们问题,来理清目标再写提示词。
AI进行编程
遵循spec规范驱动开发的原则,先写PRD,然后技术文档,然后列计划然后开发,测试
1. 写PRD,我一般是通过和AI沟通,然后不断PUA ,就是说一下自己的需求,然后不看第一版,直接开始不断PUA,一般效果能好不少。图二
2. 使用aistudio的Build模式进行快速原型开发,只开发前端功能
3. 代码拉下来到Antigravity进行调优
4. 然后可以让写测试用例,使用 chrome-dev-tool MCP进行自动化测试
5.后端编写我会用提示词先总结一个文档文件夹,看图三,然后使用专有的规则,会先读取私域知识库,然后再进行开发。
这种代码采用率会很高,但是要求就是在架构层面需要提前设计好,反正宗旨就是上下文越清晰,越准确,AI生成的质量越好。
对于从0到1的项目,就直接按照Sepc规则,生成技术文档,然后一步一步执行
关于企业化落地方案
我了解到市面上就以下几类,比较火,大家可以从这里面找一些我们可以做的
问答类
主要是是企业内知识库问答和ToC的智能客服
审核类
合同审核,然后一些流程审核
写报告类
比如写PRD,研报,季度汇报,规划等等
问述类
TextToSQL这种,比如老板直接说一句要第一季度报表,会查询数据库这种
我觉得可以看一BISHENG这个产品,我觉得公司部署一个是非常好的
AI信息源
我的AI信息流主要来自于以下三个
1.Waytoagi飞书文档,Waytoagi应该是国内最大的一个AI社群了,知识库非常的全面
2. aibase 这个会有很多AI导航和新闻一体化的,中文友好
3.自己搭建了符合我个人需求的一个获取外网的AI最新信息的网站
三个链接都放在评论区了



中文
JKSD-9526 retweetledi

小资金想要暴富,需要你有过人的学习能力,智商,自制力,专注力,信息渠道。换句话说,如果你有这些迟早会成功的。如果你都没有,你有过人的运气也行。
庞教主.edge🦭@kiki520_eth
小本金在任何周期都很难暴富 当然每轮都有,比如最近的深大 @GCsheng 的币安人生,几千美金翻到百万美金,玩meme这么多人,也就那么十几个人真正实现小本金暴富 在任何年代、任何行业,快速成功都是极小的概率,99.9%的币圈人这辈子都无缘暴富 其他圈子是99.99%,也就99.9%和99.99%的概率区别
中文
JKSD-9526 retweetledi

用 skills 做了一个 skills 的学习分享站,可能这就是所谓的“干中学”,也确实学到了很多,过程中实践出了几个重磅 skills,整个站在 fumadocs 基础上,多个skills 自己读取外部 URL 完成下载、撰写、翻译、制作封面图片等功能。
——
内容和代码包括我完成的 skills,以及准备skills 的过程和想法完全开源。欢迎查看、批评、讨论。
——
Skills 不是代码,它更是一种提高日常工作、处理事务的效率工具。我会持续发现、分享、制作 Skills,也希望各位给我留言,提供一些好的关于 skills 的内容和线索。
——
持续分享!
skills.deeptoai.com

中文
JKSD-9526 retweetledi

#Memecoin🧲 | $GOR 为什么说可能会跟随 $BONK 等优质IP的步伐,观点:
• Meme赛道新叙事:Meme分叉链
• $GOR 具备模因与应用双优秀属性潜质
𝕏 @lex_node
📑CA
71Jvq4Epe2FCJ7JFSF7jLXdNk1Wy4Bhqd9iL6bEFELvg
🗞️叙事:
$GOR IP角色来到《芝麻街》Oscar the Grouch(垃圾桶奥斯卡)由 Solana 联合创始人(@toly Toly)和推动者 @lex_node 的高频互动推动。嘲讽各公链是垃圾分叉叙事,将SOL分叉成 $SOL $GOR. 提议以 $GOR 为原生代币,打造一个以 Gorbagana为 logo 的 Solana 分叉链,围绕“垃圾”meme文化,讽刺现有区块链的“正统”叙事。
$GOR 《芝麻街》耳熟能详的IP以及分叉技术。$GOR 具备模因与应用双优秀属性潜质。是Meme赛道新叙事:公链与meme结合的分叉叙事。

Crypto北斗 · ᵃˡᵖʰᵃ@btc2ai
SOL 的联创,也是Solana Labs的首席执行官Toly。 @toly 高频度互动 $GOR DEV ,DEV还帖着CA。 71Jvq4Epe2FCJ7JFSF7jLXdNk1Wy4Bhqd9iL6bEFELvg 这种公众人物对meme的CA推文都会很敏感,不轻易互动,不是他们搞的CA就真有鬼了。加上符合当下块链与国际氛围的时事MEME.
中文
JKSD-9526 retweetledi

教你如何在 Codex CLI 里面用 SKILLs
1. 在你的项目目录下创建一个 “.claude/skills”目录,如果你不想提交到 git 就把 .claude 加到 .gitignore
注:也可以是任意其他目录,放在“.claude/skills”目录下有个好处就是 claude code 默认能使用,不需要额外配置。
2. 把你要用到 skill 复制到“.claude/skills”目录下(可以去 github.com/anthropics/ski… 这里找现成的)
3. 如果你需要用到哪个 skill,只需要手动 @ 一下相应的 skill 文件即可,比如:
> 请使用 @.claude/skills/artifacts-builder/SKILL.md ,创建一个 whiteboard 项目
也就是说只要你让 agent 去读取相应的 SKILL md 文件,就可以让 Agent 学会使用 SKILL。
这个方法不仅仅适用于 codex cli,也同样适用于 TRAE、Cursor、GitHub Copilot 这类 coding agent。
只能说 SKILL 的设计是想当超前的,而且跟 MCP 一样,并非 Claude Code 专属。




宝玉@dotey
深度体验TRAE SOLO 正式版,总结一点技巧(附完整可重现提示词和源码) 内容摘要:TRAE SOLO 模式评测,内含两个有价值的经验分享: 1. 如何借助 SubAgent 控制 MCP 工具上下文; 2. 在 TRAE SOLO 模式下一次性完成一个抓取网页内容生成 Markdown 的浏览器插件的提示词 正文:🧵
中文
JKSD-9526 retweetledi

Claude Skills 的潜力被大大低估了。
其实只靠一个 claude skill,就能取得非常好的 AI Partner 对话效果(可以看图对比)
——甚至说一个 Skill 就可以是一个 AI 产品
受益于 Claude Code 的 Agent 框架基础,以及 Kimi K2 thinking 的多轮工具调用能力,Agent 的记忆上限被大幅提升
我做了一个 AI Partner Skill 能够自主多步检索相关记忆 → 重建记忆逻辑 → 自主更新人格与用户画像,指导推理风格
最终给到极度拟人效果与深刻洞察~
这个「AI Partner Chat」Skill 也已经在 Github 上开源了,教程见公众号




中文
JKSD-9526 retweetledi

把 TED 系列,变成你的“英语私教” 🦜
深入使用了下 Youmind.ai,做了一个 TED 英语学习 SOP:
1)添加 Url 到素材库
2)一键生成 生词表、例句、扩展情景、模拟对话、听力填空、跟读脚本等,还能按水平(无经验/CET4/CET6/雅思/托福)与词汇量自动降级或进阶
3)实时边学边聊
4)聊完进行综合测试归档生词表
目标:用最少时间,做最有产出的学习。
👉 原始提示词我放在评论置顶

中文
JKSD-9526 retweetledi
JKSD-9526 retweetledi

JKSD-9526 retweetledi

下一波AI Agent热潮会以怎样的姿势出现? 简单谈谈看法:
1)名人币和各种MEME币的持续作妖带不来一场大的财富盛宴,只会榨干市场仅存的流动性,透支牛市的进程和预期。因为,大家预期总统币为“确定性机会”,看中的是其总统声誉和现实世界影响力背书效应,但逻辑显然不成立,川普打样了。
这类币逃不开零和博弈,结果只会让一小部分分人赚钱,大部分散户更大概率亏钱离场,会加剧市场的一二级结构性崩坏,从过去以VC驱动Builder为主体的平衡态变成纯pump发币造泡沫模式,一地鸡毛之后需要长时间的灾后重建。
2)AI Agent第一波是以 $GOAT 和 $ACT 为代表的 AI MEME热潮;第二波则是以 #ai16z、#Virtual 两家马车为代表的AI Infra演进叙事,出现了单体AI应用、框架标准、链化、DeFai等一系列价值细分赛道;第三波我倾向于在AI infra某个细分赛道抢先破局,且会走VC+社区双驱动的高门槛价值创造路径。
因为,虽然 ai16z 以开源社区创新为文化中轴带来了一波市场热度,但事实证明,这波AI Agent热潮并没有褪去MEME化的本质,大量web2的野生Dev和web3的骨灰级投机项目占了主场,使得市场短期涌现了大量披着“价值外衣”的AI MEME项目。所以,当 $TRUMP 这种更简单更有传播力的总统币MEME出现了,AI Infra市场很快就被打回了原型;
3)为什么会是VC+社区双驱动,纯VC币驱动会是失去社区化MEME发行的早期优势,显然不行,而纯MEME币驱动又会被背后的阴谋集团快速速通成为一波流的烂摊子,情况会更糟糕。
唯有VC早期切入给项目方提供基本的Build创新预期,降低Dev在MEME化发行阶段的融资需求,同时又增加背后阴谋集团速通的门槛,最终才能走出健康的链上资产发行和项目赋能平衡模式。
具体这样的平衡点如何把握,类似的项目会以怎样的形式冒出头,目前还很难给出答案。但大概率,DeFi+ AI (DeFai)会是一个潜在破局细分赛道。
因为AI Agent自主托管掌控资产可解决传统DeFi的人为Rug困局,同时AI Agent自主交易决策会集中显现AI Agent的应用能力,最关键是,AI Agent只是承接了DeFi的新前端,后端DeFi基础设施和链抽象等基础设施已经足够完善,可以快速检验AI Agent结合Crypto的场景落地价值。
最后,虽然AI Agent赛道短暂陷入了低迷,但一番彻底的洗牌之后,会涅槃重生一些有优秀Dev,有成熟产品PMF发展路径,有合理社区资产激励分配方案的项目。
当然,这都是基于内在价值的可持续性构想出来的赛道发展趋向,因为只有这样,在市场技术创新演进过程中,才有预期中的大牛市,多数人才能抓到属于各自的机会。
一旦市场脱离了价值创造的内核,“牛市”概念恐怕都不复存在了,因为,纯Gambling炒作的短期繁荣根本无关乎牛熊。
Note:知道很多人还是想让推荐Ticker,在趋势明朗之前,没办法在推特公开推荐,望理解。建议可在首页订阅我Substack专栏关注更多内容,谢谢大家。
中文
JKSD-9526 retweetledi

如果有监控 Solana 地址的需求,可以按需选择以下两个免费工具👇
Debot:debot.ai/?inviteCode=17…
Arkham:auth.arkm.com/register?ref=A…
中文

评论区凑够800个今年发财, 我会告诉你们在哪个位置抄,如果到不了,那就明年发财
Jerry Lee@Jerry_JieData
只是再一次给大家演示一下,我不是只会看涨,我也会看跌,我基本不会受情绪影响,当然我也会看错,不过我就纠正错误的速度非常快,还有人评价我总是错的,我已经把他们都拉黑了,这样才能维持我牛逼的形象,避免被新韭菜看到,这样方便我割他们
中文






