Roger

456 posts

Roger banner
Roger

Roger

@gerrox

🤖AI hardware | On-device AI 🚀技术分享 | 产品体验 | 认知刷新 🔗公众号:Rog3r

شامل ہوئے Şubat 2023
917 فالونگ148 فالوورز
پن کیا گیا ٹویٹ
Roger
Roger@gerrox·
Token 度量的是 tokenizer 吐出来的字符数,而不是实际消耗的算力。 两者之间的换算关系,在 Agent 场景里会因为 KV Cache 越来越模糊。 我觉得未来的计量单位可能是: • 有效推理次数 × 模型单价,忽略缓存因素,用户买单的是结果也不是过程 • 或者干脆用总算力消耗(FLOPs),可以不用区分大小模型 尤洋教授提到的 97:3 的 Input/Output 比例继续极端化带来的结果就是 System Prompt 越来越长,但真正被计费的「生成 Token」比例越来越小。 最后 Token 总量就只是一个「虚假繁荣」的指标。
Roger tweet mediaRoger tweet mediaRoger tweet media
中文
0
1
1
412
dontbesilent
dontbesilent@dontbesilent·
我将尽力证明:一切问题都是知识问题
中文
7
1
19
1.7K
Roger
Roger@gerrox·
怎么 Qwen 3.6 Plus 也开始学着 ChatGPT 开始落盘了。
Roger tweet media
中文
0
0
0
58
Roger
Roger@gerrox·
@Gracker_Gao 很好的思路,但是我在想有没有可能,就是需要区分场景,因此他们需要有不同的技艺,以及不同的 skills。如果这种情况下,我需要同步的就只是部分的记忆。暂时好像没有很好的解决办法。
中文
0
0
0
11
Gracker
Gracker@Gracker_Gao·
@gerrox 同步文件就可以了吧🤔 只保留主机上那个。文件的话两个电脑可以随时看。 工作电脑和 Openclaw 主机还是分开比较好
中文
1
0
1
43
Roger
Roger@gerrox·
平时自己在养的 OpenClaw,一个在主机上,一个在笔记本上。之前想的是,只要最后感觉哪个更好,那么直接复制它的 memory 和 skills,其实就能够复刻一个完整的 Agent。但是现在发现,因为使用上的不同,以及一些任务分派的不同,它们沉淀了不同的记忆,导致它们在一些能力上会有差异。可能 Agent A 干某一件事情更好,但是在另外一个任务上可能 Agent B 更擅长。因此现在有什么好的办法可以让 Agent A 和 Agent B 同步,或者说让它们能够合并起来,成为一个更加完整、更强的 Agent 吗?
中文
1
0
0
81
Roger
Roger@gerrox·
就按现在 AI 的这个发展速度,没有什么模型值得半年会员,甚至可能季度会员都没必要。之前谷歌 Gemini 才出来的时候,因为折扣,很多人觉得很划算。现在回头看,还有多少人在用 Gemini 呢?
中文
0
0
0
87
Roger
Roger@gerrox·
如何区分真知识和假知识?现在 X 上的推荐,同样一个东西被无数次地写,很多帖子看似不一样,但其实就是用 AI 重新洗了一道,真正的内核其实都没有变。就算是有信息量被重复多次,也不会有任何的增量。
中文
0
0
0
29
Roger
Roger@gerrox·
Marc Andreessen 在 a16z 办公室录 Latent Space 播客的时候,说了一句话: "Agent 的本质就是文件存储。" 紧接着他给了一个公式: **LLM + Shell + 文件系统 + Markdown + Cron + Heartbeat** Shell 诞生于 1979 年。文件系统更早。Cron job 在 Unix 很早的时候就已经存在。Markdown 是 2004 年 John Gruber 花了一个周末搞出来的。 除模型之外,每个组件我们都完全理解和掌握。 Agent 不需要神秘感。它的运作机制可以被阅读、被调试、被修改、被复制。它用的是我们用了五十年的工具,以从未有过的方式组合在一起。 --- ## 旧零件,新组合 软件行业的历史充满了「每个零件都是旧的,但组合起来创造了新范式」的故事。 浏览器是 HTTP + HTML + JavaScript 的组合。TCP/IP 协议套件里的每一个技术发明出来时都不新鲜。iPhone 是多点触控屏幕 + 移动操作系统 + App Store 的组合,没有一项是 2007 年才发明的。 Agent 的突破遵循同样的模式,但有一个根本性的差异:以前的组合解决的是功能问题,这次解决的是**自主性**问题。 Shell 给了 Agent 执行能力。文件系统给了它记忆。Markdown 给了它一种结构化但同时人类可读的存储格式。Cron 给了它时间感——不是被动响应,是到点触发。Heartbeat 给了它存在感——持续自我确认「我还活着」。 LLM 是这个组合里唯一的未知数,也是唯一的推理引擎。它让其他五个被动组件变成了主动系统。 关键在于:这个系统的状态不在代码里。在文件里。 这意味着你可以关掉 Agent,打开它的文件夹,用任何文本编辑器读完它的「脑子」——它知道什么、记得什么、计划做什么、怎么做的。你可以手动修改任何一个文件、改变它的行为、修复它的错误。 这在软件史上是第一次。 --- ## Unix 思维的回归 Marc 在播客里追溯到 OS/360。那是 IBM 在 1960 年代的大型机操作系统,一个巨型单体城堡。所有功能挤在一个臃肿的整体里,改一行代码需要重建整个系统。 Unix 的回应是:不要搞城堡。给我一个 Shell,给我一堆离散模块,让我用管道把它们串起来。每个模块只做一件事,做好一件事,然后通过标准接口和其他模块通信。 五十年后,Agent 是这个思维的延续,且走得更远。 一个 Agent 的架构本质上就是 Unix 哲学的具象化:LLM 是一个模块,可以替换;Shell 是一个模块,可以替换;文件系统是一个模块,可以替换。它们之间用文本接口通信——自然语言文本。 Marc 的判断很直接:MCP 和那些花哨的协议其实不需要。我们只需要命令行接口。 这句话在当下的 AI 基础设施争论中极其尖锐。所有人都在设计新协议、新标准、新的互操作框架。Marc 说:不需要。Bash 就够了。 Bash 已经是世界上最成熟的互操作协议。每一个软件都暴露了命令行接口。Agent 有了 Shell 访问权,它天然就和整个软件世界互通了。 --- ## 文件即状态 **你可以换掉底层 LLM,Agent 性格会变,但文件里存储的所有状态都保留着。** 换模型不换记忆。这是过去任何 AI 系统都做不到的事。ChatGPT 的记忆绑定在 OpenAI 的服务器上。Claude 的对话存在于 Anthropic 的数据库里。你无法带走它们。你无法迁移它们。你无法在本地备份它们。 文件系统状态的 Agent 可以做到。 你把整个 Agent 目录拷贝到另一台机器,加载一个不同的 LLM,它睁开眼睛,知道自己的文件在哪里,读了读自己的记忆文件,知道自己是谁、在做什么、昨天聊了什么——然后继续工作。 Marc 说的「Agent 有完整的内省能力」指的就是这个。它知道自己的文件,可以读取自己的文件,可以重写自己的文件。它能在运行中给自己添加新功能。不是比喻。是真的能。 历史上从未有广泛部署的系统拥有这种能力。 这句话需要拆开看。「自我内省」在计算机科学里不是新概念——反射、自省、元编程都有几十年历史。但它们都是代码层面的自省。一个程序能读自己的源代码,这没什么新鲜的。 Agent 的突破在于:它通过文本文件实现了**状态**的内省。状态不只是代码执行栈,而是它的信念、记忆、计划、身份。一个 Agent 读它的 memory 文件,就像一个人读自己的日记。区别在于,Agent 读完之后可以修改日记、改写记忆、给自己制定新规则——然后下次启动时,它会变成一个有微妙差异的自己。 跨模型迁移的能力更值得深想。今天用 GPT-5 跑一个 Agent,明天换成 Claude,后天换成某个开源模型。它的工具调用风格可能变了,回复语气可能变了,决策偏好可能变了。但它积累的知识文件、项目文件、配置文件都还在。 身份连续,能力可变。 这在人类历史上也没有对应物。一个最接近的类比可能是:你的大脑被换成了一个不同性格的人,但你的笔记本、日记、待办清单、通讯录全部原封不动。那个人拿起笔记本,读了读,开始接着你停下来的地方继续工作。 --- ## Computer Use 变得微不足道 Marc 提到一个现象:Computer Use 突然变得微不足道。 Agent 已经有了完整的 Shell 访问权限。给浏览器访问权,它就能操作一切。不需要专门的「computer use」接口,不需要专门的 API 封装。它直接操作操作系统,就像任何一个 Unix 用户一样。 这个视角的转换很重要。 我们一直在争论 Agent 需要什么权限、什么接口、什么安全框架。Marc 说:它已经有 Shell 了。一个有 Shell 访问权的 Agent 不需要任何额外的特权。它可以写脚本、装软件、操作文件系统、调度任务。浏览器访问权给了它 GUI 控制能力。 它已经完成了。 --- ## 软件的定义被改写了 如果 Agent 的本质是文件存储,如果它的状态在文件系统里而不是在源代码里,如果一个系统能完整理解并修改自己的运行状态——那我们对「软件」的定义就需要重写。 传统的软件是:代码定义行为,数据定义状态。代码和数据分离。用户和代码之间隔着编译器和运行时,中间的任何一层都不是用户能直接干预的。 Agent 打破了这个分层。 代码(prompt 和配置)是 Markdown 文件。数据(记忆和状态)也是 Markdown 文件。用户可以直接编辑这些文件来改变 Agent 的行为。Agent 自己也可以编辑这些文件来改变自己的行为。 软件和用户之间没有边界。软件自己就是用户,用户自己也成了软件的一部分。 Marc 说了一句很 Marc 的话:「如果我是 18 岁,我会把所有时间花在这上面。」 这不是因为他觉得 Agent 会赚大钱。a16z 已经在 Agent 基础设施上投了大量资金,他不需要为自己站台。这句话的力量在于:他看到的是范式层级的变化,和 1970 年代他看到 Unix 时一样。 他参与创造了 Web 浏览器。Web 的关键突破是什么?Marc 的答案是:假设有无限带宽的未来,押注人类可读的文本协议。View Source 功能是 Web 能爆发的核心原因——任何人都能右键点击任何网页、看到源代码、学会怎么做、做出自己的网页。 Agent 的文件系统就是新的 View Source。 任何人可以打开 Agent 的文件夹,看到它在想什么、在做什么、怎么做到的。这个透明度是 Web 爆发的核心逻辑在 AI 时代的重演。 youtube.com/watch?v=knx2wr…
YouTube video
YouTube
中文
0
1
1
130
Roger
Roger@gerrox·
这条推文底下涌现了一批产品,各自切进了 Pipeline 的不同环节。我把它们全部调研了一遍。 Obsidian Web Clipper 官方浏览器扩展(Chrome/Firefox/Edge/Safari),网页 → Markdown 的标准入口。 内建 Defuddle 引擎把 HTML 转成干净的 Markdown,保留引用和脚注。支持高亮标注、自定义模板、过滤器。所有内容以纯 Markdown 文件存储,离线可读。Obsidian 1.8.0 加入了图片本地保存功能,补齐了 Karpathy Pipeline 数据摄入的最后一块短板。 GitHub:github.com/obsidianmd/obs… 官网:obsidian.md/clipper Obsidian Karpathy Pipeline 的"操作系统"。笔记全部存在本地 Markdown 文件里,不锁定数据格式。4000+ 社区插件,双向链接、图谱视图、画板。跨平台(macOS/Windows/Linux/iOS/Android)。 免费版已经够用,商业版同步功能按需付费。 官网:obsidian.md Marp Markdown → 幻灯片的开源工具链(MIT 许可)。用 --- 分隔每一页幻灯片,支持导出 HTML/PDF/PowerPoint。提供 VS Code 扩展和 CLI 工具。 Obsidian 社区有 obsidian-marp-slides 插件,可以直接在 Obsidian 里撰写和预览 Marp 幻灯片。对应 Karpathy Pipeline 的 "Output" 环节——用 Markdown 写研究报告的同时,一键生成演示文稿。 官网:marp.app GitHub:github.com/marp-team/marp D-PC Messenger MVP 阶段的开源项目(v0.20.0,多许可证),直接回应 Karpathy 那句 "there is room here for an incredible new product"。 定位:Karpathy 的工作流是单人版,D-PC 做的是多人协作版。人类与 AI 的对话变成 "Knowledge Commits"——结构化、可验证、git 版本控制。P2P 加密通信,数据完全在本地设备上。还提出了 P2P 算力共享——可以借用朋友的 GPU 跑 LLM。 核心观点:你的知识上下文应该像 DNA 一样——可移植、可演化、完全由你控制。 10-20 年后,当 AI 助手和脑机接口普及,你积累的 "Knowledge DNA" 将决定你在 AI 增强社会中的认知能力。 这个项目的野心比"知识库协作"大得多。 GitHub:github.com/mikhashev/dpc-… OriginTrail DKG V10 区块链 + 知识图谱的结合体。它要解决的是 Karpathy Pipeline 最明显的短板:本地、不可验证、数据孤岛。 DKG(Decentralized Knowledge Graph)把知识资产锚定在多链上,形成可验证、不可篡改的全局知识图谱。V10 版本引入了 multi-agent memory(多智能体记忆)、agent-native payments(原生代理支付)、context oracle(上下文预言机)。 在 DKG 的架构里,Karpathy 的 Wiki 只是每个 Agent 的 Working Memory——局部的、临时的。DKG 往上加三层:Shared Working Memory(协作暂存区)、Long-term Memory(链上永久记录)、Verified Memory(多方签名背书)。 这解决的是多 Agent 协作中的知识可信度问题,个人笔记用不上。 官网:origintrail.io GitHub:github.com/OriginTrail/dk… Friday Notebook AI 驱动的研究笔记本。核心功能:把研究笔记、时间线、原始输入组织成 Topic,然后自动生成 Wiki,并且随时间持续优化。 Friday LiveApps 可以把 Wiki 转成轻量工作区、Markdown 文件、可复用的输出格式。Friday Search 可以做深度研究——提出复杂问题,AI 自动探索网页、分析来源、输出洞察。 和 Karpathy Pipeline 最接近的现成产品方向。差别是 Karpathy 是 DIY 脚本拼接,Friday 是集成产品。 官网:friday.inspiredone.ai
Andrej Karpathy@karpathy

LLM Knowledge Bases Something I'm finding very useful recently: using LLMs to build personal knowledge bases for various topics of research interest. In this way, a large fraction of my recent token throughput is going less into manipulating code, and more into manipulating knowledge (stored as markdown and images). The latest LLMs are quite good at it. So: Data ingest: I index source documents (articles, papers, repos, datasets, images, etc.) into a raw/ directory, then I use an LLM to incrementally "compile" a wiki, which is just a collection of .md files in a directory structure. The wiki includes summaries of all the data in raw/, backlinks, and then it categorizes data into concepts, writes articles for them, and links them all. To convert web articles into .md files I like to use the Obsidian Web Clipper extension, and then I also use a hotkey to download all the related images to local so that my LLM can easily reference them. IDE: I use Obsidian as the IDE "frontend" where I can view the raw data, the the compiled wiki, and the derived visualizations. Important to note that the LLM writes and maintains all of the data of the wiki, I rarely touch it directly. I've played with a few Obsidian plugins to render and view data in other ways (e.g. Marp for slides). Q&A: Where things get interesting is that once your wiki is big enough (e.g. mine on some recent research is ~100 articles and ~400K words), you can ask your LLM agent all kinds of complex questions against the wiki, and it will go off, research the answers, etc. I thought I had to reach for fancy RAG, but the LLM has been pretty good about auto-maintaining index files and brief summaries of all the documents and it reads all the important related data fairly easily at this ~small scale. Output: Instead of getting answers in text/terminal, I like to have it render markdown files for me, or slide shows (Marp format), or matplotlib images, all of which I then view again in Obsidian. You can imagine many other visual output formats depending on the query. Often, I end up "filing" the outputs back into the wiki to enhance it for further queries. So my own explorations and queries always "add up" in the knowledge base. Linting: I've run some LLM "health checks" over the wiki to e.g. find inconsistent data, impute missing data (with web searchers), find interesting connections for new article candidates, etc., to incrementally clean up the wiki and enhance its overall data integrity. The LLMs are quite good at suggesting further questions to ask and look into. Extra tools: I find myself developing additional tools to process the data, e.g. I vibe coded a small and naive search engine over the wiki, which I both use directly (in a web ui), but more often I want to hand it off to an LLM via CLI as a tool for larger queries. Further explorations: As the repo grows, the natural desire is to also think about synthetic data generation + finetuning to have your LLM "know" the data in its weights instead of just context windows. TLDR: raw data from a given number of sources is collected, then compiled by an LLM into a .md wiki, then operated on by various CLIs by the LLM to do Q&A and to incrementally enhance the wiki, and all of it viewable in Obsidian. You rarely ever write or edit the wiki manually, it's the domain of the LLM. I think there is room here for an incredible new product instead of a hacky collection of scripts.

中文
0
1
4
187
Roger
Roger@gerrox·
Karpathy 的 LLM 知识库 Pipeline 整个 Pipeline 用一句话概括:把互联网上的原始信息扔进 LLM,LLM 帮你编译成结构化的 Markdown 知识库,然后你用这个知识库回答任何问题。 展开来有 7 个环节: 1. Data Ingest(数据摄入) 原始资料——论文、文章、代码库、数据集、图片——全部丢进一个 raw/ 目录。用 Obsidian Web Clipper 把网页裁切成 Markdown,图片同步下载到本地。 核心逻辑很直接:数据格式统一为 Markdown,LLM 才能高效处理。 信息散落在 PDF、截图、浏览器书签、各种 SaaS 产品里,LLM 无从下手。 2. Wiki Compilation(维基编译) LLM 把 raw/ 里的原始材料编译成结构化的目录树。自动分类、写摘要、建立双向链接、把相关概念整合成专题文章。 这个 Wiki 不是人写的,是 LLM 写的。人只负责往 raw/ 里丢东西,剩下的交给模型。 3. IDE(前端界面) 用 Obsidian 当编辑器,看原始数据、看编译好的 Wiki、看 LLM 生成的可视化。Karpathy 几乎不手写内容,Obsidian 只是"浏览器"。 Obsidian 的插件生态让输出格式可以切换。比如 Marp 插件——把 Markdown 直接转成幻灯片。 4. Q&A(对话式查询) Wiki 够大之后(Karpathy 自己的某个研究 Wiki 有约 100 篇文章、40 万字),可以直接向 LLM Agent 提问。Agent 会自动维护索引文件,读取相关文档,给出结构化回答。 Karpathy 原话:我以为需要搞 fancy 的 RAG 方案,结果 LLM 自己维护索引就够了,至少在这个规模是这样。 5. Output(多样化输出) 回答不只是一段文字。LLM 可以生成 Markdown 文件、Marp 幻灯片、matplotlib 图表。这些输出又被归档回 Wiki 里,成为知识库的一部分。 每次提问都在"增值"。你的探索不是用完即弃的。 6. Linting(维护与校验) 定期跑 LLM "健康检查"——找矛盾数据、补全缺失信息(配合 Web 搜索)、发现新文章候选、提出下一个值得研究的问题。 LLM 很擅长提出下一步该问什么。 7. Extra Tools + Future Explorations(工具链扩展) Karpathy 自己 vibe code 了一个简易搜索引擎,既可以自己在 Web UI 里用,也交给 LLM Agent 作 CLI 工具处理更大规模的查询。 更长远的方向:用 Wiki 数据做 synthetic data generation + finetuning,让 LLM 把知识内化到权重里,不再依赖上下文窗口。
中文
0
0
0
76
Roger
Roger@gerrox·
你的同事不是离职了,之前变成了 token 陪着你
Roger tweet media
中文
0
0
0
39
Roger
Roger@gerrox·
@Gorden_Sun huggingface 上基于 Opus 蒸馏的 Qwen3.5 27B 更强,agent 能力也蛮够用的
中文
1
1
12
5K
Gorden Sun
Gorden Sun@Gorden_Sun·
Gemma 4和Qwen3.5 27B的评分对比 基本每一项都是Qwen3.5 27B领先。
Gorden Sun tweet media
中文
35
11
144
52.3K
Roger ری ٹویٹ کیا
jack
jack@jack·
everything is programming
English
2.6K
3.7K
23.2K
1.4M
Roger
Roger@gerrox·
从 Claude Code 编译源码中提取的所有硬编码提示词、指令、系统消息和模板字符串。 github.com/roger2ai/claud…
中文
2
0
0
102
Roger
Roger@gerrox·
@StarWindv9 下来试试,我这两天让 ai 自己尝试把缺的依赖自己尝试实现,现在 chrome control 和 computer use 都已经跑通了,还在调试
中文
0
0
0
175
Roger
Roger@gerrox·
昨天泄露的 Claude Code 源码是没法直接编译的,因为缺乏依赖文件。 于是修复了所有缺失文件、断裂引用和运行时错误,使其可以正常编译运行。 经测试,主力工具(Bash、文件读写、搜索、WebFetch)都正常。 github.com/roger2ai/Claud…
中文
8
43
265
26.4K
Roger
Roger@gerrox·
最近一周用 xiaomi mimo v2 pro 跑 Openclaw 感觉效果还可以,长期来看模型成本肯定还是能下降的,说不定 ds4 出来后,agent 的成本就打下来了。
中文
2
0
0
213
Roger
Roger@gerrox·
昨天修复了泄露的 Claude Code 源码,能够在本地编译运行,今天对 Claude Code 的内部架构进行了深度拆解,同时针对不同领域的方向进行了更加系统的分析。 你能学到: - Agent 循环如何工作(状态机、7 种 transition 原因、pre-API pipeline) - 上下文管理如何防止窗口溢出(6 层防线、autocompact、microcompact) - 工具系统如何构建(40+ 工具、Zod schema、流式执行) - Bash 命令如何被安全保护(23K 行解析器 + 安全引擎) - 多 Agent 协调如何实现(leader-worker、4 种 backend、权限同步) - 插件如何扩展系统(marketplace、MCPB、生命周期管理) - 记忆如何跨会话持久化(3 层架构、forked agent 提取) 推荐阅读顺序: 构建 Agent 框架: 架构 → 上下文管理 → 工具系统 关注安全: 安全 → Bash 解析器 + 安全引擎 构建插件系统: 插件系统 → 加载器 + 市场 做多 Agent: Agent 系统 → swarm + backend + 权限 调试 Claude Code: 支撑系统 → 记忆 + 技能 github.com/roger2ai/claud…
中文
0
0
3
488
Roger
Roger@gerrox·
本项目对 Claude Code 的内部架构进行了深度拆解,同时针对不同领域的方向进行了更加系统的分析。 你能学到: - Agent 循环如何工作(状态机、7 种 transition 原因、pre-API pipeline) - 上下文管理如何防止窗口溢出(6 层防线、autocompact、microcompact) - 工具系统如何构建(40+ 工具、Zod schema、流式执行) - Bash 命令如何被安全保护(23K 行解析器 + 安全引擎) - 多 Agent 协调如何实现(leader-worker、4 种 backend、权限同步) - 插件如何扩展系统(marketplace、MCPB、生命周期管理) - 记忆如何跨会话持久化(3 层架构、forked agent 提取) 推荐阅读顺序: 构建 Agent 框架: 架构 → 上下文管理 → 工具系统 关注安全: 安全 → Bash 解析器 + 安全引擎 构建插件系统: 插件系统 → 加载器 + 市场 做多 Agent: Agent 系统 → swarm + backend + 权限 调试 Claude Code: 支撑系统 → 记忆 + 技能 github.com/roger2ai/claud…
中文
2
0
1
149
Roger
Roger@gerrox·
持续修复 Claude Code 中
Roger tweet media
日本語
0
0
0
309
Roger
Roger@gerrox·
基于构建的 Claude Code 能够干的事太多了,Chrome Control, Computer use 都可以基于当前的框架自实现。 有了 AI,反而觉得自己的时间更不够了,因为想做的事太多了。人为什么要睡觉,AI 都不用睡觉。
Roger tweet media
Roger@gerrox

昨天泄露的 Claude Code 源码是没法直接编译的,因为缺乏依赖文件。 于是修复了所有缺失文件、断裂引用和运行时错误,使其可以正常编译运行。 经测试,主力工具(Bash、文件读写、搜索、WebFetch)都正常。 github.com/roger2ai/Claud…

中文
0
0
0
180