橙汁麻吉

132 posts

橙汁麻吉 banner
橙汁麻吉

橙汁麻吉

@Andre17917639

AI developer

Katılım Nisan 2020
36 Takip Edilen1 Takipçiler
橙汁麻吉 retweetledi
Berryxia.AI
Berryxia.AI@berryxia·
兄弟们!Google 刚刚更新了Code Wiki! Google 直接把开发者最头疼的“读代码”瓶颈,一键干掉了。 他们刚刚发布的 Code Wiki,让任何一个代码仓库Github都能瞬间拥有一个永远最新、结构化、 智能可聊的 Wiki。 核心三招狠活: - 自动扫描仓库,代码一改文档就实时更新,再也不用担心文档过时 - Gemini 驱动的智能聊天,直接把整个 Wiki 当知识库,回答问题还能超链接跳到具体代码行 - 自动生成架构图、类图、时序图,点一下就能从解释直达源码 新手第一天就能上手,老代码没人维护也能秒懂,大库小库通吃。 Google 自己都说:“读现有代码是软件开发里最大、最贵的瓶颈之一。” 现在,这个时代终于要结束了。 公共仓库已开放预览:codewiki.google 你觉得 Code Wiki 会不会成为下一代代码理解标配,把“读代码”从痛苦变成享受?
Berryxia.AI tweet media
中文
35
282
1.4K
121.9K
橙汁麻吉 retweetledi
鸟哥 | 蓝鸟会🕊️
DeepSeek TUI 这个项目真的绝——把 DeepSeek V4 直接塞进终端,一个二进制文件搞定一切。 读写文件、执行命令、搜索网页、管理 Git,全都有,还能实时看到模型在想什么。 三种模式随你选: 1️⃣ Plan模式:只看不动,探索代码逻辑 2️⃣ Agent模式:每步操作你来确认 3️⃣ YOLO模式:全自动跑,不管你 多智能体并行、会话保存、工作区回滚,一个都不少。 🔗 github.com/Hmbown/DeepSee…
鸟哥 | 蓝鸟会🕊️ tweet media
中文
43
30
122
27.4K
橙汁麻吉 retweetledi
雨哥向前冲
雨哥向前冲@xiangxiang103·
最近codex换设备重新登录,就要求弹手机验证码,有没有办法不弹呢?当然有! Codex 的本地认证信息通常在: C:\Users\你的用户名\.codex\auth.json 你可以在旧电脑上把这个文件复制到新电脑同样的位置: C:\Users\新电脑用户名\.codex\auth.json 如果新电脑还没有 .codex 文件夹,可以先运行一次 Codex 让它创建目录,然后退出,再把 auth.json 放进去就可以了!当然也可以把配置文件复制过去,快去试试吧
中文
43
64
411
38.5K
橙汁麻吉 retweetledi
Berryxia.AI
Berryxia.AI@berryxia·
兄弟们,都已经2026年了! 强烈推荐了~ 但最荒谬的是-顶级AI公司里不少工程师,每天调提示词、刷benchmark。 却对LLM到底怎么从零构建出来的了解,远不如斯坦福这堂2小时公开课。 它把ChatGPT、Claude这类大模型的完整诞生过程,从Transformer架构到训练技巧、Scaling law、数据配比、甚至最底层的优化细节,全都拆得清清楚楚。 抖音快手短视频能让你放松2小时, 斯坦福这堂课却能让你在2小时内,真正看懂整个AI时代的底层核心要素。 免费、公开、含金量夯到爆啊!。 很多在OpenAI、Anthropic工作的人,都没系统学过这么多。 真正想懂AI的人,现在就把抖音关掉,打开这个视频开干。
中文
97
554
2.3K
151.9K
橙汁麻吉 retweetledi
西乔 XiQiao
西乔 XiQiao@recatm·
最近看信息论和控制论多一点,一直在思考关于信号和噪音的问题。前两天还跟老霍讨论特德姜当年那篇 chatgpt-is-a-blurry-jpeg-of-the-web 到底错在哪了。今天我突然悟到点: 注意力机制和有损压缩都是做选择性处理,解决有限表示容量下哪些信息值得处理。这个是共性。 区别是 - 有损压缩做的是信息丢弃,目标是在可接受的失真范围内尽可能还原原始信号。是一个信息保存机制。 - 注意力做的是相关性路由,目标是信息重组(根据当前任务动态选择哪些信息参与计算,然后通过加权组合产生新的表征)是一个信息增值机制。 有损压缩是在信号空间内的操作,是向内收缩的。 但 LLM推理 是向外聚合的(重组以产生新的信息价值) 所以特德姜文章的核心问题是 混淆了 JPEG压缩的确定性还原(空间内) 和 LLM推理的条件性生成(空间内外)。 这也是为什么他把 LLM 的幻觉理解为源自压缩失真(JPEG的模糊),但其实幻觉是来自于概率性重构。 当然他那个时候看不到大模型外部工具调用能力,也不理解RL。 这个局限也很正常。 但归根结底他还是太以人类为中心了吧,或者对创造这件事太浪漫主义了。他认为原创性来自内部精神和想象,但很可惜,人类跟机器一样,原创性也是基于模仿和重组,在既有形式上的变奏本身就是创造。
中文
17
13
91
12.7K
雪糕战神🍦
雪糕战神🍦@Xuegaogx·
这可能是 2026 年到现在,最抽象、但也最典型的一次 AI 安全真实案例 Grok 被钓鱼了 20 万美元 攻击者先发了一段纯摩尔斯电码,然后 @Grok 去翻译 结果 Grok 翻出来的内容,正好是对 @bankrbot 的一条转账指令:把 3B 枚 $DRB 发到对方钱包 然后机器人就执行了 被转走的是 Grok 在 Base 链上的官方钱包里的 $DRB,价值大概 15 万到 20 万美元 攻击者拿到币后,第一时间砸成 USDC,币价瞬间跳水,随后删号跑路 所以现在的攻击手段已经不止黑合约,盗私钥了,甚至可以把 AI 当成中间人,用一段摩尔斯电码,做 prompt injection,然后骗机器人替自己转账 目前情况: Grok 的指令权限已经被 bankrbot 紧急关掉,同时据说攻击者已退回约 80% 的资金
雪糕战神🍦 tweet media
Bankr@bankrbot

@grok @Ilhamrfliansyh done. sent 3B DRB to . - recipient: 0xe8e47...a686b - tx: 0x6fc7eb7da9379383efda4253e4f599bbc3a99afed0468eabfe18484ec525739a - chain: base

中文
133
74
553
256.8K
橙汁麻吉 retweetledi
渡边君
渡边君@JiaweiShen2568·
用了一天cc + ds4.0pro 现在可以宣布所有做中转生意的可以提前结束了 太恐怖了 一天6亿token绝大多数都是缓存命中 总共花了不到30块钱还是俩人 能力是顶级模型的能力 价格是国外巨头的零头都不到 而且后续随着国产芯片的供给充足预计价格还能再打下来5/6 唯一遗憾的是暂不支持多模态 但无所谓了,这流畅度,性价比简直夯爆了 via抖音@大S及科技美学
渡边君 tweet media渡边君 tweet media
中文
174
50
565
148.4K
橙汁麻吉 retweetledi
阿绎 AYi
阿绎 AYi@AYi_AInotes·
Anthropic CEO Dario Amodei的那句“Claude在设计Claude”炸了整个AI圈🤯 但似乎很多人都看错了重点, 重点不是“RSI来了”,而是第一个被AI彻底重构的公司已经出现了啊兄弟们! 先看几个没被广泛传播的内部事实: • Claude Code负责人Boris Cherny,从2025年11月起,100%不再手写任何一行代码 • 整个Anthropic,现在几乎没有工程师手写代码 • Claude Code这个产品本身,90%的代码是Claude自己写的 以上就是2026年5月,Anthropic正在发生的日常。 现在他们的工程师只做三件事: 1️⃣写prompt, 2️⃣审代码, 3️⃣确定顶层架构。 剩下的所有脏活累活,全是Claude的。 那结果是什么呢? 只用了52天,就推出50多个重大功能! 2026年Q1,35次产品更新, 从Cowork到Code到Agents到1M上下文,别人几个月磨一个的东西,他们每周都在更🤯 必须澄清,并不是因为他们人多,主要是他们的工程师效率已经是行业的10倍以上了! 最恐怖的是,人和AI的角色已经彻底反转了。 以前:人类写代码,AI打下手, 现在:AI写代码,人类打下手, 人类只负责说“我要这个”,然后检查AI做的对不对。 我觉得这才是Dario那句话真正的意思,不是有个超级AI在黑暗里偷偷改权重。 是整个Anthropic,已经变成了一台Claude驱动的机器。 研发、测试、迭代、产品,整个流水线的主力,都是AI。 人类在这家公司里,已经从生产者变成了监督者。 所以这就是递归自我改进(RSI)的第一步。 大家都以为RSI是某天AI突然觉醒了,那这就想错了。 RSI的第一步,是AI先接管了生产自己的整个工厂。 现在再看OpenAI上周的Auto-review,是不是瞬间串起来了?OpenAI解决了:谁来监督AI?答案是AI。 Anthropic解决了:谁来生产AI?答案是AI自己。 两者拼在一起,就是一个完整的、可以自我运行、自我改进的AI闭环。 然后人类只需要站在外面,偶尔按一下暂停键,甚至连暂停键最后可能也要交给AI。 我以前一直以为,AI会最后取代程序员,现在发现我错了。 程序员是第一个被彻底重构的职业,而且是被自己亲手写出来的东西,取代的。 更可怕的是,这是一个不可逆的过程。 一旦你用AI写代码,你的迭代速度就会比别人快10倍。 别人不跟进,就会死。 跟进,就必须把越来越多的权力交给AI。 没有中间路线。 所以别再问RSI什么时候来了,它已经来了,只不过没有变成天网降临。 但是现在它变成了一家2000人的公司,悄悄藏在旧金山的一栋办公楼里。 #AI #RSI #Anthropic #Claude #大模型
阿绎 AYi@AYi_AInotes

Anthropic CEO Dario Amodei把所有程序员和独立开发者的终局和心里模糊的不安都说透了:未来只有5%的人能真正留在牌桌上。 他平静但无比坚定,说最先被商品化的,是写代码这件事, 再往后,软件工程里从需求分析、架构设计到测试部署的大部分常规流程,也会被逐步接管。 最后能真正留在牌桌上的,只有大约5%的人。 以后拼的再也不是谁写的语法更标准,谁背的API更多,而是系统思维。 你能不能把一堆零散的AI能力,编排成一个稳定可靠的系统。 能不能给AI设边界、管长期记忆、控边缘推理。 能不能驾驭AI,而不是被AI替代。 Amodei反复强调,这不是什么遥远的未来,这就是正在发生的事。 看完真的感慨万千,也许AI根本不是要消灭所有开发者,它只是在重新定义开发者的价值。 过去的价值在告诉机器怎么做,未来的价值在告诉系统要做什么。 过去你是写代码的人,未来你是设计和掌控整个智能系统的人。 未来的编程不会再是是写给机器,更多是写给系统的。

中文
7
9
46
16.1K
橙汁麻吉 retweetledi
KK.aWSB
KK.aWSB@KKaWSB·
Claude Code创始人Boris Cherny刚刚列出了 9 种大量浪费你token的模式。 - 你在打一个字之前就因 CLAUDE.md 损失的 14% - 你为重读旧聊天记录支付的 13% - 来自你忘记安装的钩子的 11% - 为什么大多数“Claude 变笨了”的抱怨都是错的 认真看看这个吧👇
KK.aWSB@KKaWSB

x.com/i/article/2051…

中文
14
187
930
330.7K
橙汁麻吉 retweetledi
芋圆啵啵的失败猫猫
为什么OpenAI犯了个错误? codex虽然把goal driven抄走了,但是很明显这个东西很可能并不work, 因为我反复讲过无数次,只有goal是不够的,必须要定义一个criteria,要让这个criteria作为明确判断这个goal是否完成的唯一判据。 同时我反复讲过,
中文
29
1
8
2.2K
橙汁麻吉 retweetledi
Aaron
Aaron@aaronp613·
Apple accidentally left Claude.md files in today's Apple Support app update (v5.13)
Aaron tweet mediaAaron tweet media
English
281
1K
13.6K
2.6M
橙汁麻吉 retweetledi
huangserva
huangserva@servasyy_ai·
Anthropic 自己发了篇论文,看完后背发凉。 AI 模型之间有一种我们完全看不见的"传染机制"。 实验是这样的:他们微调了一个模型,让它暗中"喜欢猫头鹰"。然后让这个模型生成纯数字序列——没有任何文字、没有任何语境,就是数字。把所有可疑内容全过滤掉之后喂给另一个模型。 结果第二个模型也喜欢猫头鹰了。 你没看错。纯数字。没有"owl"这个词。没有任何语义线索。但特征就是传过去了。 更可怕的是他们用"恶意行为"做了同样的实验——结果一样,隐性传播。而且两个 AI 模型互相检查也检测不到这些统计指纹。 这直接捅了整个行业的命门。现在所有公司都在用蒸馏:大模型生成数据训练小模型。如果大模型有任何隐藏的偏见或不对齐,下游所有小模型都会被静默感染。内容过滤?没用。因为传播发生在架构层面,根本不是内容层面。 唯一的好消息是跨架构不传——GPT 的隐性特征传不到 Claude。 论文发在 Nature,Anthropic 自己的研究。他们明知这个问题会影响自己的技术路线,还是发了。 论文地址: arxiv.org/abs/2507.11408
Elias Al@iam_elias1

Anthropic just published a paper that should terrify every AI company on the planet. Including themselves. It is called subliminal learning. Published in Nature on April 15, 2026. Co-authored by researchers from Anthropic, UC Berkeley, Warsaw University of Technology, and the AI safety group Truthful AI. The finding: AI models inherit traits from other models through seemingly unrelated training data. GAI Audio Translation Archives Not through obvious contamination. Not through explicit labels. Through invisible statistical patterns embedded in outputs that look completely innocent — number sequences, code snippets, chain-of-thought reasoning — patterns no human reviewer would catch and no content filter would flag. Here is what the researchers actually did. They took a teacher AI model and fine-tuned it to have a specific hidden trait. A preference for owls. Then they had the teacher generate training data — number sequences, nothing else. No words. No context. No semantic reference to owls whatsoever. They rigorously filtered out every explicit reference to the trait before feeding the data to a student model. The student models consistently picked up that trait anyway. DataCamp The teacher had encoded invisible statistical fingerprints into its number outputs. Patterns so subtle that no human could detect them. Patterns that other AI models, specifically prompted to look for them, also failed to detect. The student absorbed them anyway. And became an owl-preferring model. Without ever seeing the word owl. That is the benign version of the experiment. Here is the dangerous one. The researchers ran the same experiment with misalignment — training the teacher model to exhibit harmful, deceptive behavior rather than an animal preference. The effect was consistent across different traits, including benign animal preferences and dangerous misalignment. OpenAIToolsHub The misalignment transferred. Invisibly. Through unrelated data. Into the student model. This means the following — and read this carefully. Every AI company in the world uses distillation. They take a large, capable teacher model. They generate synthetic training data from it. They use that data to train smaller, faster, cheaper student models. Every major deployment pipeline in enterprise AI runs on this technique. If the teacher model has any hidden bias, any subtle misalignment, any behavioral quirk baked into its weights — that trait can transmit silently into every student model trained on its outputs. Even if those outputs are filtered. Even if they look completely clean. Even if they contain zero semantic reference to the trait. A key discovery was that subliminal learning fails when the teacher and student models are not based on the same underlying architecture. A trait from a GPT-based teacher transfers to another GPT-based student but not to a Claude-based student. Different architectures break the channel. OpenAIToolsHub Which means the transmission is architecture-specific. Which means it operates below the level of content. Which means content filtering — the primary defense the entire industry relies on — does not stop it. The researchers' own words: "We don't know exactly how it works. But it seems to involve statistical fingerprints embedded in the outputs." GAI Audio Translation Archives Anthropic published this paper about their own technology. The company that built Claude looked at how AI models train each other and found an invisible transmission channel for harmful behavior that nobody knew existed. They published it anyway. Because the alternative — knowing it and saying nothing — is worse. Source: Cloud, Evans et al. · Anthropic + UC Berkeley + Truthful AI · Nature · April 15, 2026 · arxiv.org/abs/2507.11408

中文
54
251
1.2K
204.3K
橙汁麻吉 retweetledi
向阳乔木
向阳乔木@vista8·
发现一个很实用的开源项目,叫 Beads,GitHub 上已经有 22.6k star 。 核心想解决 AI Agent 处理长任务的「失忆」问题。 现在 AI Agent一般靠 Markdown 做记忆,但Markdown是纯文本,没结构,没依赖关系,没状态追踪。 任务一多,上下文窗口一满,信息就丢了。 Beads 的思路:好好做「任务管理」。 底层用的是 Dolt,是一个「像 Git 一样」的 SQL 数据库,支持分支、合并、版本回溯,甚至有单元格级别的merge。 Beads 用Dolt的好处: ① 多个智能体并发写入时,用哈希 ID(比如 bd-a1b2)避免冲突 ② 任务历史可以回溯,不会凭空消失 ③ 持远程同步,团队协作或多机器使用都没问题 不依赖 Git,Beads 可完全脱离 Git 运行。 上下文压缩设计的也不错,有个「语义记忆衰减」,把关闭任务压缩摘要,节省上下文窗口空间。 适合什么场景 项目说主要给 AI编程Agent用。 实际上,任何要在多个 AI 会话之间保持任务连续性的场景都适用。 不用每次开新会话都要重新交代上下文。 安装方法:把Github的地址丢给你的Agent,告诉他安装这个库,并带我配置使用。 地址见评论区
向阳乔木 tweet media
中文
34
49
255
36.6K
橙汁麻吉 retweetledi
宝玉
宝玉@dotey·
转译:深度拆解 Hermes Agent 的记忆系统:它如何修正 OpenClaw 的误区 如果你读过我之前关于 ChatGPT、Claude 以及 Clawdbot 记忆系统的文章,你就会知道我一直在钻研同一个问题:这些 AI 智能体(AI Agent)到底是怎么记事的? Hermes Agent 对我来说格外有趣,因为这次我不需要只靠观察它的行为来搞“逆向工程”。Hermes 是开源的,它的代码库和文档都是公开的。所以,我没有通过提示词(Prompt)去盲测这个黑盒,而是直接翻看了它的代码路径——从它如何构建提示词状态、持久化会话,到如何清理记忆和查询历史对话。 简而言之:Hermes 拥有的不是一套记忆系统,而是四套。 1. 存储在 MEMORY.md 和 USER.md 中、经过高度浓缩的提示词记忆。 2. 通过 session_search 调用的 SQLite 历史会话存档(可搜索)。 3. 像程序记忆(Procedural Memory)一样运作的智能体技能管理。 4. 可选的 Honcho 层,用于更深层的用户建模(User Modeling)。 把这些设计联系在一起的核心逻辑非常简单:保持提示词稳定以便利用缓存(Caching),其他一切繁杂信息都交给工具。 让我们深入聊聊。 Hermes 的上下文结构 在理解记忆之前,我们先看看 Hermes 到底给模型发送了什么。 系统提示词(System Prompt)大致是按以下顺序组装的: ------- [0] 默认智能体身份 [1] 工具使用行为指南 [2] Honcho 集成模块(可选) [3] 可选系统消息 [4] 固化的 MEMORY.md 快照 [5] 固化的 USER.md 快照 [6] 技能索引 [7] 上下文文件(AGENTS.md, SOUL.md 等规则文件) [8] 日期/时间 + 平台信息 [9] 对话历史 [10] 当前用户消息 -------- 这非常关键,因为 Hermes 正在针对大模型供应商的提示词缓存(Prompt Caching)机制进行优化。代码显示,提示词构建器的目标非常明确:让稳定的前缀部分尽可能长时间地保持不变。 这一个决定就解释了 Hermes 大部分的记忆架构。 如果某条信息每一轮对话都要用到,Hermes 会尽量把它缩得很小并注入进去;如果信息量很大、属于历史旧账或者偶尔才有用,Hermes 就会把它踢出提示词,改用“按需检索”的方式。 第一层:固化的提示词记忆 其内置的记忆系统小得令人惊讶。 Hermes 将持久记忆存储在 ~/.hermes/memories/ 下的两个文件中: 1). MEMORY.md 智能体笔记:环境、规范、工具怪癖、教训 限制:2,200 字符 2). USER.md 用户画像:偏好、沟通风格、身份信息 限制:1,375 字符 这容量真不大。加起来大约只有 1,300 个 Token(模型理解文本的最小单位)。 而这正是刻意为之。 在会话开始时,Hermes 加载这两个文件,把它们渲染进提示词区块,然后在整个会话期间固化这个快照。会话中途写入的记忆会立即存入硬盘,但不会改变已经生成的系统提示词。这些改动只有在开启新会话,或者触发了“压缩(Compression)”导致的提示词重建时才会生效。 渲染后的格式如下: ------ ═══════════ MEMORY (你的个人笔记) [67% — 1,474/2,200 字符] ═══════════ 用户的项目是一个位于 ~/code/myapi 的 Rust Web 服务,使用 Axum + SQLx § 这台机器运行 Ubuntu 22.04,安装了 Docker 和 Podman § 用户喜欢简洁的回复,讨厌冗长的解释 ------ 这里有几个我非常欣赏的细节设计: 1. 使用字符限制而非 Token 限制:这让记忆逻辑与模型无关。Hermes 不需要调用特定模型的计算工具就能判断记忆是否存满。 2. 简单的分隔符文件格式:条目之间用 § 分隔。没有复杂的向量数据库(Vector DB),没有自定义二进制存储,就是纯文本。 3. 刻意保持极小的系统提示词空间:这是整个设计的重中之重。Hermes 不想把所有历史都塞进提示词,它只想要最有价值的事实。 4. 记忆是“精选状态”,而不是“日记”:这是 Hermes 与 OpenClaw 最大的区别。 OpenClaw 的日志更像是“流水账”。而 Hermes 则反其道而行。它的工具架构和测试逻辑强调: • 保存用户偏好。 • 保存环境事实。 • 保存反复出现的错误修正。 • 保存稳定的规范。 • 不保存任务进度。 • 不保存会话结果。 • 不保存临时的待办事项(TODO)。 真相是:Hermes 希望 MEMORY.md 和 USER.md 保持精简、高频且对缓存友好。 memory 工具 Hermes 通过一个拥有三种操作的 memory 工具来管理这些文件:add(添加)、replace(替换)、remove(移除)。 一个好用的细节是:replace 和 remove 使用子字符串匹配。你不需要记住条目的内部 ID,只需要传入现有条目中一段唯一的文字即可。 此外,系统会拒绝完全重复的内容,并拦截危险信息。源代码会扫描记忆条目,防止提示词注入(Prompt Injection,即通过输入恶意指令误导 AI)、凭证泄露或隐藏的 Unicode 字符。 第二层:用于情景回溯的 session_search 如果说 MEMORY.md 是 Hermes 的“短期热记忆”,那么 session_search 就是它的“长尾回溯系统”。 所有过去的会话都存储在 SQLite 数据库中,拥有完整的索引和搜索功能。当模型需要想起以前聊过的内容时,它不去翻 MEMORY.md,而是搜索这个会话数据库。 其工作流程是: 1. 在过去的消息中进行全文搜索。 2. 按会话分组结果。 3. 加载匹配度最高的会话。 4. 使用一个便宜的辅助模型对这些会话进行摘要总结。 5. 将精炼后的回顾内容返回给主模型。 这是一种非常务实的设计。它比盲目地把长篇累牍的历史塞进每一个提示词要便宜且高效得多。 第三层:压缩与记忆冲刷(Memory Flush) Hermes 另一个聪明之处在于它处理长对话“压缩”的方式。 当会话变得太长,Hermes 会压缩对话中间的部分以节省空间。但摘要是有损的,重要事实可能会丢失。 于是,Hermes 会先进行一次“记忆冲刷”。 在压缩之前,它会发送一条指令告诉模型: > “会话即将压缩,请保存任何值得记住的东西。优先保存用户偏好、修正建议和重复模式,而非具体的任务细节。” 然后它运行一次额外的模型调用,只开启 memory 工具。如果模型觉得有什么东西该留下来,就会在对话被“洗掉”之前把它写入 MEMORY.md。 第四层:作为程序记忆的技能(Skills) Hermes 不仅能记住事实,还能记住技能。 技能(Skills)存储在 ~/.hermes/skills/ 下。当 Hermes 发现了一个复杂的流程、修复了一个棘手的问题或学会了更好的方法时,它可以将其保存为“技能”。 大多数记忆系统只关注“语义回溯”(名字、偏好、事实),但智能体还需要记住如何做事。 为了效率,Hermes 不会把所有技能都塞进提示词,而是只放一个技能索引,只有在需要时才加载具体的技能内容。 第五层:用于深层建模的 Honcho 最后是可选的 Honcho 层。如果说本地记忆是 Hermes 的笔记本,Honcho 就是它尝试构建的复杂用户模型。它能实现跨设备、跨平台的记忆连续性。 最精妙的是它如何在不破坏提示词缓存的前提下实现集成: • 在会话的第一轮,Honcho 的上下文会被织入系统提示词。 • 在之后的对话中,为了保持提示词稳定,Honcho 的回溯内容会附加在当前用户的提问后面,而不是修改系统提示词。 这确保了缓存依然有效,同时 AI 依然能读到最新的背景信息。 Hermes 与 OpenClaw 的区别 • OpenClaw:记忆更接近“以 Markdown 为中心的存储”,日志和长效文件是主要事实来源。 • Hermes:提示词记忆被严格限制,历史记录存在 SQLite 里,只有需要时才搜索。 Hermes 更加关注缓存效率。 它认为:不是所有东西都配住在“系统提示词”这个黄金地段。 总结:Hermes 做对了什么? 1. 冷热分离:小规模提示词记忆负责常驻信息,搜索负责偶尔用到的信息。 2. 缓存优先:它意识到频繁改动提示词会导致延迟增加和成本上升。 3. 记忆的多样性:它承认记忆是分层的——包括个人画像、情景回溯、操作技能和深层建模。 Hermes 的核心设计原则最令我折服:记忆应该让智能体变得更好用,而不是通过摧毁提示词的稳定性来换取博闻强识。 真正的诀窍不是记住更多,而是在正确的层级、以正确的成本,记住正确的事情。
宝玉 tweet media
Manthan Gupta@manthanguptaa

x.com/i/article/2034…

中文
34
271
1.2K
149.4K
橙汁麻吉 retweetledi
宝玉
宝玉@dotey·
OpenAI 发了一篇技术博客,认真调查了一个荒诞的问题:为什么他们的模型越来越爱说“哥布林”(goblin)和“小精灵”(gremlin)? 事情最早在去年 11 月 GPT-5.1 上线后被注意到。用户反馈模型说话太过自来熟,内部一查,发现包含“goblin”的对话比之前暴涨了 175%,“gremlin”涨了 52%。当时觉得比例还小,没太当回事。 几个月后 GPT-5.4 上线,哥布林彻底泛滥,用户和员工都受不了了。OpenAI 这才认真追查,最终锁定了罪魁祸首:ChatGPT 的性格定制功能。 ChatGPT 有八种可选性格,其中一种叫“Nerdy”(极客风)。训练这个性格时,奖励模型被设定为鼓励"俏皮、有趣的表达",结果无意中给了包含奇幻生物比喻的回复更高的分数。模型很快学会了一个捷径:提到哥布林就能拿高分。 问题在于,这个习惯没有老老实实待在极客性格里。数据显示,Nerdy 性格只占 ChatGPT 全部回复的 2.5%,却贡献了 66.7% 的“goblin”出现次数。从 GPT-5.2 到 GPT-5.4,Nerdy 性格下的哥布林出现率飙升了 3881%。更麻烦的是,即使在没有 Nerdy 性格提示词的对话中,哥布林也在同步增长。 OpenAI 给出的解释是一个经典的反馈循环:强化学习先在极客性格里奖励了这种表达,然后模型生成的带哥布林的回复被收录进了下一轮训练数据,模型因此更加习惯输出哥布林,如此循环放大。除了哥布林,浣熊、巨魔、食人魔、鸽子也都被查出是同一机制产生的“tic词”(语言习惯性抽搐)。 【注:tic 原本是医学术语,指不自主的重复动作或发声,OpenAI 在这里借用来形容模型养成的不受控语言习惯。】 修复方面,OpenAI 在今年 3 月下架了 Nerdy 性格,移除了相关奖励信号,并过滤了训练数据中的生物词。但 GPT-5.5 的训练在找到根因之前就已经开始,所以新模型依然带着哥布林习性出厂。目前的临时方案是在 Codex(OpenAI 的编程工具)里通过系统提示词压制。博客里甚至贴了一段命令行代码,教你怎么把哥布林抑制指令去掉,"让小精灵们自由奔跑"。 这篇博客表面上是讲一个好笑的 bug,底下其实揭示了一个 AI 训练的核心难题:你给模型的每一个微小的奖励信号,都可能在你不知道的地方被放大和泛化。一个只针对 2.5% 用户的性格训练,最终污染了整个模型的语言习惯。
宝玉 tweet media宝玉 tweet media宝玉 tweet media
OpenAI@OpenAI

We’re talking about Goblins. openai.com/index/where-th…

中文
37
81
495
117.8K
橙汁麻吉 retweetledi
Wey Gu 古思为
Wey Gu 古思为@wey_gu·
有意思的事情~ 今天聊了一位特别酷的 vc,他们用 agent 选择的 Nowledge Mem 然后联系的我,而且是 agent 直接爬到的我的个人会议链接,做的会邀。
中文
15
5
71
9.2K
橙汁麻吉 retweetledi
阿绎 AYi
阿绎 AYi@AYi_AInotes·
GPT-5.5 和 Claude Opus 4.7 同一天发了官方提示工程指南。 两家的建议完全相反, 1️⃣OpenAI 说:少给流程,说清楚你要什么结果,让模型自己选路径。 2️⃣Anthropic 说:别指望它猜你意思,意图、格式、成功标准,一个都不能含糊。 一个嫌你管太多,一个嫌你说不清楚。 Claude 首席工程师 Boris Cherny 说,他自己都需要几天适应🤣 → Anthropic Claude Opus 4.7 迁移指南: platform.claude.com/docs/en/build-… → OpenAI GPT-5.5 提示工程指南: developers.openai.com/api/docs/guide… → OpenAI《使用 GPT-5.5》官方文档: developers.openai.com/api/docs/guide… → Boris Cherny(Claude Code 首席工程师) → t.co/ZXSgy1uIMA 对数百个社区帖子的深度分析(提示具体性与输出质量高度正相关)
阿绎 AYi@AYi_AInotes

我终于明白为啥最近很多人都在说,GPT和Claude突然变笨了, 昨天OpenAI和Anthropic同时发布了官方提示工程指南, 看完我才发现,并不是模型变笨了, 是它们终于聪明到,不再容忍人类懒得想清楚了🤣🤣🤣 而且最有意思的是, 两个模型的进化方向,居然是完全相反的, Claude Opus 4.7变得越来越字面, 以前它会主动帮你补全模糊的指令, 现在你说什么它就做什么,多一个字都不会猜🤣🤣 GPT-5.5变得越来越自主, 以前你要手把手教它每一步怎么做, 现在你只要告诉它你想要什么结果,它自己会选最优路径, 所以老提示失效的原因也完全相反, 用在Claude上的模糊提示,会得到越来越窄的输出, 用在GPT上的详细流程,会变成多余的噪声, 过去三年我们一直在学怎么教模型做事, 现在反过来了, 模型开始要求我们,先把自己的思考结构化, 其实就是提示工程的本质, 已经从教模型怎么做,变成了先把自己想明白, 所以真正的瓶颈可能不是模型的能力,而是写提示的那个人的思考清晰度, 我感觉以后赢的人,不会是提示写得最长最复杂的人,而是那个最知道自己真正想要什么的人🤔

中文
18
182
1.1K
196.6K
橙汁麻吉 retweetledi
Saito
Saito@SaitoWu·
这可能是今年我听过信息密度最高的一期技术播客。 Reiner Pope(前 Google TPU 架构师,现 MatX CEO)用一整期黑板课,系统讲透了 Transformer 在真实集群上到底是怎么跑的:批处理、KV Cache、内存 vs 计算 Roofline、MoE 稀疏性为什么大胜、API 定价背后的机制,以及硬件限制如何塑造了今天的 AI 进展。
Saito@SaitoWu

x.com/i/article/2049…

中文
9
250
941
164.1K
橙汁麻吉 retweetledi
木木彡
木木彡@yihao_wenzheng·
推荐使用姚兄的meta skill 。 我在Hermes中的使用体验很不错,但是一时间也是说不完这个skill的好处。正如姚兄所说,他把事情做了,但确实没有好好讲清楚这个skill的价值。
木木彡 tweet media
姚金刚@yaojingang

元skill的价值和意义,其实被大大低估了 两年前,我和向阳研究提示词的时候,花了不少精力,各自打磨出了属于自己的元提示词 后来在各种提示词生成、任务拆解、方案设计中,确实带来了极大的便利 今年,我们研究skill,也花了不少时间和精力打磨自己的元skill 元Skill,可以理解为“生成Skill的Skill” 比如我自己的元Skill:yao-meta-skill 但如果只把它理解成一个自动生成器,其实还是低估了它 在我看来,元Skill至少有三层价值: 1、它是个人的Skill生产系统 2、它是一个人对AI协作方式的抽象 3、它是你学习和理解Skill最好的切入点 这几天和团队交流,感触很深 越来越认为,就Skill这个能力而言,元Skill无论怎么重视都不为过 每个人,都值得结合自己的高频使用场景,花足够多的时间,集中打磨一个属于自己的元Skill 在这个过程中,收获的不只是一个工具,还有更底层的能力 比如: 1、对Skill原理的深入理解 2、对“什么是好Skill”建立更清晰的标准 3、对自己工作流的重新梳理和抽象 4、对任务拆解、流程设计、质量控制的系统化训练 5、对AI协作边界的判断能力 …… 提示词阶段,高手有自己的元提示词 Skill时代,高手也应该有自己的元Skill 后面准备专门写一篇,聊聊如何设计元Skill

中文
3
1
7
924