Dominic
301 posts

Dominic retweetledi
Dominic retweetledi
Dominic retweetledi

Dominic retweetledi

I turned @trq212's article into an interactive HTML! I was a markdown boy but since I started working at Microsoft I'm using HTML more and more.
Our engineers love to send AI-generated HTML to coordinate between SWE/PM on projects since it's easier to read than markdown.
Thariq@trq212
English


和Claude的原理一样笨得一批,耗token,时间慢
所以感觉llm走到门槛了,不是命令行的调用都略显笨重
Meari_V2.0-Gtype@Meari_V2_0_G
……我看到Computer Use的技术原理的时候,几乎就猜到这是什么了。
中文
Dominic retweetledi

HTML is the new markdown.
I've stopped writing markdown files for almost everything and switched to using Claude Code to generate HTML for me. This is why.
Thariq@trq212
English
Dominic retweetledi

Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice agents.
Voice agents are now real-time collaborators that can listen, reason, and solve complex problems as conversations unfold.
Now available in the API alongside streaming models GPT-Realtime-Translate and GPT-Realtime-Whisper — a new set of audio capabilities for the next generation of voice interfaces.
English
Dominic retweetledi

Dominic retweetledi

Claude团队的工程师,已经彻底抛弃Markdown了。
不是Markdown不好用,
是AI变得太快,它已经跟不上了。
以前AI写10行笔记,Markdown刚刚好,
现在AI能一次性输出1000行计划、复杂流程图、完整代码审查,
密密麻麻的纯文字墙谁有耐心看得完?
作者自己都说,他从来没完整读完过100行以上的AI生成MD文件。
更要命的是:现在都是AI写,我们只看不改。
Markdown最大的优点“易手动编辑”,现在已经彻底没用了。
而HTML,才是AI时代真正的沟通语言,
它能做到的事,Markdown想都不敢想:
• 直接生成带颜色的表格、SVG流程图、可点击的原型
• 加滑块调参数、拖拽排序任务、实时预览Prompt效果
• 改完一键导出成代码或Prompt,喂回给AI继续迭代
• 发个链接别人点开就能看,不用下载任何工具
作者直接放出了20个现成示例:
从代码审查的彩色diff,
到可拖拽的任务看板,
从动画参数调试器,
到一键生成的幻灯片。
每一个都是能直接用的生产力工具。
最爽的三个用法,现在就能抄:
1. 代码审查:让AI把PR生成带注释的彩色diff+模块调用图
2. 做计划:生成带时间线、风险表、流程图的交互式项目页
3. 临时工具:让AI写一个Prompt调参器,改完直接复制结果
当然它也有缺点:
多花一点token,生成时间长2-4倍,版本控制不如MD干净。
但作者说:体验提升了10倍,这些代价完全值得。
本质上不是格式之争,而是人机协作方式的升级。
因为Markdown是给人写给人看的,
而HTML是给AI写给人用的。
随着当AI越来越聪明,我们需要的不再是文字墙,而是能互动、能操作、能思考的界面。
现在打开Claude,输入“帮我做一个HTML文件……”,你会打开一个全新的世界。
Thariq@trq212
中文
Dominic retweetledi
Dominic retweetledi

Dominic retweetledi
Dominic retweetledi

Anthropic 宣布说Claude现在要做梦了(Dreaming),放出了 Claude Managed Agents 的 dreaming 功能。
媒体会很喜欢这个词,什么 “self-improve by dreaming”,“taught AI agents how to dream”,
它太好讲了。
AI 白天工作,晚上做梦,第二天醒来变得更聪明。
但 Anthropic 自家技术文档其实尾本质上也是朴实无华。
dreaming 不动 Claude 本体的权重和参数。它做的是一个异步任务:
读一个已有的 memory store,再读最多 100 段过去的 session transcript,产出一份新的 memory store。
旧的不动。新版本接不接进后续 session,开发者自己定。
说白了,就是定期清理工作笔记。
把重复项合并过时项删掉,把矛盾偏好按最新记录重写,把一次次的踩坑总结成下次可复用的规则。
本可以叫"记忆整理",或"偏好压缩",或"经验库重写"。他们偏偏把它叫做 dreaming。
一个高度组织化、治理化、甚至带点政治性的动作,就用"做梦"这个词包装成了一个自然过程。
压缩的过程涉及到选择,就不可能是绝对中性的。
比如,如果同一个用户前后说过相反的话,听哪一次好?
100 段对话里,哪些应该被记住,哪些应该被扔掉?
半年前为了赶 deadline 写下的 workaround,是被提升成长期规则呢,还是被识别成临时补丁?
某个团队成员的偏好,能不能变成整个团队 agent 的默认习惯?
这些都涉及到判断。
如果由人来做,叫知识治理,或叫政策制定,或是组织记忆管理。如果搞错了的话,事后是要问责的。
但做梦就不一样啦,你不会去审计做梦嘛。
这正是这个比喻狡猾浇花的地方。
更妙的是,做梦自带合理推诿 plausible deniability。哪天 agent 输出了一个奇怪的判断,公司可以摊手说,是它做梦做出来的。决策的痕迹就这么不见了,剩下的只是一份"经验"。
文档里面具体写output store 可以 review,可以 discard,input store 不会被改。
接口上虽然没问题。但在真实的公司场景里,一份 dream output 后面压着几十万 token 的历史会话。
你说以后让一个合规员工去 diff 它"保留了什么、丢弃了什么、哪些旧经验被固化成新规则",这事大概率不会发生。
审计入口存在和审计真的发生是两码事。
设想一家大型律师行用了半年的 agent。它记住了高级合伙人偏爱的措辞节奏,记住了客户 A 合同里那个奇怪的例外条款,也记住了去年某个并购案上栽过的跟头。
但某次 dreaming 之后,它"发现"初级律师的某个表述其实更精准”,于是把它提升成了通用规则。
然后高级合伙人哪天读到一份措辞跟自己习惯不一样的备忘录,追究到底会发现,拍板的不是一个具体的人,是 agent。在某次dreaming时里悄悄把规则的权重挪了一下。
这个就是新的政治形态。
其实在Anthropic 整套发布里,dreaming 只是一小块。
同一天还有 outcomes、multiagent orchestration、webhooks其它模组。拼在一起才是Anthropic对agent 的操作系统进化方向的轮廓:
memory store 负责存学到的东西。
dreaming 负责定期清理和重写记忆。
outcomes 负责按 rubric 判断任务有没有达标。
multiagent orchestration 负责把复杂任务分解,分配给多个 agents 并行跑。
webhooks 负责让外部系统订阅长任务状态。
这一整套东西真正卖的核心商品是托管run time。把状态、记忆、评估、调度、追踪、人机交接,全部收进 Anthropic 的平台层。"dreaming" 只是这套系统里的一个零件。
这里隐含着 Anthropic 不太愿意明说的接受事实,承认底座大模型本身正在变成commodity(通用品)。
如果只靠模型能力将来就很难能拉开差距了,否则也没必要把run time包装得这么厚。
其实,同类竞品像OpenAI 的 Agents SDK,Google 的 ADK,LangGraph,都在往同一个底层收敛:
工具、状态、调度、评估、追踪、人机协同。
Anthropic 的出手比较重比较快,跟天下武功一样嘛,无坚不摧,唯快不破。
Anthropic不只给你一套框架。还要把这套框架和 Claude chat/code、memory、console、managed infrastructure 绑死,让企业一边做着梦,一边就断不了奶了。
记忆层是这里最大的锁定机制。
一家律师行用了半年的agent后,它记住了律所的 memo 格式,高级合伙人的个人偏好,企业成功失败的一些具体案例细节。这份 institutional memory 就很难换掉了。
它不像数据库 schema 那样清楚,也不像代码仓库那样容易 diff。它是一团被 agent 反复整理过的经验偏好、例外、修正。半年下来,就连最初参与调教它的人都不记得里面有什么了。
dreaming 会让这团东西越滚越像资产,也越滚越像黑箱。
还有outcomes 更厉害,可以把 agent 从"等你继续说话",推到了"自己朝目标跑"。
你写一个评分标准 rubric,说清楚什么叫完成。平台单独拉一个 grader,在另一个上下文窗口里打分。没达标就把反馈丢回给 agent 继续改。直到通过,或者迭代预算用完。
内部测试说这能把任务成功率最多提 10 个点。
还把 feedback loop 放进了 agent 的run time。
dreaming 让 agent 知道过去发生过什么。outcomes 让 agent 知道现在该往哪里去。
memory、dreaming、outcomes 三个东西合到一起,agent 就真正长成一个能长期运转的工作系统。这才是to B企业级别的杀手级系统
相比之下,chat聊天窗口这样的to C形态,就是过家家而已,今天用你这个模型,明天找豆包、元宝,聊天嘛谁不会啊?。
所以"做梦"这个词会扩散,语义上已经先被 Anthropic 抢占了。
马上,立刻,每家 agent 平台都要赶着出类似功能。
以后订购 AI agent 时,会不知不觉要求这样框架:你得是个会自我整理、自我改进、有某种内在心智活动的agent实体。
最后肯定还要涉及到一个绕不开的问题,一个 agent 的"经验"“记忆”到底属于员工用户,公司,还是模型平台?
谁在替谁dreaming?
Claude@claudeai
Live from Code with Claude: we're launching dreaming in Claude Managed Agents as a research preview. Outcomes, multiagent orchestration, and webhooks are now in public beta.
中文

fix the reconnecting issue first
OpenAI@OpenAI
GPT-5.5 Instant is starting to roll out in ChatGPT. It’s a big upgrade, giving you smarter, clearer, and more personalized answers in a warmer, more natural tone. And it's also more concise, which we heard you wanted. We think you'll love chatting with it.
English
Dominic retweetledi
Dominic retweetledi

确实一直烧钱,我也纳闷
为什么中国的模型一直是免费,一些甚至还贴钱
比如千问,打卡还可以领王者荣耀皮肤🤣
AB Kuai.Dong@_FORAB
字节跳动也扛不住,大家免费用了。 在刚刚苹果商店里,豆包 APP 出现了付费服务声明,最便宜的标准版订阅会员,连续包月为 68 人民币,约合 10 美金。 而专业版会员,连续包月为 500 人民币,约合 74 美金,此声明疑似为豆包即将推出,大模型付费订阅服务。
中文
Dominic retweetledi









