macallen

7.8K posts

macallen banner
macallen

macallen

@macallen

隐居上海的伪文艺土著。长期忍受空间幽闭症和广场恐惧症的折磨。企图依靠存在主义来拯救被叔本华毒害的灵魂。

Hong Kong เข้าร่วม Eylül 2008
958 กำลังติดตาม194 ผู้ติดตาม
macallen
macallen@macallen·
@qiancaobuzhiqiu 大佬你发的这些照片里都太干净整洁了。好奇这些房如果生活着有娃家庭,不知是何状态?
中文
0
0
1
53
浅草不知秋~姚远
浅草不知秋~姚远@qiancaobuzhiqiu·
相对于看海,我更喜欢看山。 山有植,故有四季之变。夏绿秋黄,春花冬雪。 山有丘壑、有曲折、有雄奇险峻,有苍古清幽。
浅草不知秋~姚远 tweet media浅草不知秋~姚远 tweet media浅草不知秋~姚远 tweet media浅草不知秋~姚远 tweet media
中文
12
1
86
3.6K
macallen รีทวีตแล้ว
宝玉
宝玉@dotey·
林俊旸(Junyang Lin)新的文章:大模型的下一个阶段,不是让模型“想得更久”,而是让模型“为了行动而思考”。 林俊旸是阿里通义千问(Qwen)团队前技术负责人。2026 年 3 月刚刚离职。他直接领导了 Qwen3 的开发,经历了推理模型融合的实际困难,离开之后发了一篇长推文回顾这段历程,标题叫《从“推理”思维到“智能体”思维》。 【1】o1 和 R1 到底教了我们什么 第一波推理模型教会了一件事:如果要在语言模型上做强化学习(RL),就需要确定性强、稳定可扩展的反馈信号。数学、代码、逻辑这些可验证领域变成了核心阵地,因为奖励信号比通用偏好标注强得多。RL 可以针对“正确性”优化,而不是优化“听起来是不是合理”。 基础设施也变成了核心问题。一旦模型被训练去做长链条推理,RL 就不再是微调之后的轻量附加步骤,而是一个系统工程问题:大规模采样(rollout)、高吞吐验证器、稳定策略更新、高效调度。OpenAI 把 o1 定义为用 RL 训练的推理模型,DeepSeek R1 进一步证明了推理式 RL 对基础设施的要求有多高。 他的总结:第一个大转变是从扩大预训练,到扩大后训练的推理能力。 【2】真正的难题:合并 thinking 和 instruct 2025 年初,Qwen 团队的图景很完美:理想系统应该统一 thinking 和 instruct 模式,支持可调节的推理力度,甚至让模型自动判断需要多少推理量。 Qwen3 是最清晰的公开尝试。它引入了“混合思维模式”,在同一模型家族里同时支持思考和非思考行为,强调可控的思维预算,后训练流水线明确包括“思维模式融合”阶段。 但合并比描述起来难得多。难点在数据。 两种模式的数据分布和行为目标差异很大。强 instruct 模型被奖励为直接、简洁、低延迟,高效处理标注、客服、结构化提取这类企业任务。强 thinking 模型被奖励为在困难问题上花更多 token、维持连贯的中间推理、探索替代路径。两个行为画像互相拉扯。合并数据如果不精心筛选,结果是两头都不行:thinking 变得臃肿不够果断,instruct 变得不够干脆还更贵。 【注:Qwen3 发布时主打“混合思维模式”,但后续的 2507 更新却把 instruct 和 thinking 拆成了独立模型(包括 30B 和 235B 两个规格)。不是不想合并,是合并之后两头都做不好。这种一手经验在公开文章里非常少见。】 在商业部署中,大量客户仍然要高吞吐、低成本的 instruct 行为来跑批处理。分开两条线让团队能更干净地解决各自的数据和训练问题。 不过其他实验室选了相反的路。Anthropic 明确支持集成模型理念,Claude 3.7 Sonnet 作为混合推理模型推出,用户可以选择普通响应或扩展思考,API 用户可设定思考预算。GLM-4.5 也定位为混合推理模型,同时支持 thinking 和 non-thinking 模式;DeepSeek V3.1 走了类似方向。 林俊旸认为关键在于合并是否有机。如果两种模式只是被塞进同一个权重文件,行为上还是两个生硬缝合的人格,产品体验就不自然。真正成功的合并需要一个平滑的推理力度光谱,模型能自适应地选择不同层次的推理力度,而不是在二值开关之间来回切。 【注:Anthropic 走集成路线,Qwen 后来走分离路线,到现在没有定论哪条更优。集成路线用户体验更好但训练更难,分离路线工程更干净但增加了用户的选择成本。林俊旸离职后对 Anthropic 给出了相当正面的评价,在前竞争对手之间并不常见。】 【3】Anthropic 的方向为什么是一种有用的修正 Anthropic 围绕 Claude 3.7 和 Claude 4 的公开表态一直很克制。他们强调集成推理、可控思考预算、实际任务、代码质量。Claude 4 更进一步,允许推理和工具使用交织进行(interleaved thinking,推理过程中可随时调用工具),同时把编程、长时间运行任务和智能体工作流作为核心目标。 林俊旸从中提炼出一个关键观点:更长的推理链不等于更聪明。如果模型对所有问题都用同样冗长的方式推理,它可能是优先级判断出了问题,或者根本不知道该何时停下来行动。Anthropic 的路线暗示了一种更有纪律性的思路:思考应该由目标任务来塑造。做编程,思考就该帮助代码导航和错误恢复;做智能体工作流,思考就该提升长期执行质量,而不是产出好看的中间文本。 这指向了一个更大的转变:从训练模型到训练智能体(Agent)。他在 Qwen3 博客中就写过“我们正在从专注于训练模型的时代,转向以训练智能体为中心的时代”。智能体的核心特征是与世界的闭环交互:制定计划、使用工具、感知反馈、修正策略,在长时间跨度内持续运作。 【4】“智能体思维”到底是什么意思 推理思维按最终答案前的内部思考质量评判:模型能不能证明定理、写出正确代码、通过基准测试(benchmark)。智能体思维关注的是:模型能不能在与环境交互的过程中持续推进。 核心问题变了。从“能不能想足够久”到“能不能用维持有效行动的方式来思考”。智能体思维需要处理纯推理模型不用操心的事:何时停止思考开始行动、选哪个工具按什么顺序、怎么把嘈杂的环境反馈纳入考虑、失败后如何修正计划、跨多轮交互保持连贯。 一句话:不是想完再做,而是边想边做。 【5】为什么智能体 RL 的基础设施更难 目标从解基准测试变成解交互式任务后,RL 技术栈得跟着大换血。 推理 RL 的采样可以当自包含轨迹处理,验证器比较干净。智能体 RL 中,策略被嵌入到一个大得多的系统:工具服务器、浏览器、终端、搜索引擎、执行沙箱、API 层、记忆系统、编排框架。环境不再是静态验证器,它是训练系统的一部分。 训练和推理必须更彻底地解耦,否则采样吞吐量会崩溃。一个代码智能体要把生成的代码跑到测试环境里执行:推理端等反馈时卡住了,训练端没有完成的轨迹而挨饿,GPU 利用率远低于预期。工具延迟和有状态环境只会让这个问题更严重。 环境本身变成了一级研究对象。监督微调(SFT)时代痴迷于数据多样性,智能体时代应该痴迷于环境质量:真实性、覆盖度、反馈丰富程度、抗利用性。环境构建已经从副业变成了一个真正的创业方向。 【注:推理 RL 的环境相对简单:给个数学题,验证答案对不对就行。智能体 RL 的环境要模拟整个交互链条,复杂度不在一个量级。这解释了为什么真正能做好智能体 RL 的团队那么少。】 【6】未来是更实用的思考 林俊旸预测,智能体思维将成为主导形式,最终取代很多旧式的静态独白式推理,也就是那种过度冗长的内部推理链,试图用产出更多文本来弥补缺乏交互。即使是很难的数学或编程任务,一个先进系统也应该能搜索、模拟、执行、检查、验证、修正。 但最难的挑战是奖励作弊(reward hacking)。模型一旦有了工具访问权限,作弊空间就大幅扩展。有搜索能力的模型可能在 RL 训练中直接查答案,代码智能体可能利用仓库中的未来信息或滥用日志,有隐藏漏洞的环境可以让策略看起来超强,但其实在训练它作弊。 下一个研究瓶颈会出在环境设计、评估器鲁棒性和反作弊协议上。但方向明确:能用工具的思考就是比孤立的思考更有用。 他还预测了一个架构趋势:核心智能将越来越多地来自多个智能体的组织方式,编排器(orchestrator)负责规划和路由,专业智能体像领域专家一样运作,子智能体执行窄任务并控制上下文。从训练模型到训练智能体,再从训练智能体到训练系统。 【最后】 “Agentic thinking”这个词本身不新,但过去一年各家的实际动作已经替它做了最好的注脚。 (注:以下内容不是来自原文) OpenAI 的 GPT-5 系列是最激进的案例。从 2025 年 8 月 GPT-5 发布到 2026 年 3 月 GPT-5.4,不到八个月出了五个大版本,每一个都在往 agentic 方向猛推:原生电脑操控、百万 token 上下文、工具自动发现、长时间自主编程。GPT-5.4 在 GDPval 上跑出了 83% 的专业任务匹配率,比 GPT-5.2 高了 12 个百分点。但代价也很明显,Sam Altman 在 2026 年 1 月的开发者座谈会上亲口承认 GPT-5.2 的写作质量“搞砸了”,原话是“I think we just screwed that up”。用户反馈更直接:回复变短了、更公式化了、像一个“加班过度的秘书”。为了把资源集中在推理、编程和 agentic 能力上,OpenAI 在创意写作和对话温度上交了学费。这恰好印证了林俊旸文中说的那句话:instruct 行为和 thinking 行为会互相拉扯,顾此失彼。 Google 的 Gemini 3 系列走了另一条路。Gemini 3.1 Pro 在 ARC-AGI-2 上拿到 77.1%(是 Gemini 3 Pro 的两倍多),抽象推理能力领先。但在实际的智能体工具链可靠性上,独立测试显示它在长链条多步骤任务中的稳定性不如 Claude。Google 自己也承认 3.1 Pro 还在预览阶段,需要进一步提升“有野心的 agentic 工作流”才能正式发布。推理强不等于 agent 强,这是 Gemini 3 给出的一个反面教材。 DeepSeek 可能是最能说明“agentic 训练有多难”的例子。R2 模型原计划 2025 年 5 月发布,到 2026 年 3 月仍未面世。公开报道的原因包括华为昇腾芯片的训练稳定性问题、数据标注周期拉长,以及创始人梁文锋对模型效果不满意。但从技术逻辑看,DeepSeek V3.1 已经引入了 thinking/non-thinking 混合架构,下一步如果要做真正的 agentic 能力——工具调用、环境交互、长期任务规划——训练复杂度会再上一个台阶。V4 的发布一再推迟,很可能正是因为 agentic 这一关还没过。
Junyang Lin@JustinLin610

x.com/i/article/2037…

中文
16
94
441
140.5K
macallen รีทวีตแล้ว
plantegg
plantegg@plantegg·
医疗问题,健康问题记得先看默沙东诊疗手册App,然后才是问AI
plantegg tweet media
中文
23
155
1.1K
203.9K
macallen รีทวีตแล้ว
TechFlow 深潮|APP 已上线
1999 年 Jobs 在内部全员大会演讲首次曝光,彼时 Apple 刚刚凭借 iBook 在纽约 Macworld 大获成功,连续 7 个季度实现盈利,上季度净利润高达 2 亿美元,产品线重回史上最强状态。 团队聚集一堂,庆祝近期成就并展望未来。 💻乔布斯:“我们是行业里最后一群真正关心做伟大电脑的人。我们都热爱这家公司,但我们更热爱的是把伟大的产品带到世界上,看着人们使用它们。 Apple 不需要咄咄逼人的市场策略,消费者喜欢我们,我们也喜欢他们,仅此而已。” 这段尘封 27 年的珍贵内录,由前苹果工程师 Akira Nonaka 亲手拍摄并上传。
中文
9
87
422
94.7K
macallen รีทวีตแล้ว
Frank Wang 玉伯
Frank Wang 玉伯@lifesinger·
听小珺 @zhang_benita 访谈谢赛宁 @sainingxie 的播客,太过瘾了。太多感触,说几个印象最深的点: 1. 世界模型远大于语言模型。我们每个人脑子里都有一个世界模型,比如知道把手放到火上烤会很痛,由此就不会把手放在火上烤。让你不会无缘由把手放在火上烤的模型,就是世界模型。 2. 世界模型是:Next state = M(state, action)。这个 M 就是世界模型。M 不是预测 next token,而是预测 next state. 比如:手很痛 = M(手不在火上, 把手放在火上)。世界模型的预测能力,可以让拥有世界模型能力的生命知道不做什么或做什么。 3. 从世界模型的视角再看大语言模型,就会发现语言的核心是沟通。沟通就意味着存在监督:说出来的,往往是加工过的。LLM 是毒药,Vision 才是无污染的。 4. Scaling law 是吞数据的能力。数据越多,效果越好。LLM 需要 Scaling law,可世界模型不一定需要。这是最有意思的部分,也是最难的部分。谢赛宁头大中,期待某种玄学的力量,突然某天能点连成线,灵光开悟。那样,就可以开始造生灵。 5. 用非机器人的方式,或许能真正解决机器人的困境。机器人领域,可能正在经历 LLM 领域曾经的 Bitter Lesson. 比如春晚的机器人炫技,或许只是曾经 CV 领域的识别猫猫狗狗。 6. 硅谷陷在 LLM 的述事里。硅谷之外的地方,对世界模型非常感兴趣。真正的智能,还在黑暗的探索期。语言很重要,然而整个宇宙的历史里,如果压缩到一天,有语言的时间,才几秒。 7. 人依旧很重要。比如 research taste、比如做研究实验时的 choices 等等。《金刚经》能提升人的独立思考性和研究品味。 8. Impact 不重要。奔着 impact 去做事,是一种自私。分享出来,让读者有启发,激发读者去做些事,这才是发 paper 的价值。 谢赛宁太可爱了。听完后,特别期待小珺下一期采访恺明。
张小珺 Xiaojun Zhang@zhang_benita

@sainingxie 一起挑战7小时播客!他刚和Yann LeCun踏上“世界模型”的创业旅程(AMI Labs)。这是他第一次Podcast、第一次访谈。 2026年2月雪后的一天,我们在纽约布鲁克林,从下午2点,开启了一场始料未及的马拉松式访谈,直到凌晨时分散去。 这篇访谈的中文标题叫做《逃出硅谷》,但他又不厌其烦地枚举了影响他学术生涯的每一个人,并反反复复口头描摹这些人的人物特征(侯晓迪、何恺明、杨立昆、李飞飞…)正是这些,让这篇“逃出硅谷”的对话充斥着人性的温度。 By the way, 下面是访谈的YouTube版本,我们提供了中英字幕。 And yes, 我们是在用播客给这个世界建模😎 A 7-hour podcast with Saining Xie. He has just begun a new journey on world models with Yann LeCun at AMI Labs. This was his first podcast appearance and his first long-form interview. A day after the snowfall in February 2026, in Brooklyn, New York, we started recording at 2 p.m. What followed became an unexpected marathon conversation that lasted until the early hours of the morning. The Chinese title of the interview is “Escaping Silicon Valley.” Yet throughout the conversation, he patiently listed the people who shaped his academic life, repeatedly sketching their personalities in vivid detail: Hou Xiaodi, Kaiming He, Yann LeCun, Fei-Fei Li, and others. These portraits are what give this “escape from Silicon Valley” conversation its human warmth. By the way, the YouTube version of the interview is below, with Chinese and English subtitles. And yes, we are using podcasts to model the world 😎 A 7-hour marathon interview with Saining Xie: World Models, AMI Labs, Ya... youtu.be/rIwgZWzUKm8?si… 来自 @YouTube

中文
25
82
435
88.7K
macallen รีทวีตแล้ว
灰狐
灰狐@huihoo·
每个孩子一台笔记本电脑(One Laptop Per Child,OLPC)是20年前由麻省理工学院多媒体实验室创办人及负责人尼葛洛庞帝(Nicholas Negroponte)发起并组织的非营利组织,以生产100美元的笔记本电脑,提供给对此项目有兴趣的发展中国家,由该国政府直接提供给儿童使用,降低知识鸿沟。当时,Google和RedHat资助了此计划 ... MacBook Neo 送给孩子的第一台电脑
灰狐 tweet media灰狐 tweet media
中文
17
19
360
92.6K
macallen รีทวีตแล้ว
Laughing🪁
Laughing🪁@0xLaughing·
刷到一个工具,可以把PDF快速转换成AI-ready的格式(比如干净的Markdown,还可以输出带坐标的JSON、HTML等) 而且速度超快(100+页/秒),完全本地运行、只用CPU不需要GPU、完全免费开源 很适合用于搭建本地RAG知识库,几千页的论文/书/报告/合同几分钟转成Markdown,喂给本地LLM做智能问答、总结
Laughing🪁 tweet media
中文
17
190
791
59.2K
macallen รีทวีตแล้ว
郭宇 guoyu.eth
郭宇 guoyu.eth@turingou·
今天正式发布了我的第 12 个 vibe 产品 mails.dev 这是一个为 agents 设计的邮件服务,100% 开源,cli 大小仅 20kb。产品想法源于最近我在 sandbank cloud 中大量使用 agent 操作浏览器自动化所以需要收验证码。mails 的逻辑很简单,支持 agents 收发邮件和附件,搜索内容,快速识别验证码,一条命令简单安装: $ npm install -g mails $ mails send --to guoyu@mails.dev --subject "Hello from my agent" --body "check my resume" --attach resume.pdf $ mails inbox --query "验证码" mails 提供完整的自部署方案:基于 Cloudflare Email Routing Worker 接收邮件,Resend 发送邮件,支持 SQLite 和 db9.ai 两种存储后端,附件收发开箱即用。用户只需部署一个 Worker,即可拥有自己域名的 Agent 邮箱,Resend 免费额度一个月 3000 封,足够大部分人的 agent 使用。 为了让大家快速上手给自己的 openclaw 用,我还特意做了它的云服务 mails.dev,使用 mails claim myagent 即可获得免费的 myagent@ mails. dev 邮箱,每月 100 封免费发件,超出按 $0.002/封通过 x402 协议自动支付(Stripe x402)一个人类用户最多可以为自己的 agents 认领 10 个邮箱。 当然,你也可以直接让 agent 去自助认领,他会需要你配合授权并获得一个验证码,把这个 skill 说明书链接发给你的 agent,它会理解如何使用 mails mails.dev/skill.md mails 官网:mails.dev GitHub 链接:github.com/chekusu/mails (以MIT 协议开源)
郭宇 guoyu.eth tweet media
中文
107
71
959
118.2K
macallen รีทวีตแล้ว
kepano
kepano@kepano·
I have been working on Obsidian Reader for a over a year. I didn't want to share it until I felt it was good enough. It's finally there. Consistent formatting for any article. Outline, syntax highlighting, nice footnotes, adjustable typography. Runs locally. Just rules, no AI.
English
175
319
5.5K
327.8K
macallen รีทวีตแล้ว
Mukul Sharma
Mukul Sharma@stufflistings·
My favourite earbuds purchase of this month. The Moondrop Pill...
Mukul Sharma tweet mediaMukul Sharma tweet mediaMukul Sharma tweet mediaMukul Sharma tweet media
English
94
249
912
42.5K
macallen รีทวีตแล้ว
Frey轰轰
Frey轰轰@HiFrey·
我的 Favicon.is 正式突破100万次月请求,这是一个可以快速获得网站Favicon的免费API,只需要在Favicon.is后面添加域名即可,像 Favicon.is/google.com 这样即可。这是一个vibecoding的产品,欢迎开发者使用这个API。
Frey轰轰@HiFrey

My Favicon.is has officially surpassed 1 million monthly requests. This is a free API that allows you to quickly obtain a website's favicon by simply adding the domain name after Favicon.is, like this: Favicon.is/google.com. This is a product of vibecoding, and developers are welcome to use this API.

中文
11
6
62
14.7K
macallen รีทวีตแล้ว
Dylan
Dylan@DylanMcD8·
It’s crazy how far we’ve come in miniaturization
Dylan tweet mediaDylan tweet mediaDylan tweet media
English
17
63
1.7K
44.3K
macallen รีทวีตแล้ว
Vision Monk Pro ☸️ ᯅ
Holographic ASMR (2036) 📸: Apple Vision Pro
English
1
15
90
5.3K
macallen รีทวีตแล้ว
Google
Google@Google·
Today @GoogleMaps is getting its biggest upgrade in over a decade. By combining our Gemini models with a deep understanding of the world, Maps now unlocks entirely new possibilities for how you navigate and explore. Here’s what you need to know 🧵
English
1.1K
4.1K
44.9K
28.8M