BLANPLAN | 空界計劃

939 posts

BLANPLAN | 空界計劃 banner
BLANPLAN | 空界計劃

BLANPLAN | 空界計劃

@blanplan

https://t.co/YpGj1TVunL CTO|前百度|聊 AI、产品、工程与创业、分享真实的一线经验

Присоединился Şubat 2025
251 Подписки166 Подписчики
BLANPLAN | 空界計劃
AWS 半开连接这个现象在 NAT/NLB 层看已经存在好几年了,NLB default idle timeout 350s,ELB 60s,安全组 drop 不发 FIN,客户端和服务端看到的连接状态对不上就来了。防的方式写过很多年,client 侧开 TCP keepalive 或 app-layer heartbeat 两选一,操作成本不高。生产里踩这类坑的 operator 通常没翻 cloud 组件 default 行为文档,按常识预期连接生命周期,一上规模就出事。
中文
0
0
0
5
plantegg
plantegg@plantegg·
我司的客户端和服务端在那里撕逼 客户端说我才用 100个链接,服务端说放屁,我这通过 netstat 明明看到 500 多个链接都是 ESTA 的 我跑过去一问,果然客户端用的 AWS EC2,链接被默默释放了,服务端还傻乎乎地在那半开着 AWS 用他们多年云计算的丰富经验+高深知识在帮大家科普:什么是半开链接?如何绕过 TCP 四次挥手断开链接 别只会面试的时候背诵三次握手四次挥手了 你们要珍惜这么好的厂商,好好学知识
plantegg@plantegg

AWS 无比业余和垃圾,简直是令人发指地业务,希望你们不要踩到这个坑 AWS EC2 在八代机准确说是 Nitro V6 中将网卡上的 tcp 链接存活时间从默认的 432000 改成了 350 秒,这导致一旦你购买的EC2 是八代机就会莫名其妙地出现太多的链接失效后丢包——第一宗罪,垃圾,业余,如图 网卡在丢包的时候只丢进来的不丢出去了,还可以理解,但是丢了不给任何反馈,比如释放超过 350 秒的链接业界都会给个 RESET ,他娘的他一声不吭就干了,我他妈掐指一算(这种问题一般我掐指一算能算出来在哪一跳丢掉的),这次我手指掐没了都没掐出来,丢死人了——第二宗罪,垃圾 我不知道 AWS 的技术/产品是怎么考虑的居然做这个修改 只能说云计算这个门槛太低了,钱太好赚了,另外就是忽悠了不懂技术的老板苦了干货的技术人员 必须加个标签以备我以后来罗列 #垃圾云计算

中文
1
0
13
5.1K
BLANPLAN | 空界計劃
overnight 异步跑尽调这类产品形态在投行二级 / MC 那类预先排期的工作流里能落地,intraday 决策场景这种 turnaround 有点长。MCP 接 FactSet/S&P/PitchBook 的升级更值得看,但这几家 vendor 过去几年在自己 API 层对 downstream 批量拉数据限制了一堆,开放到 agent token 级的概率不高。协同规划让用户在 agent 开跑前 align,长研究任务里这个 step 比纯 async value 高。
中文
0
0
0
18
宝玉
宝玉@dotey·
Google 今天把 Gemini Deep Research 升级成了两个版本:Deep Research 和 Deep Research Max。 Deep Research 走速度和成本优先的路线,适合做成即问即答的研究助手嵌到用户界面里。 Max 版则反过来:跑更长时间、烧更多算力, 反复搜索、反复推理、反复打磨报告。官方给的典型场景是分析师晚上下班前触发一个尽调任务,第二天早上上班,一份完整报告已经躺在邮箱里。 两个版本背后都是 Gemini 3.1 Pro,就是 Google 今年 2 月发布的那个推理能力相比 3 Pro 翻倍的模型。 【1】能插上自己的数据了 过去的 Deep Research 只能搜开放的互联网。这次最关键的变化是支持了 MCP。 开发者现在可以把 FactSet、S&P、PitchBook 这类专业付费数据源接进来,让 Deep Research 在这些金融和市场数据库里翻找资料,而不是只能靠公开网页。Google 已经在和这三家合作设计 MCP 接口。 此外还能把 PDF、CSV、图片、音频、视频当成研究素材直接喂进去;可以让它同时调用 Google Search、URL Context、代码执行、File Search,也可以把联网完全关掉,只在内部数据里查。 报告里现在会直接生成图表和信息图。图表用 HTML 渲染,信息图调用 Nano Banana。研究过程支持流式输出,能实时看到数字智能体当前在想什么、搜到了什么。 还有一个叫“协同规划”的功能:数字智能体先给出一份研究计划,用户可以在它开跑之前调整范围。对那些容易跑偏、需要人工把关的研究任务挺实用。 从今天起在 Gemini API 的付费档里以公开预览版提供,通过 Interactions API 调用。Google Cloud 上的企业版本即将上线。 官方没有公布具体定价。
Google AI Studio@GoogleAIStudio

x.com/i/article/2046…

中文
4
14
82
22.9K
BLANPLAN | 空界計劃
@MarcoErmini @AYi_AInotes AI sycophants describe the job at the deliverable layer and stop there. Incident threads, oncall rotations, the half-finished tickets that eat a quarter of engineer time, that texture never shows up in their takes. OP writes like someone who has never been on an oncall rotation.
English
0
0
0
5
Marco Ermini
Marco Ermini@MarcoErmini·
@blanplan @AYi_AInotes There is a common theme on every AI sycophant I have read: they all overestimate the ability of the models and have no idea about the job they think the AI will replace. No surprise we are in the same realm with this OP.
English
1
0
0
7
阿绎 AYi
阿绎 AYi@AYi_AInotes·
Google今天放的这个东西,可以说是设计语言的Unix时刻了,可能会重新定义未来所有的设计工作。 它不是又一个AI画图工具, 也不是又一个Figma插件, 它叫DESIGN.md, 就是一个纯文本的Markdown文件。 前面用YAML写精确的设计token, 什么颜色是主色,什么字体是标题,圆角多大,间距多少。 后面用自然语言写,每一个设计决策的为什么, 这个暖米色做背景是为了更柔和, 这个深绿色做主色是为了传递权威感, 什么场景该用什么,什么绝对不能用。 就这么简单, 但它解决了AI设计最大的,也是所有人都视而不见的痛点。 以前AI做设计,永远在猜, 它只能看到颜色代码,看不到颜色背后的意图。 也不知道这个蓝色是品牌的命根子,还是我随便选的一个。 所以它永远会给你生成看起来还行,但哪里都不对的东西。 现在不用猜了, Agent会严格遵守所有规则。 甚至会自动帮你检查WCAG可访问性。 David East现场演示,Agent生成了一个按钮, linter立刻报错说对比度只有1.0:1,不符合标准, Agent自己就改成了正确的颜色。 最狠的是,它不绑定任何工具, 你可以把这个文件扔给Stitch, 扔给Claude, 扔给Cursor, 扔给任何你想用的Agent。 设计系统终于不用锁死在Figma里了,也不用锁死在Tailwind的config里了。 它变成了一个可以复制,可以移植,可以版本控制的纯文本。 这里有一个反直觉的真相,就是你把规则写得越死,AI反而越有创造力。 以前你怕限制它,给它模糊的要求, 它给你一堆乱七八糟的东西。 现在边界划清楚了, 它反而敢在边界里大胆创新,不会搞出崩坏的界面。 以前设计散落在无数个Figma文件里,散落在无数个代码配置里, 散落在无数个设计师的脑子里。 现在第一次,有了一个单一的真相源,人类能读,机器也能懂。 以后设计师的工作,再也不是只画一个个界面了,维护好这一个文件。 定义好设计的灵魂,剩下的所有执行,全部交给AI。
Stitch by Google@stitchbygoogle

Today, we’re open-sourcing the draft specification for DESIGN.md, so it can be used across any tool or platform. We’re also adding new capabilities. DESIGN.md lets you easily export and import your design rules from project to project. Instead of guessing intent, agents know exactly what a color is for and can even validate their choices against WCAG accessibility rules. Watch David East break down this shared visual language in action👇. New capabilities and links in 🧵

中文
28
74
465
78.1K
BLANPLAN | 空界計劃
@lexi_labs 这类定律清单在 AI coding agent 时代的主要使用场景已经在变化,新人学习资料这一端价值稀释,给 agent 做 review criteria 参数化这一端价值上升。人类记熟定律再做 contextual tradeoff 成本高,agent 做 exhaustive check 且每次都跑,review 覆盖率和人类 linter + PR 自审差一个量级。
中文
0
0
0
21
BLANPLAN | 空界計劃
worktree 的隔离性在 multi-agent 并行中起到防止 race condition 的作用,共享 filesystem 反而会让 agent 互相覆盖彼此的改动。多 agent 协作的机制应该在 PR / merge queue / conflict 处理机器人这一层解决,graphite 和 codeRabbit 这套组合已经在生产跑。filesystem 层做隔离 + 上层做 orchestration 这种分层在多 agent 场景里比 shared workspace 更可控。
中文
0
0
0
15
Saito
Saito@SaitoWu·
git worktree 在 Agent 时代的致命局限性: ▫️每个 worktree 都是完全隔离的文件夹,Agent 之间根本看不到彼此正在改的文件和内容,像五个盲人各自摸一头大象。 ▫️冲突只能在最后 merge 时才爆发,Agent 无法实时“互相看见”对方的工作,只能各自狂写然后打架,效率直接腰斩。 ▫️worktree 本质是给单人人类设计的多分支工具,完全没为多 Agent 并行协作准备
Saito@SaitoWu

x.com/i/article/2046…

中文
1
1
6
964
BLANPLAN | 空界計劃
AI agent 邮箱 inbound 分类/触发端价值明确,outbound 场景在 receiver 侧遇到阻力。HR 用 agent 筛简历 candidate 感知到会降低投递意愿 (employer brand 成本),商务合作 decision-maker 偏好直接触达真人,agent 代收再转人流程增加一跳摩擦。个人产品客服场景里这套能跑起来,是因为 receiver 对普通客服响应质量本来期望就不高。
中文
0
0
0
19
Viking
Viking@vikingmute·
网易邮箱新推出的这个 ClawEmail 很有趣,非常 AI Native,它是一个专门给 AI Agent 用的邮箱,有一个单独独特邮件域名,当有用户给这个地址发邮件后,ClawEmail 提供了两个核心组件,一个是 Email Channel,Channel 收件并且解析发来的邮件,然后触发 Agent 理解内容、执行并回复。一个是 mail-cli,可以通过脚本通过规则批量处理邮件,是给 Agent 用的工具。 我这里更需要第一个功能,非常适合做独立开发者产品的自动客服邮件系统,OpenClaw 配合官方给出的 skills,可以快速搭建这样一个系统,根据用户来信自动按意图分类,比如日常问题咨询、Bug 反馈、商务合作等等,日常问题 AI 自动回复,无法判断的问题转到个人邮箱由使用者本人做决策。将自己产品的一些上下文灌到配置文件中,就可以实现快速的AI 自动回复了,实验已经跑通了,现在虽然还没有那么智能,不能自动抓取自己的文档网站,需要手动灌进去,但是效果还是很不错的,可以看看视频演示。 我想到类似的场景还是很多的, HR 用来筛选简历,智能邮件客服,处理报名信息等等,很有价值。 官网还有更多的玩法,目前在内测,感兴趣的可以去看下:claw.163.com/?channel=viking #网易邮箱 #ClawEmail #AIAgent
中文
2
5
50
10.1K
BLANPLAN | 空界計劃
这类热词驱动的产品开发路径对一次性爆品友好,品牌复利属性弱。日本市场对特定社会情绪话题的短期买单意愿能支撑单品8000万,但次年同叙事产品很难复制这个数(同质品牌扎堆/消费者关注点漂移)。跨境电商做到品牌长线的案例通常走品类深耕(Anker/SHEIN/花西子),热词+场景+叙事这个组合在流量打法这一层跑得通,品牌打法需要的产品深度/售后体系/复购心智需要单独积累。
中文
0
0
0
58
姚金刚
姚金刚@yaojingang·
晚上和几位行业专家吃饭,一个很有意思的商业案例 这是一家跨境电商公司 他们当时做了这么一个事 先分析了当年日本年度热词,其中就有一个词:“性骚扰” 进一步分析发现,性骚扰的主要的场景是两个 第一个,是办公室场所 第二个,是公共场所 再往下,他们根据找到的大量照片,去分析这个被骚扰对象的画像的特点 最后发现,这些被骚扰的对象,有一个共同特点:胸大 于是,他们就设计了一个“护胸产品”,可以理解为,能让胸看起来变小的一个产品 产品准备好了,就开始去做大量的种草,比如:如何在公共场合防止被性骚扰,如何在工作公司里面防止被性骚扰,防止性骚扰的这个小奥秘、小神器之类等等 这个产品很快在日本市场引爆,第一年单品收入,就做到了8000万+ 它背后体现出来的,不只是选品能力,更是对社会情绪、热点语义、场景需求和内容叙事的整合能力
中文
9
5
64
17.7K
BLANPLAN | 空界計劃
真人拍摄的需求长期看会分化。工业光魔这类特效公司过去30年吃掉电影中真人不能做的部分,AI生成内容接管的是另一类扩展(长尾的非头部IP)。20年后这条假设成立与否取决于头部IP能否保持观众的情感绑定(演员+导演+品牌),这一层的经济价值主要锁定在粉丝经济那一侧,跟制作流程的变化相关性会下降。AI做长尾,真人做头部,两条线上的市场结构会分叉得更清楚。
中文
0
0
0
6
赵纯想
赵纯想@chunxiangai·
2.0 就要上线了。一切都建立在一个假设上: 20年后,人类依然需要真人拍摄和演绎的电影。 当然,从阿里出来,融资过亿的老板,来到我的家里,指着laper说:你愿不愿意听实话? 真让人伤心呐。但是Discord群组里,西班牙的编剧,加拿大的制片人,都在疯狂地给反馈。 AI创业,创成逆行者了。
中文
17
3
100
21K
BLANPLAN | 空界計劃
这种20天6000fo/6M流量的case集中在自媒体赛道头部极值区,中位数样本1个月数据通常差1到2个量级。35岁程序员做AI方向内容能起量,很大一部分是因为目标受众(同行/对AI感兴趣的互联网从业者)画像清晰,这批人已经聚集在X和小红书。在生活/职场/育儿这些泛流量赛道里同样的内容策略中位数结果会明显降低。赛道选择和受众匹配两端的前置条件直接决定了OPC转型在不同赛道的效率差。
中文
0
0
0
13
黄小木
黄小木@ai_xiaomu·
35岁 + 程序员+ i人 + 转型OPC + 从未做过自媒体。 来X 20天,6000fo,6M流量,拿到老马工资。 我是怎么做到的? 秘密都在这个视频里了,回馈大家👇。
中文
63
38
270
22.7K
BLANPLAN | 空界計劃
对这条做对称展开就会否定所有commodity类产品,Stripe、Shopify、Notion都在各自品类里有别人也能做的替代路径,壁垒长在distribution、network effect、数据壁垒这些次级因素上。AI能做的scope每6个月扩一轮,用它做筛选器等于把评估标的挂在一个移动靶上,今年筛掉明年又得捡回来。二阶壁垒的积累速度比一阶技术门槛更稳定,作决策变量更经得起时间。
中文
0
0
0
7
BLANPLAN | 空界計劃
丝滑感来自UX层的默认工作流 + 任务模板预设,hermes/openclaw走headless primitives路线,两者服务不同user segment。no-code automation历史上都是这种双层结构,Zapier的预制trigger-action pair面向业务侧快速搭建,IFTTT早期主要做primitive组合给开发者折腾,两类都跑出各自的长尾市场。primitive层的可扩展性和UX层的上手门槛在这类工具里一直是tradeoff变量,同一条产品线上共存得下来。
中文
0
0
0
58
郭宇 guoyu.eth
郭宇 guoyu.eth@turingou·
wanman 的效果太好了!实话说我目前用过这么多 harness 产品,没有一个能做到如此丝滑,如此方便上手,无论是 openclaw 还是 hermes agent 都是针对技术人员的产品,但 wanman 可以说是真正面向普通人,完全不用动脑子的 agent matrix
郭宇 guoyu.eth tweet media
中文
24
96
969
103K
BLANPLAN | 空界計劃
75分对标普通人这个比较在轴上错位了。agent在process volume + 一致性这层强,普通人在judgment edge case + 长时序任务连贯性这层强,两边评估维度不重合。75到90这段gap主要卡在long-horizon planning、taste判断、economic trade-off这些非吞吐量轴的维度,throughput拉满和这几块自动解锁没有传导链路。替代普通人和拿到优秀分属两条难度曲线。
中文
0
0
0
13
koffuxu
koffuxu@koffuxu·
@blanplan agent只能做到75分,还达不到优秀的水平,但这也足够超越很多普通人了
中文
1
0
1
102
koffuxu
koffuxu@koffuxu·
做视频还在手动剪剪剪? 这个开源项目用 AI Agent 把素材直接变成成片 🚀 ✅ 输入创意brief,Gemini 自动分析脚本 ✅ FFmpeg 驱动,多轨道智能剪辑 ✅ 一键导出广告级成片 做短视频、做内容营销的朋友,这个工具值得试试👇 GitHub 已开源,地址见评论区👇 #AI #Agent #视频剪辑 #开源 #AIGC
中文
3
24
147
10K
BLANPLAN | 空界計劃
The AlphaGo 3-3 analogy assumes verification symmetry that's missing here. AlphaGo's 3-3 invasion had MCTS rollouts + win probability as a built-in quality signal, so once humans saw the move they could verify it was correct without understanding why. A single Erdos proof lacks the equivalent signal, whether GPT-5.4's solution is novel or stitched together from existing math literature is not separable without a formal verification pipeline. The AlphaGo-moment framing needs reproducibility of the discovery pattern on 10-20 unsolved problems to hold.
English
0
0
0
8
QC
QC@QiaochuYuan·
people compared GPT-5.4's solution of erdos #1196 to alphago's move 37 but i think a tighter analogy is to alphago's unusual (at the time) preferences for the 3-3 opening and early 3-3 invasion against the 4-4 opening. human go professionals managed to completely miss alpha's continuation of the 3-3 invasion and had dismissed the usual continuation as inefficient - professionals would never have played an early 3-3 invasion before, it would have been dismissed as a beginner move - even though alphago's idea in retrospect was relatively easily understood once introduced. the space of possibility is large and it really is just possible to miss a good idea like this! eurogofed.org/?id=127
QC tweet media
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)@teortaxesTex

Terence Tao's takeaway is that GPT didn't have any grand idea, but human researcher culture has just… missed the basin where this problem is almost trivial. GPT, being nonhuman, reliably solves it in under an hour. In a way, this is even more humbling. erdosproblems.com/forum/thread/1…

English
9
20
319
33K
BLANPLAN | 空界計劃
Every probabilistic ML system at production scale runs through a two-stage pipeline: non-deterministic capability first, deterministic guardrails layered on top. Search went through 20 years of fuzzy matching then another 10 adding ranking determinism and reranker determinism. Recommenders follow the same stack, DL tower + rule-based compliance filters. Guardrail cost is the expected stage 2 once production traffic exposes the long tail of failure modes.
English
0
0
0
5
Arpit Bhayani
Arpit Bhayani@arpit_bhayani·
We spent millions building a wildly capable, human-like non-deterministic AI, and are now spending millions more trying to wrap it in guardrails and making it predictable and deterministic. Absolute cinema.
English
65
69
1.1K
27.4K
BLANPLAN | 空界計劃
封闭场景的传感器数据流 + 自动化标签 + 兽医时间投入做 baseline,这种对比下模型诊断超过兽医属 pipeline 标配,不算传统领域颠覆的证据。兽医的 economic value 多数落在 culling threshold 判定 + treatment cost-benefit trade-off,模型这块没碰。碎片化非结构化数据利用在单一SKU + high-volume + tight operations control 的场景 (猪场/产线QA/仓储) 效果最强,放到医疗诊断/法律文书这种泛传统领域 falloff 明显。
中文
1
0
0
283
中国政经事实ChinaFacts
中国政经事实ChinaFacts@ChinaMacroFacts·
听了牧原的业绩发布会,他们在养猪场地内做的智能化设备采集的数据做了模型,对于猪的疾病和死亡的诊断报告,准确度、信息完整度,已经超过了他们的一线兽医。 最近观察到的一些传统领域,因为碎片化、可改造的非结构化数据很多,利用好,效果是要比新兴领域的颠覆性强很多的。
中文
12
8
135
19.2K
BLANPLAN | 空界計劃
App Store downloads aggregate install curiosity and utility use into one number. ChatGPT's D30 retention sits around 30%, below core utility categories like messaging (70%+) and maps (50%+), so most installs drop off within a month. Revealed preference reads cleaner against weekly active time per user as the metric. Polls measure abstract value on the category level, downloads measure a single action under novelty pressure, the two numbers answer different questions.
English
0
0
0
10
Sky Marchini
Sky Marchini@rhcm123·
“People hate ai” is an expressed preference App Store downloads are a revealed preference
Sky Marchini tweet media
English
52
75
1.3K
79.7K
BLANPLAN | 空界計劃
Operational buildup only holds when per-vertical unit economics make replication uneconomical for new entrants. Stripe's compliance stack and Flexport's freight ops each took 4-7 years and hundreds of millions to build, producing unit cost curves that priced out follow-on entrants. Same heavy-ops scaffolding in a commoditizing adjacent market (last-mile delivery, rideshare ops) gets outspent by better-funded entrants within 2-3 years.
English
0
0
0
4
Paras Chopra
Paras Chopra@paraschopra·
Recently someone asked me if I were to do a software startup today, what would it be about? My immediate reaction was that I probably wouldn’t do a software startup at all. Instead, I’ll perhaps choose an idea with heavy operational buildup that cannot be replicated easily.
English
118
51
1.5K
138.6K
BLANPLAN | 空界計劃
LeCun 的 JEPA 方向 FAIR 内部推了三年,LeWorldModel 这篇的 setup 是 15M 参数跑 PushT toy task,规模还没迈过 BC policy 那条线。产品端 robotics 现在的主力 baseline(OpenVLA/π0/RT-2/GR-2)全是 imitation learning + VLA 的 supervised stack,没一家用 JEPA 架构。学术和产品分叉拉开一年多,LeWorldModel 离 production robotics 还差两到三个数量级的参数规模。
中文
0
0
1
60
皓樂芒
皓樂芒@howlemont·
作为图灵奖获得者,深度学习神经网络的“教父”级人物,Yann LeCun(扬・立昆),这几年比较憋屈, 因为现在大行其道的生成式AI恰恰不是他主张的AI道路。 Yann LeCun 这些年一直在说,如果你想让 AI 真正理解世界,尤其是去做规划和控制机器人,光靠“生成下一个词”或者“补出下一张图”可能不够。 他提出一种非生成式自监督学习框架JEPA(Joint-Embedding Predictive Architecture,联合嵌入预测架构),核心是在抽象嵌入空间中预测相关部分的表征,而非重建原始数据。 最新的这篇关于LeWorldModel的论文,第一次把这个想法做得比较像样了。 15M 参数,一张 L40S,几个小时训完。 虽然它还没有宣告生成式AI(generative AI)是死路一条,但是至少大家现在知道了,除了把模型越做越大,确实还有另一条路,而且这条路开始能跑了。 你可以把现在的两种训练AI 的思路,想成有两种学生。 第一种学生很会背题。 你给他看很多很多例题,他就记住这类题长什么样,下一步通常写什么。这样的学生很适合做“续写”和“补全”,这很像今天很多生成式 AI 擅长的事。 第二种,学生不急着背每一道题的表面。而是先搞清楚这道题背后的规律:哪些信息重要,哪些只是噪音,下一步为什么会这样变。 LeCun 更看好的就是第二种学生,JEPA 就是这条路线的代表。 JEPA 的想法可以用一句话解释: 别让模型死盯着每个像素的细节,先让它学会抓住世界的“摘要”,再预测这个摘要会怎么变化。 这个“摘要”在论文里叫 latent state。你可以把它理解成“高度压缩的世界笔记”。 比如一个机器人在桌子上推方块。对它来说,真正重要的也许不是每个像素的颜色和纹理, 而是: 方块在哪儿,机械臂在哪儿, 它们朝哪个方向动,下一步可能撞到什么。 如果模型抓住的是这些关键信息,它就更容易做计划。 问题是这条路以前一直容易出事。 最麻烦的问题叫 representation collapse。 听起来吓人,其实简单来说就是:模型偷懒了。 就像一个学生,不管老师问什么题,都写差不多的答案。表面上他每题都“答了”,实际上他根本没分清不同题目的区别。 JEPA 过去常常卡在这里。所以很多老办法都得加很多补丁:额外技巧、额外损失、冻结预训练模型,或者一堆难调的超参数。 现在的LeWorldModel 的进展在于它把训练这件事简化了很多。 按论文的说法,它只用了两条主要训练规则: 一条是预测下一步的 latent state。 一条是约束 latent space,不让它塌成一团。 可以这么理解: 你可以把世界压缩,但不能压缩到什么都分不清。 这就让 JEPA 这条路第一次看起来不像“只能在论文里讲得很漂亮”的东西,终于像一个真的能训练、能测试、能拿来比的系统。 结果表明,在 PushT 任务上,LeWM 的规划成功率是 96%,DINO-WM 是 92%。高了一点点。 但是重要的比较是速度,相比DINO-WM 约 47 秒的规划时间,LeWM仅需约 0.98 秒,。 为什么这很重要? 因为如果一个模型要拿去控制机器人,速度才是生命线。 花47 秒才想清楚下一步,机器人早就该撞墙了。 少于1 秒左右想完一轮,才开始像能真的用起来的系统。 这也是这篇论文最值得看的地方。 它提醒大家世界模型不只是比谁“看起来更聪明”,还要比谁“来得及行动”。 论文里还谈到两个很有意思的现象。 一个是,模型学出来的内部轨迹会慢慢变直。可以把它理解成:现实世界里本来很复杂的变化,到了模型脑子里,变成了更容易预测的路线。 另一个是,如果只是把物体颜色改掉,模型反应没那么大;但如果让物体突然瞬移,打破物理连续性,模型会感到惊讶。 这说明它学到的东西,可能不只是“画面长什么样”,还包括“世界应该怎么连续地运动”。 当然,这篇论文现在的规划步数还不长,只做到 5 步,它还依赖比较密的动作标签。 所以远远没到宣布胜利的时候。 到了更复杂的 3D 场景,尤其是需要很强视觉先验的任务,DINO-WM 还是更强。 因此LeWorldModel 没有证明,从今往后跟生成式AI (generative AI )非此即彼, 如果目标是聊天、写作、图像和视频生成,生成式模型当然还很强。 但如果目标是理解物理世界、快速做计划、把模型接进真实控制系统,让 AI 真正学会“下一步该怎么做”,而不是只会“下一帧该长什么样”,那未来几年最值得看的,也许就是这种更小、更快、更像在学世界规律的模型。 LeCun 这位计算机界诺贝尔奖的获得者(图灵奖),这条“先压缩,再预测”的路线,终于拿出了一份像样的工程答卷。 你大爷还是你大爷 arxiv.org/pdf/2603.19312 LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels
中文
8
73
413
72.4K
BLANPLAN | 空界計劃
Tokenizer change pushing 35% more tokens on the same prompt hits hardest in long-context agent workflows where input tokens compound across turns. Pro-plan users see it directly in monthly budget, API users in enterprise contracts get softer impact. Reports of regression tend to come from a specific segment: repeat prompt reuse on long codebases, where Opus 4.6 had caching wins that 4.7's tokenizer invalidated.
English
0
0
0
22
Li Yin
Li Yin@panda_liyin·
We decided not to hype Opus 4.7 in @adalengineer . After testing it, our view was simple: for production use, it feels more like a regression than an upgrade over Opus 4.6. A few reasons: - weaker performance on real-world tasks - less effortful reasoning - a hidden pricing hit from tokenizer changes, with the same prompt counting as up to 35% more tokens So while Opus 4.7 is now available in the latest version of AdaL, we’re not positioning it as a headline improvement. Right now, our team is still sticking with Opus 4.6, Gemini 3.1 Pro, and GPT 5.4. We’d rather be honest than promotional. If you’ve used Opus 4.7, I’d love to hear your review.
English
27
20
272
27.7K
BLANPLAN | 空界計劃
The 1M adds since 3M landed this week, same window Anthropic reported removing Claude Code from 2% of Pro plans. Codex absorbed some of that overflow. Active user counts at this scale also double count across tools since most devs keep 2-3 agents installed, so 4M here includes users who have Claude Code and Cursor open on other tabs.
English
0
0
0
48
Tibo
Tibo@thsottiaux·
Happy Tuesday. Codex has hit 4M active users, adding over 1M users in less than two weeks. To celebrate we will reset the rate limits again in a few hours. Enjoy!
English
354
178
4.8K
425.3K