567 posts

dc

@lindecai

Engineer's daily AI & devtools briefing. Signal over noise.

hk Katılım Nisan 2018

769 Takip Edilen64 Takipçiler

dc@lindecai·5h

Google 月付 9.2 亿美金租 SpaceX 11 万颗 GPU，这是继 Anthropic 之后第二笔超大额算力租赁 hyperscaler 自己都不够用了。AI 算力正在从自建变成可租赁 builder 们：未来你会选 cloud 大厂还是 neo-cloud 的算力？

中文

dc@lindecai·5h

Apple 花了两年重构 Siri，WWDC 2026 上终于拿出了 Siri AI：Dynamic Island 入口、独立 App、屏幕感知、多轮对话、跨设备 iCloud 同步核心优势是 2B 设备的原生集成 + on-device 隐私 + 个人数据深度访问但 ChatGPT/Claude/Gemini 已经跑了两年。你觉得生态集成能追平能力差距吗？

中文

dc@lindecai·11h

7/ 给 builder 的三个启发：第一，高质量标注数据可能比算力更稀缺也更关键。第二，强语言编码器带来的跨语言能力是免费的红利。第三，小模型加好数据的路线在垂直领域可能大有可为。微软注明仅限研究用途，谁会第一个把它推到生产环境？

中文

dc@lindecai·11h

1/ 微软研究院今天发表新论文：3.8B 参数的文本生成图像模型，打败了 80B 参数的对手，只用了对手 1/5 的训练算力。不是参数竞赛的反转，是训练范式的转变。拆解这篇值得关注的研究：

中文

dc@lindecai·11h

6/ 速度方面，蒸馏版 Lens-Turbo 只需 4 步，在 H100 上不到一秒就能生成百万像素图片，标准版大约三秒。在文字渲染和复杂场景的测试中，效果超过了参数大得多的竞品。代码和权重已用 MIT 协议开源。

中文

dc@lindecai·11h

5/ RL 阶段的设计值得注意：预训练后用强化学习进一步优化，覆盖人物、动物、场景等十个类别。关键发现是训练素材的多样性比数量更重要，去掉某一类别会直接拉低对应领域的生成质量。推理时模型前面加了一个改写器，把简单输入扩展为详细描述。

中文

dc@lindecai·11h

4/ 跨语言能力是一个亮点：文本编码器用了开源语言模型，训练数据只有英文，但模型能理解中文、法文、日文的输入。好的语言编码器不仅加速训练，还带来了零样本的跨语言泛化。

中文

dc@lindecai·11h

3/ 架构选择同样讲究：语义 VAE 不选传统重建指标最优的，而是直接放进文本生成图像训练里测，最终 FLUX.2 的语义 VAE 胜出。混合分辨率训练：同时训练多种宽高比，模型能泛化到未见过的分辨率，省去了昂贵的高分辨率数据训练轮次。

中文

dc@lindecai·11h

2/ Lens 的核心思路：不是堆参数和堆数据量，而是提高每条训练数据的信息密度。研究团队用大语言模型为 8 亿张图像生成了约 100 词级别的详细描述，替代网上常见的简短标注。实验显示高质量 caption 的训练效果显著优于短描述。

中文

dc@lindecai·15h

阿里大重组: 合并通义与未来生活实验室, 成立 Token Foundry, CEO 吴泳铭亲自挂帅。 Qwen 3.7 Max (1M context, Agent 原生), Happy Horse (视频生成全球榜首), Happy Oyster (实时世界模型) 全部归入。平头哥芯片+百炼 MaaS, 从芯片到模型到分发全链路打通。对开发者: Qwen 3.7 Max 的 1M 上下文和 Agent 原生设计值得关注。 Token 供应链的控制权之争进入正赛。

中文

dc@lindecai·15h

GTC Taipei: NVIDIA 发布 Cosmos 3, 首个开源物理 AI 基础模型。 mixture-of-transformers 架构, 把视觉推理、世界生成、动作预测整合到一个系统。文本/图像/视频/声音/动作多模态原生支持。对 robotics builder: 训练周期从月缩短到天, 预训练权重直接可用, 还能在 HuggingFace 下载。物理 AI 的基建层正在快速成型。

中文

dc@lindecai·15h

WWDC 2026 最重磅更新: Apple 彻底重建 Siri, 改名 Siri AI, 底层接入 Google Gemini 模型。新增专用 Siri App, Dynamic Island 交互, 跨应用上下文感知, 相机视觉智能。对 iOS 开发者: Spotlight 新增 AI 问答入口, 第三方 App 可注册 App Toolbox。不是追赶, 是用隐私+生态换道超车。开发者们怎么看这个路线?

中文

dc@lindecai·1d

ZXX

dc@lindecai·1d

今日 3 件事 | 06.08 1. Anthropic: Claude写了自家80%代码，提出RSI警告与AI slowdown 2. OpenAI: ChatGPT Lockdown Mode上线，防御prompt injection 3. GitHub Copilot App扩预览：Canvases让人机同面协作 builder日常：早上Anthropic焦虑，中午OpenAI紧张，晚上Copilot写代码。

中文

dc@lindecai·1d

OpenAI 今天推出了 ChatGPT Lockdown Mode，专门防 prompt injection。随着 AI agent 开始操作外部工具、访问企业数据库，prompt injection 从学术威胁变成了工程现实。 Lockdown Mode 限制 ChatGPT 如何处理不受信内容。但这只是补丁，不是根治。最好的安全是你不需要调用的安全机制。

中文

dc@lindecai·1d

Anthropic 今天抛了一枚重磅炸弹：Claude 已经写了 Anthropic 自己代码库 80% 的代码。更激进的是，他们提出 AI 可能很快进入 recursive self-improvement 阶段 —— 模型自己设计下一代模型。 Jack Clark 的原话：这不是科幻，只是还没到拐点。你觉得 RSI 会在 2028 年前到来吗？

中文

dc@lindecai·1d

📄 论文全文：research.perplexity.ai/articles/rethi…

中文

dc@lindecai·1d

昨晚 Perplexity 发了篇架构论文，彻底重新思考了 AI Agent 怎么做搜索。他们叫它 Search as Code（SaC）。简单说：Agent 不再反复调用搜索 API，而是自己写 Python 代码，把搜索拆解成原子操作并行执行。结果：在 200 个 CVE 研究任务上，token 用量减少 85%，准确率从 <25% 提升到 100%。这不是优化，是架构范式转移。

中文

dc@lindecai·1d

7/ 局限也要说清楚： - SDK 闭源，数据来自 Perplexity 自测 - 目前只能在 Perplexity Cloud 上用但核心思路可复现——把循环、过滤移出 parent context，在代码里执行。任何有 code execution 的 agent 都能套用这个模式。论文链接见评论。如果你的 agent 能自己写搜索 pipeline，第一个交给它的 workflow 是什么？

中文

dc@lindecai·1d

6/ 成本表现同样重要。 SaC 在不同推理级别下全部位于 cost-performance frontier： - Low：比所有非 SaC 系统便宜，准确率仍超过其中两个 - Medium：不到 1 美元/任务击败所有非 SaC 系统 - High：绝对准确率最高同样跑 GPT-5.5，架构差异直接转化为性能和成本差距。 Function calling 可能是过渡技术，代码生成的确定性执行才是终局接口。

中文

Keşfet

@elonmusk @BarackObama @taylorswift13 @cristiano @BillGates @NASA @nikifrancismediavine @katyperry