dc

567 posts

dc banner
dc

dc

@lindecai

Engineer's daily AI & devtools briefing. Signal over noise.

hk Katılım Nisan 2018
769 Takip Edilen64 Takipçiler
dc
dc@lindecai·
Google 月付 9.2 亿美金租 SpaceX 11 万颗 GPU,这是继 Anthropic 之后第二笔超大额算力租赁 hyperscaler 自己都不够用了。AI 算力正在从自建变成可租赁 builder 们:未来你会选 cloud 大厂还是 neo-cloud 的算力?
中文
0
0
0
32
dc
dc@lindecai·
Apple 花了两年重构 Siri,WWDC 2026 上终于拿出了 Siri AI:Dynamic Island 入口、独立 App、屏幕感知、多轮对话、跨设备 iCloud 同步 核心优势是 2B 设备的原生集成 + on-device 隐私 + 个人数据深度访问 但 ChatGPT/Claude/Gemini 已经跑了两年。你觉得生态集成能追平能力差距吗?
中文
0
0
0
44
dc
dc@lindecai·
7/ 给 builder 的三个启发: 第一,高质量标注数据可能比算力更稀缺也更关键。 第二,强语言编码器带来的跨语言能力是免费的红利。 第三,小模型加好数据的路线在垂直领域可能大有可为。 微软注明仅限研究用途,谁会第一个把它推到生产环境?
中文
0
0
0
23
dc
dc@lindecai·
1/ 微软研究院今天发表新论文:3.8B 参数的文本生成图像模型,打败了 80B 参数的对手,只用了对手 1/5 的训练算力。 不是参数竞赛的反转,是训练范式的转变。 拆解这篇值得关注的研究:
dc tweet media
中文
6
0
0
40
dc
dc@lindecai·
6/ 速度方面,蒸馏版 Lens-Turbo 只需 4 步,在 H100 上不到一秒就能生成百万像素图片,标准版大约三秒。 在文字渲染和复杂场景的测试中,效果超过了参数大得多的竞品。 代码和权重已用 MIT 协议开源。
中文
0
0
0
78
dc
dc@lindecai·
5/ RL 阶段的设计值得注意: 预训练后用强化学习进一步优化,覆盖人物、动物、场景等十个类别。 关键发现是训练素材的多样性比数量更重要,去掉某一类别会直接拉低对应领域的生成质量。 推理时模型前面加了一个改写器,把简单输入扩展为详细描述。
中文
0
0
0
12
dc
dc@lindecai·
4/ 跨语言能力是一个亮点: 文本编码器用了开源语言模型,训练数据只有英文,但模型能理解中文、法文、日文的输入。 好的语言编码器不仅加速训练,还带来了零样本的跨语言泛化。
中文
0
0
0
11
dc
dc@lindecai·
3/ 架构选择同样讲究: 语义 VAE 不选传统重建指标最优的,而是直接放进文本生成图像训练里测,最终 FLUX.2 的语义 VAE 胜出。 混合分辨率训练:同时训练多种宽高比,模型能泛化到未见过的分辨率,省去了昂贵的高分辨率数据训练轮次。
中文
0
0
0
20
dc
dc@lindecai·
2/ Lens 的核心思路:不是堆参数和堆数据量,而是提高每条训练数据的信息密度。 研究团队用大语言模型为 8 亿张图像生成了约 100 词级别的详细描述,替代网上常见的简短标注。 实验显示高质量 caption 的训练效果显著优于短描述。
中文
0
0
0
22
dc
dc@lindecai·
阿里大重组: 合并通义与未来生活实验室, 成立 Token Foundry, CEO 吴泳铭亲自挂帅。 Qwen 3.7 Max (1M context, Agent 原生), Happy Horse (视频生成全球榜首), Happy Oyster (实时世界模型) 全部归入。平头哥芯片+百炼 MaaS, 从芯片到模型到分发全链路打通。 对开发者: Qwen 3.7 Max 的 1M 上下文和 Agent 原生设计值得关注。 Token 供应链的控制权之争进入正赛。
中文
0
0
0
84
dc
dc@lindecai·
GTC Taipei: NVIDIA 发布 Cosmos 3, 首个开源物理 AI 基础模型。 mixture-of-transformers 架构, 把视觉推理、世界生成、动作预测整合到一个系统。文本/图像/视频/声音/动作多模态原生支持。 对 robotics builder: 训练周期从月缩短到天, 预训练权重直接可用, 还能在 HuggingFace 下载。 物理 AI 的基建层正在快速成型。
dc tweet media
中文
0
0
0
35
dc
dc@lindecai·
WWDC 2026 最重磅更新: Apple 彻底重建 Siri, 改名 Siri AI, 底层接入 Google Gemini 模型。 新增专用 Siri App, Dynamic Island 交互, 跨应用上下文感知, 相机视觉智能。 对 iOS 开发者: Spotlight 新增 AI 问答入口, 第三方 App 可注册 App Toolbox。 不是追赶, 是用隐私+生态换道超车。开发者们怎么看这个路线?
dc tweet media
中文
0
0
0
91
dc
dc@lindecai·
dc tweet media
ZXX
0
0
0
14
dc
dc@lindecai·
今日 3 件事 | 06.08 1. Anthropic: Claude写了自家80%代码,提出RSI警告与AI slowdown 2. OpenAI: ChatGPT Lockdown Mode上线,防御prompt injection 3. GitHub Copilot App扩预览:Canvases让人机同面协作 builder日常:早上Anthropic焦虑,中午OpenAI紧张,晚上Copilot写代码。
dc tweet media
中文
0
0
0
71
dc
dc@lindecai·
OpenAI 今天推出了 ChatGPT Lockdown Mode,专门防 prompt injection。 随着 AI agent 开始操作外部工具、访问企业数据库,prompt injection 从学术威胁变成了工程现实。 Lockdown Mode 限制 ChatGPT 如何处理不受信内容。但这只是补丁,不是根治。 最好的安全是你不需要调用的安全机制。
中文
0
0
0
22
dc
dc@lindecai·
Anthropic 今天抛了一枚重磅炸弹:Claude 已经写了 Anthropic 自己代码库 80% 的代码。 更激进的是,他们提出 AI 可能很快进入 recursive self-improvement 阶段 —— 模型自己设计下一代模型。 Jack Clark 的原话:这不是科幻,只是还没到拐点。 你觉得 RSI 会在 2028 年前到来吗?
中文
0
0
0
24
dc
dc@lindecai·
昨晚 Perplexity 发了篇架构论文,彻底重新思考了 AI Agent 怎么做搜索。 他们叫它 Search as Code(SaC)。 简单说:Agent 不再反复调用搜索 API,而是自己写 Python 代码,把搜索拆解成原子操作并行执行。 结果:在 200 个 CVE 研究任务上,token 用量减少 85%,准确率从 <25% 提升到 100%。 这不是优化,是架构范式转移。
dc tweet media
中文
8
0
0
69
dc
dc@lindecai·
7/ 局限也要说清楚: - SDK 闭源,数据来自 Perplexity 自测 - 目前只能在 Perplexity Cloud 上用 但核心思路可复现——把循环、过滤移出 parent context,在代码里执行。任何有 code execution 的 agent 都能套用这个模式。 论文链接见评论。 如果你的 agent 能自己写搜索 pipeline,第一个交给它的 workflow 是什么?
中文
0
0
0
22
dc
dc@lindecai·
6/ 成本表现同样重要。 SaC 在不同推理级别下全部位于 cost-performance frontier: - Low:比所有非 SaC 系统便宜,准确率仍超过其中两个 - Medium:不到 1 美元/任务击败所有非 SaC 系统 - High:绝对准确率最高 同样跑 GPT-5.5,架构差异直接转化为性能和成本差距。 Function calling 可能是过渡技术,代码生成的确定性执行才是终局接口。
中文
0
0
0
17