Andy Yang
1.3K posts

Andy Yang
@AndyEduAI
10+ years Engineer. Building AI tools with my daughter (Build in Public). Hacking learning efficiency via AI x PBL. HK 🇭🇰. Sharing the Dev & Growth journey.


everything’s high risk if you’re a p*ssy.

Available in four sizes: 🔵 31B Dense & 26B MoE: state-of-the-art performance for advanced local reasoning tasks – like custom coding assistants or analyzing scientific datasets. 🔵 E4B & E2B (Edge): built for mobile with real-time text, vision, and audio processing.


晚点 LatePost 发了一篇 DeepSeek 深度报道《V4 发布前的 DeepSeek:特质、组织和梁文锋的独特目标》 mp.weixin.qq.com/s/bYZrKp48Y7Ep… 时间点卡在 V4 发布前夕。信息密度很高,摘几个最值得关注的点。 【1】核心成员离职,但没有成组流失 四位已确认离开的成员里,分量最重的是 DeepSeek-R1 核心作者郭达雅,近期正式离职,可能入职某大厂。另外还有去年底被腾讯姚顺雨挖走的王炳宣(第一代 LLM 核心作者),以及 OCR 系列核心作者魏浩然、多模态方向的阮翀。 猎头给 DeepSeek 成员开出的条件是“翻 2 到 3 倍”,有公司直接给 8 位数总包。加上智谱、MiniMax 上市股价高涨,阶跃和 Kimi 的 IPO 也提上日程,DeepSeek 那份没有明确标价的期权让一些成员产生了疑问。 梁文锋正在想办法给公司估值,给团队更多确定性。 【2】V4 可能 4 月发布,大概率开源最强但不会碾压 1 月左右,V4 的小参数版本已经给到一些开源框架社区做适配。原本乐观预期是春节前后发大参数版,现在推迟到 4 月。 晚点的判断是:V4 大概率仍是开源最强模型,但很难是碾压级的强。原因是进入 Agent 时代后,“强”的标准越来越多元,不同场景、不同用户的体感差异很大。 【3】DeepSeek 的“反主流”路线 梁文锋有两个不太主流的优先级:一是基于国产芯片生态做大模型,DeepSeek 已经在做国产 GPU 适配,把底层算子库从 CUDA/Triton 换成了北大开源的 TileLang;二是做“原创式创新”,包括统一多模态的 Janus 系列、形式化证明的 Prover 系列、用图片方式理解文字的 OCR 方案,甚至招了神经科学和脑科学顾问来探索仿生学习机制。 代价是,DeepSeek 在 Agent 和编程这条当前最热的赛道上投入相对少。R1 之后,智谱更新了 5 版模型,MiniMax 4 版,Kimi 3 版,都在针对 Agent 和 coding 强化。OpenRouter 过去 30 天的 token 消耗排名里,DeepSeek-V3.2 排第 12,前 10 中有 6 个来自中国公司。 【4】不过,变化已经开始 DeepSeek 最近首次在招聘启事中提到了具体产品名,要招 Agent 方向的“模型策略产品经理”,岗位要求里写着“熟悉并深度使用过 Claude Code、OpenClaw、Manus 等知名 Agent”。 梁文锋从去年秋天起开始更多提产品化和商业化。DeepSeek 已有小几十人的产品团队,但目前 C 端仍然只有一个标准 Chatbot。 【5】不卷文化依然在 DeepSeek 可能是全球唯一一个“不卷”的核心 AI Lab。多数员工下午 6 到 7 点走人,早上不打卡,没有明确的绩效考核和截止时间。梁文锋的逻辑是:一个人每天能高质量输出的时间很难超过 6 到 8 小时,加班疲劳下的昏庸判断反而浪费算力。 研究团队约 100 多人,只有梁文锋和研究员两个层级。梁文锋本人参与最多的是基模架构团队,会出席每个团队的会议,是串起不同模块的“粘合剂”。研究员可以自由组队,“有时开始一个新方向,就是因为三五个人都觉得一个 idea 不错,然后就一起做了。” 接近 DeepSeek 的人说:“留下的人多少还是有些理想的。” 在当前这个所有 AI 公司都在拼命卷 Agent 和编程的窗口期,DeepSeek 选择花精力做国产芯片适配和仿生学习,这到底是远见还是错过了最佳出手时机? 完整内容:mp.weixin.qq.com/s/bYZrKp48Y7Ep…

晚点 LatePost 发了一篇 DeepSeek 深度报道《V4 发布前的 DeepSeek:特质、组织和梁文锋的独特目标》 mp.weixin.qq.com/s/bYZrKp48Y7Ep… 时间点卡在 V4 发布前夕。信息密度很高,摘几个最值得关注的点。 【1】核心成员离职,但没有成组流失 四位已确认离开的成员里,分量最重的是 DeepSeek-R1 核心作者郭达雅,近期正式离职,可能入职某大厂。另外还有去年底被腾讯姚顺雨挖走的王炳宣(第一代 LLM 核心作者),以及 OCR 系列核心作者魏浩然、多模态方向的阮翀。 猎头给 DeepSeek 成员开出的条件是“翻 2 到 3 倍”,有公司直接给 8 位数总包。加上智谱、MiniMax 上市股价高涨,阶跃和 Kimi 的 IPO 也提上日程,DeepSeek 那份没有明确标价的期权让一些成员产生了疑问。 梁文锋正在想办法给公司估值,给团队更多确定性。 【2】V4 可能 4 月发布,大概率开源最强但不会碾压 1 月左右,V4 的小参数版本已经给到一些开源框架社区做适配。原本乐观预期是春节前后发大参数版,现在推迟到 4 月。 晚点的判断是:V4 大概率仍是开源最强模型,但很难是碾压级的强。原因是进入 Agent 时代后,“强”的标准越来越多元,不同场景、不同用户的体感差异很大。 【3】DeepSeek 的“反主流”路线 梁文锋有两个不太主流的优先级:一是基于国产芯片生态做大模型,DeepSeek 已经在做国产 GPU 适配,把底层算子库从 CUDA/Triton 换成了北大开源的 TileLang;二是做“原创式创新”,包括统一多模态的 Janus 系列、形式化证明的 Prover 系列、用图片方式理解文字的 OCR 方案,甚至招了神经科学和脑科学顾问来探索仿生学习机制。 代价是,DeepSeek 在 Agent 和编程这条当前最热的赛道上投入相对少。R1 之后,智谱更新了 5 版模型,MiniMax 4 版,Kimi 3 版,都在针对 Agent 和 coding 强化。OpenRouter 过去 30 天的 token 消耗排名里,DeepSeek-V3.2 排第 12,前 10 中有 6 个来自中国公司。 【4】不过,变化已经开始 DeepSeek 最近首次在招聘启事中提到了具体产品名,要招 Agent 方向的“模型策略产品经理”,岗位要求里写着“熟悉并深度使用过 Claude Code、OpenClaw、Manus 等知名 Agent”。 梁文锋从去年秋天起开始更多提产品化和商业化。DeepSeek 已有小几十人的产品团队,但目前 C 端仍然只有一个标准 Chatbot。 【5】不卷文化依然在 DeepSeek 可能是全球唯一一个“不卷”的核心 AI Lab。多数员工下午 6 到 7 点走人,早上不打卡,没有明确的绩效考核和截止时间。梁文锋的逻辑是:一个人每天能高质量输出的时间很难超过 6 到 8 小时,加班疲劳下的昏庸判断反而浪费算力。 研究团队约 100 多人,只有梁文锋和研究员两个层级。梁文锋本人参与最多的是基模架构团队,会出席每个团队的会议,是串起不同模块的“粘合剂”。研究员可以自由组队,“有时开始一个新方向,就是因为三五个人都觉得一个 idea 不错,然后就一起做了。” 接近 DeepSeek 的人说:“留下的人多少还是有些理想的。” 在当前这个所有 AI 公司都在拼命卷 Agent 和编程的窗口期,DeepSeek 选择花精力做国产芯片适配和仿生学习,这到底是远见还是错过了最佳出手时机? 完整内容:mp.weixin.qq.com/s/bYZrKp48Y7Ep…



Meet Gemma 4! Purpose-built for advanced reasoning and agentic workflows on the hardware you own, and released under an Apache 2.0 license. We listened to invaluable community feedback in developing these models. Here is what makes Gemma 4 our most capable open models yet: 👇

Meet Gemma 4! Purpose-built for advanced reasoning and agentic workflows on the hardware you own, and released under an Apache 2.0 license. We listened to invaluable community feedback in developing these models. Here is what makes Gemma 4 our most capable open models yet: 👇


不知道大家都是怎么进行团队内的 skill 管理与维护的?今天同事问我,我说用 git,但转念一想,skill 又不是代码,需要的是类似于 notion 那种协作编辑,快速测试,验证发布的流程











