893 posts

0

@leaf_genshin

千载相逢犹旦暮

東京渋谷区 Katılım Ağustos 2021

174 Takip Edilen117 Takipçiler

0@leaf_genshin·2h

@zuiaiyiyi 臭标志

日本語

100

熠熠舞@zuiaiyiyi·2h

丰川祥子是好女孩吗

中文

2.3K

0@leaf_genshin·2h

@rnpgpsl 评论区堪比动物医院

中文

115

live with physics 鴇鵬機工|Tokiho Engineering@rnpgpsl·13h

不会这他妈画的什么狗屁玩意🫪 先别管内容对不对这格式就不对然后内容也不对，这玩意能跑起来我吃屎

GoFly@GoGoFly23

好有一些 GPT image 2 生成的电路原理图，AI 会把所有行业都干翻嘛

中文

3.7K

0 retweetledi

夜之城鼠鼠@codyhunk·23h

好新颖的搭讪方式

中文

211

7.8K

0 retweetledi

由依🍥@youy1qwq·9h

打瓦打的

日本語

0 retweetledi

のすく@nosk_vrchat·6h

例のチェキのやつです

日本語

364

14.4K

168.9K

0 retweetledi

Evie | JE Labs🦄🍀@0xEvieYang·1d

深刻感知到了Vibe Coding和做产品之间的差距： Vibe Coding 3小时，就能够搭出个70分的demo；但要再提高个20分，把demo打磨成产品，需要的时间30个小时都不止。那20分就得要更深的know-how、更强的产品sense、更广的数据源......

中文

319

49.8K

0@leaf_genshin·6h

@wanyingbaobao @zhuy655159 @iihcii1 @meiyoubianjie1 @aws49T8EvYnPX7U 这是那个奥特曼吗

中文

336

过期的温柔谁需要？@wanyingbaobao·2d

@zhuy655159 @iihcii1 @meiyoubianjie1 @aws49T8EvYnPX7U 这他妈哪个傻逼逼啊，连码都不打

中文

5.5K

过期的温柔谁需要？@wanyingbaobao·3d

“对不起…我今天在雌竟的对决里输得一塌糊涂…沦落为了彻底的奴下奴哈啊啊……乳头要坏掉了……屁穴被抠得要高潮了……我明明是那么多人梦寐以求的骚货……却在这里像最贱的厕所一样……被玩弄得喷水喷得停不下来。雌竞胜利者@iihcii1 S妈妈@meiyoubianjie1

中文

903

18.2K

614.6K

0@leaf_genshin·9h

@hsn8086 启动

中文

hsn@hsn8086·1d

ZXX

493

402

76.8K

0 retweetledi

卡比卡比@jakevin7·1d

deepseek V4 论文里关于 'Agent 能力' 的训练部分值得深入阅读和学习。另外不得不赞叹的是deepseek 的工程能力还是依旧的如此扎实。包括自己设计DSL&实现DSec sandbox等等。里面有一个很巧思的地方，DeepSeek-V4 的 post train 由两个阶段组成：先独立训练多个domain-specific experts，再通过 ODP 合并成统一模型。下面是 V4 在 agent 能力训练上的一些思路： 1. 在 pre-train 中就注入了大量的 agentic data 来强化 agentic 能力。论文明确提到，为增强代码能力，DeepSeek-V4 在 mid-training 阶段加入了 agentic data - 让 base model 见过更长的任务过程。 - 让模型熟悉代码、命令、环境反馈、文件修改等模式。 - 给后续 Agent SFT/RL 提供更好的初始化，而不是从纯聊天模型开始硬训工具调用。 2. 训练多个“领域专家”，后训练的第一阶段叫 Specialist Training。论文说，对数学、代码、Agent、指令跟随等目标领域，分别训练独立专家模型 3. hard-to-verify 任务用 Generative Reward Model，传统 RLHF 往往需要训练一个 scalar reward model。DeepSeek-V4 论文说，他们在后训练中不再依赖传统 scalar reward model，而是针对 hard-to-verify 任务构造 rubric-guided RL data，并使用 Generative Reward Model，GRM 来评估 policy trajectory 4. 工具调用协议重新设计为 DSML/XML，V4 引入了新的 tool-call schema，自己设计的DSL格式，减少 escaping failure 和 tool-call errors 5. Interleaved Thinking，保留工具场景下的完整思考轨迹。在 tool-calling 场景中，整个对话过程的 reasoning content 都完整保留，包括跨 user message 边界。 6. Reasoning Effort 分模式训练，Agent 任务不是都需要最大推理。简单工具选择用 Non-think 更快；软件工程、搜索、长文档任务则可以用 High/Max，在成本和成功率之间权衡。 7. Quick Instruction 降低 Agent 前置决策成本 8. 最终用 OPD （multi-teacher On-Policy Distillation）把多个专家合并成统一模型 9. DSec：production-grade 沙箱支撑，V4为 Agentic AI post-training 和 evaluation 建的生产级沙盒平台，它运行在 3FS 分布式文件系统上，可以管理数十万并发 sandbox instances 10. RL/OPD rollout 也专门为长 Agent 轨迹优化 11. 构造自己的 Agent benchmark 集，构造了一个内部 R&D coding benchmark：从 50+ 内部工程师收集约 200 个真实任务，涵盖 feature development、bug fixing、refactoring、diagnostics，技术栈包括 PyTorch、CUDA、Rust、C++ 等。经过过滤后保留 30 个任务作为评测集