Lucky

165 posts

Lucky

@Poyang_rex

杭州小矮子

Katılım Kasım 2017

303 Takip Edilen34 Takipçiler

Lucky@Poyang_rex·1d

@caiyue5 写代码不太行，但是分析个源码进行个文字创作啥的挺不错的

中文

Yue@caiyue5·2d

有人在 Claude Code 里用过 DeepSeek V4 Pro 吗

中文

1.3K

Lucky retweetledi

向阳乔木@vista8·3d

文章中论文PDF下载，AI解读的，可能有纰漏，推荐有空可以读原论文： blog.qiaomu.ai/deepseek-v4-te…

中文

6.6K

Lucky@Poyang_rex·3d

@jakevin7 这篇论文的链接在哪里呀，我找了一下没有翻到

中文

662

卡比卡比@jakevin7·3d

deepseek V4 论文里关于 'Agent 能力' 的训练部分值得深入阅读和学习。另外不得不赞叹的是deepseek 的工程能力还是依旧的如此扎实。包括自己设计DSL&实现DSec sandbox等等。里面有一个很巧思的地方，DeepSeek-V4 的 post train 由两个阶段组成：先独立训练多个domain-specific experts，再通过 ODP 合并成统一模型。下面是 V4 在 agent 能力训练上的一些思路： 1. 在 pre-train 中就注入了大量的 agentic data 来强化 agentic 能力。论文明确提到，为增强代码能力，DeepSeek-V4 在 mid-training 阶段加入了 agentic data - 让 base model 见过更长的任务过程。 - 让模型熟悉代码、命令、环境反馈、文件修改等模式。 - 给后续 Agent SFT/RL 提供更好的初始化，而不是从纯聊天模型开始硬训工具调用。 2. 训练多个“领域专家”，后训练的第一阶段叫 Specialist Training。论文说，对数学、代码、Agent、指令跟随等目标领域，分别训练独立专家模型 3. hard-to-verify 任务用 Generative Reward Model，传统 RLHF 往往需要训练一个 scalar reward model。DeepSeek-V4 论文说，他们在后训练中不再依赖传统 scalar reward model，而是针对 hard-to-verify 任务构造 rubric-guided RL data，并使用 Generative Reward Model，GRM 来评估 policy trajectory 4. 工具调用协议重新设计为 DSML/XML，V4 引入了新的 tool-call schema，自己设计的DSL格式，减少 escaping failure 和 tool-call errors 5. Interleaved Thinking，保留工具场景下的完整思考轨迹。在 tool-calling 场景中，整个对话过程的 reasoning content 都完整保留，包括跨 user message 边界。 6. Reasoning Effort 分模式训练，Agent 任务不是都需要最大推理。简单工具选择用 Non-think 更快；软件工程、搜索、长文档任务则可以用 High/Max，在成本和成功率之间权衡。 7. Quick Instruction 降低 Agent 前置决策成本 8. 最终用 OPD （multi-teacher On-Policy Distillation）把多个专家合并成统一模型 9. DSec：production-grade 沙箱支撑，V4为 Agentic AI post-training 和 evaluation 建的生产级沙盒平台，它运行在 3FS 分布式文件系统上，可以管理数十万并发 sandbox instances 10. RL/OPD rollout 也专门为长 Agent 轨迹优化 11. 构造自己的 Agent benchmark 集，构造了一个内部 R&D coding benchmark：从 50+ 内部工程师收集约 200 个真实任务，涵盖 feature development、bug fixing、refactoring、diagnostics，技术栈包括 PyTorch、CUDA、Rust、C++ 等。经过过滤后保留 30 个任务作为评测集

中文

481

56.5K

Lucky@Poyang_rex·3d

@tualatrix xcode 我只用 AI 的复制编程。真要用到 agent 介入了，我还是开 Codex

中文

679

图拉鼎@tualatrix·3d

原来 Xcode 的 Agent 功能是 SwiftUI 写的，难怪对话一长滚动起来就卡成幻灯片。SwiftUI 的性能还是不行，毕竟 Apple 自己也优化不好。

中文

114

27.1K

Lucky@Poyang_rex·4d

@realWeZZard 还好啦。我也是一次和 Agent 说很长的话，总比一点一点补齐省 token

中文

WeZZard@realWeZZard·4d

第一次和国产模型说这么长的话基本上达到了 Typeless 单次听写时长的极限

中文

1.3K

Lucky@Poyang_rex·6d

@tualatrix 数据越来越少了。

中文

图拉鼎@tualatrix·20 Nis

有种预感，今年的大模型会进入挤牙膏阶段：Claude 4.7 之后 GPT 5.5。GPT 5.5 后迎来 Claude 4.8，然后继续 GPT 5.6 拿出来迎战…然后 2027 年就来了。

中文

139

47K

Lucky@Poyang_rex·20 Nis

@siantgirl 因为 js 会修改渲染数据。

中文

1.5K

Ryo@siantgirl·20 Nis

前端一个很重要的知识谁也没有问过我。 JS 跑 → 渲染停渲染跑 → JS 停两边抢时间 → 掉帧、卡顿不好意思，我都不知道js和渲染不能同时发生。哈哈哈哈哈哈哈，草台班子是我了。

中文

123

35.3K

Lucky@Poyang_rex·20 Nis

@EEEEYHN 你的流式渲染怎么做的，我也做了一个类似的，卡在这里了。不知道怎么用原生高效的流式输出。

中文

641

EYHN@EEEEYHN·20 Nis

开源一个纯swift写的Agent Harness - kwwk 仓库提供一个Coding Agent CLI 和一个Agent SDK。 * 提供媲美 Claude Code 的 Harness 力，kwwk 后期几乎是自我迭代的。 github.com/EYHN/kwwk

中文

107

31.4K

Lucky@Poyang_rex·20 Nis

@Lakr233 靠，厉害。我也用 swift 写了个类似的，卡在如何在 TUI 里原生实现流式渲染了。我去看看你咋实现的。

中文

149

Lucky@Poyang_rex·18 Nis

@realWeZZard 降智前的还是降智后的

中文

WeZZard@realWeZZard·17 Nis

劝大家一句，赶快锁定 Kimi 的 699 月付套餐的包年版本。他们的模型已经达到了 Opus 4.5 的水平，估计后面会被抢疯。

中文

714

Lucky@Poyang_rex·17 Nis

@realWeZZard 说起来,KimiCodingPlan 在哪个平台上表现比较好.实在是抢不到 glm 了

中文

WeZZard@realWeZZard·16 Nis

KimiCode CLI 在人机互动上还有待提高。目前建议大家使用 OpenCode + Kimi for Coding 套餐中的 Kimi K2.5，会自动路由到 K2.6。如果你不想忍受 Claude Code 的降智，又想综合成本低一点，并且有非常好的效果，我觉得这个就是目前的 the go-to solution。

中文

411

Lucky@Poyang_rex·14 Nis

@realWeZZard 编程做那么远，glm已经搞不到了

中文

WeZZard@realWeZZard·13 Nis

原来我这几天的 Harness Agent 还有自建 Skill 的 Evaluation Agent 吃到的都是 Kimi K2.6

Kai@real_kai42

听说这次是真的很能打

中文

329

Lucky@Poyang_rex·14 Nis

@HiTw93 哈哈,我刚给你的 write 提了一个 pr,你看一下.感觉要是写技术文章的时候,还是要加上这几条.

中文

227

Tw93@HiTw93·14 Nis

继续和大伙聊我在 Waza 里面设计 Skill 的一些技术想法实现，这次聊的是我是如何设计 /check 这个代码 Review 技能的。首先我们需要知道模型本身告诉你他做完了，不一定是做完了，很有可能会留下一些不存在或者有问题的东西，经常会藏些问题，在 Agent 设计中我的工程经验是会给模型一个checklist用来校验是否真的做完了，这样往往会比你让他去检查效果好太多了。 /check 最开始做的时候设计就不是一个大而全的 reviewer，而是一个编排分工能力系统，其中 SKILLmd 是主审，负责审查的分级和流程控制，agents/ 下有独立的安全审查员和架构审查员，各管各的，互不干扰，什么时候拉谁进来，会由一份激活规则来判断决定，而非传统大家用的关键词匹配。分级逻辑也比较有意思，对于 100 行以下的代码快速review，100-500行的按需加专家，500行以上的全拉满，然后再加一轮对抗性测试，对抗性测试会从这四个角度来找漏洞，包括违反假设条件、组合失败下的问题可能、上下级串联错误的问题、滥用的场景等等然后发现的问题也分 4 级来处理，能安全修复的直接去修复了，大概了对的会打包出来让你手动再确定一次是否ok，需要判断的会问你，仅供参考的部分也会高数你，但是不会每一个小问题都来问你一遍，也不会越权帮你改行为逻辑。还有一个硬要求，验证没有跑完就不算完成，会自带一个探测的脚本，能识别Cargo、TypeScript、Python 等项目类型去跑测试，探测不到就直接报错，不会假装通过。这样就更像一个很经验的技术专家，在面对不同情况的问题review的一些经验，刚好我把这些经验用很简单方式沉淀到了 waza 的 /check 技能。最后最后，如果你对 code review 流程有更好见解，我非常欢迎你去给 Waza 写写 md，哈哈 github.com/tw93/waza

中文

108

13.8K

Lucky@Poyang_rex·14 Nis

@Lakr233 槽点可多了.明明单线程就能解决的地方,还要写MainActor

中文

146

砍砍.ᐟ@Lakr233·13 Nis

写 swift concurrency 跟吃了屎一样难用

中文

15.4K

Lucky@Poyang_rex·14 Nis

@HiTw93 @coldfisherman 哈哈,我也一样,现在都是自己和 AI 讨论,然后参考着搞一个自己的 Skills

中文

Tw93@HiTw93·13 Nis

@coldfisherman 哈哈我写waza 就是感觉 superpowers太重了

中文

258

Tw93@HiTw93·13 Nis

I’m sharing a few posts on how some of the more interesting skills in Waza are built. This one is about the thinking behind /design. The starting point was simple: I really dislike the kind of AI-generated websites that all look the same, usually with emojis, blue-purple gradients, and a generic polished look that is technically usable but visually forgettable. So I took the UI work I’ve made recently and had Claude Code study the way I prompt, refine, and correct design output. That became a base layer of design best practices and anti-patterns. On top of that, I pulled in the useful parts of Claude’s frontend design skill, which gave the whole thing a stronger foundation. For more specific rules, I learned a lot from pbakaus/impeccable. It contributed many of the concrete constraints: banned font lists, color system guidance, theme direction, CSS anti-patterns, animation rules, and other details that help the model build a more reliable sense of visual taste. I also borrowed part of the structure from getdesign, especially its simplified adaptation of Google Stitch’s nine-part scaffold. That gave /design a clearer knowledge framework instead of just a loose collection of tips. The last piece is context. Before using this skill, I ask a few questions first: who the page is for, what aesthetic direction you want, what you want users to remember, what you definitely do not want, and what kind of micro-interactions should define the experience. Once Claude Code has that context along with /design, the results are usually much better, with far less iteration. If you have strong design ideas, better rules, or useful references, feel free to contribute to Waza. PRs are welcome. Let’s build the most useful skill library for engineers together. github.com/tw93/waza

English

10K

Lucky retweetledi

砍砍.ᐟ@Lakr233·13 Nis

我们把 Xcode 打包进你的浏览器了免费账号就能签名安装无需下载任何软件光速替代 Cydia Impactor 欢迎来玩～

溴化锂@0x88FFA357

github.com/lbr77/SideImpa… 开源了，感谢砍砍@Lakr233 进行的超绝前端优化欢迎star/contribution

中文

538

77.5K

Lucky@Poyang_rex·11 Nis

@realWeZZard 厉害,我用 Codex 和 GLM 做的实验 Agent 还在全链路日志和 ReAct&Planning 里面转.

中文

WeZZard@realWeZZard·10 Nis

自己写的 Harness Agent 已经实现了 Sub Agent 了

中文

315

Lucky@Poyang_rex·11 Nis

@Lakr233 啊,上架之后还要自己导入音源吧

中文

647

Lucky@Poyang_rex·11 Nis

@realWeZZard 因为确实有点差,但是架不住模型确实 nb(不过最近也拉了).而且有各种教程和对新功能的迅速推进,使用起来还好.但是模型一旦拉了就不行了,我看见好多人最近都转想 Codex 了.而且 CC 对于长任务的上下文处理好像确实没有 Codex 厉害

中文

WeZZard@realWeZZard·10 Nis

我有句话不知当讲不当讲，我想把 Claude Code 的体验比喻成一个我用过很差的 Agent 产品，但我真的觉得不合适。

中文

124

Lucky retweetledi

Jason Lee@huacnlee·10 Nis

我们最近搞的 Longbridge CLI 已经比较完善了，也为此增加了很多数据 API，目前已经有 40 多个子功能，涵盖各类投资参考信息。以前 CLI 仅是程序员特有的工具，现在有了 AI 加持，人人都可以有一个专业的投资助理。 open.longbridge.com/docs/cli/

中文

330

60K

Keşfet

@caiyue5 @jakevin7 @tualatrix @realWeZZard @siantgirl @EEEEYHN @Lakr233 @elonmusk