Davis Zhu

70 posts

Davis Zhu

@hamburgdd

中国广东省深圳市 Katılım Temmuz 2025

157 Takip Edilen8 Takipçiler

Davis Zhu retweetledi

Berryxia.AI@berryxia·25 Mar

🚀 Seedance 2.0 虽强，但闭源！兄弟们！现在来了完全开源的 daVinci-MagiHuman！ - 15B 单流 Transformer，从零训练 - 视频 + 音频联合生成，仅用 self-attention，无 cross-attention、无多流 - 单张 H100 就能 38 秒生成 5 秒 1080p 视频 - 人评胜率：80% 碾压 Ovi 1.1，60.9% 胜 LTX 2.3 - 支持 6 种语言（含中英日韩等），WER 仅 14.6% 速度源于极致简洁，质量却拉满！由 @SII_GAIR × @SandAI_HQ 打造，Apache 2.0 全开源这才是开源视频生成该有的样子！论文 / 模型 / 代码 / Demo 已放出 👇 你准备试了吗？

Pengfei Liu@stefan_fee

Seedance 2.0 is impressive. But it's closed-source! Introducing our daVinci-MagiHuman — a single-stream 15B Transformer trained from scratch that jointly generates video + audio. No cross-attention. No multi-stream branches. Just self-attention. ⚡ 5s 1080p video in 38s on a single H100 🏆 80% win rate vs Ovi 1.1 | 60.9% vs LTX 2.3 (2,000 human comparisons) 🌍 6 languages 📦 Fully open-source Speed by simplicity. By @SII_GAIR × @SandAI_HQ 📄 arxiv.org/abs/2603.21986 💻 github.com/GAIR-NLP/daVin… 🤗 huggingface.co/spaces/SII-GAI…

中文

131

621

103.3K

Davis Zhu retweetledi

Geek Lite@QingQ77·24 Mar

这是专门为我准备的项目吧，哈哈哈~~ LLM APIs with permanent free tiers for text inference. 一份只收“永久免费额度”LLM API 的清单 github.com/mnfst/awesome-…

中文

185

20.5K

Davis Zhu retweetledi

宝玉@dotey·22 Mar

发布一个新的 Skill：baoyu-youtube-transcript 输入 YouTube URL，直接抓取视频字幕，生成带章节、发言人和封面图的文档，不需要任何 API Key。【怎么用】选择这个 Skill，把 YouTube 链接丢进去就行。支持完整链接、短链接、嵌入链接、Shorts 链接，甚至直接输入视频 ID 都可以。默认输出带时间戳的 Markdown 格式，也可以导出 SRT 字幕文件。支持多语言，可以指定优先语言，也可以翻译成其他语言。第一次抓取后会自动缓存原始数据，之后换格式、换参数都不用重新请求，秒出结果。【工作原理】底层调用的是 YouTube 的 InnerTube API，这是 YouTube 内部用来获取字幕数据的接口，公开可用但没有官方文档。好处是不需要 Google API Key，不需要 OAuth 认证，脚本直接发请求就能拿到字幕数据。拿到原始字幕后，脚本会做一次智能断句处理：按句末标点（句号、问号、感叹号等）切分，跨字幕片段合并成完整句子，时间戳按字符长度等比分配，对中日韩文字做了专门适配。这样输出的文本是自然的句子，不是 YouTube 那种碎片化的逐行字幕。【章节分割】如果视频描述里有章节时间戳（比如 "0:00 Introduction"），脚本会自动解析，按章节把字幕分段，生成带目录的 Markdown。没有章节信息的视频，就按段落分组输出。【说话人识别】这是最有意思的部分。YouTube 字幕本身不带说话人信息，所以识别说话人需要 AI 后处理。流程是这样的：先用 --speakers 参数抓取原始字幕，脚本会把视频元数据（标题、频道名、简介）和 SRT 格式的原始字幕一起输出到一个 Markdown 文件里。然后启动一个 AI 子代理（用 Claude Sonnet，够用且省成本），按预设的 Prompt 模板处理这个文件。 AI 识别说话人的逻辑分三层优先级：首先从元数据推断，视频标题通常包含嘉宾名字，频道名就是主持人；其次从对话内容判断，比如自我介绍、互相称呼；都不行就用通用标签（Speaker 1、Host 之类），保持全文一致。如果后面对话中才出现名字，会回溯更新前面所有标签。处理完的输出是带说话人标签的分段对话，长独白会被切成 2-4 句一段，每段末尾带时间范围。【缓存机制】第一次运行会缓存四样东西：视频元数据（meta.json）、原始字幕片段（transcript-raw.json）、断句后的字幕（transcript-sentences.json）、视频封面图（cover.jpg）。之后不管切换格式还是重新生成，都直接用缓存，不再请求网络。加 --refresh 参数可以强制刷新。安装命令： $ npx skills add jimliu/baoyu-skills --skill baoyu-youtube-transcript 项目地址：github.com/jimliu/baoyu-s…

宝玉@dotey

New Agent skill: baoyu-youtube-transcript 🎬 Extract YouTube transcripts directly — no API key needed. ✦ Multi-language support ✦ Chapter segmentation ✦ AI speaker identification ✦ SRT & Markdown output ✦ Smart caching for instant re-formatting Just select the skill and paste a YouTube URL and go. Install: $ npx skills add github.com/jimliu/baoyu-s… --skill baoyu-youtube-transcript

中文

471

383.1K

Davis Zhu retweetledi

岚叔@LufzzLiz·22 Mar

代码升级公告📢: 随着官方平台更新，岚叔的OpenClaw 生成Seedance 2.0 视频仓库今天也更新测试完了，欢迎拉取新版本试用方式告诉小龙虾： pull下这个代码： github.com/cclank/lanshu-… 并安装至OpenClaw skill里即可过程感觉很丝滑，从调用到返回视频5分钟，全程不需要你参与，很自觉就把视频传回给你了

中文

323

51.6K

Davis Zhu retweetledi

超级个体｜柿子@yaohui12138·16 Mar

拿到OpenClaw之后你做的第一件事是什么？让它帮你写代码？搜资料？写文案？错了。这些全不是第一步你花了钱买了最强的AI工具，结果第一天就让它干最不值钱的事——因为它根本不了解你，不了解你的项目，不了解你的偏好。它只能给你通用答案第一步应该是让它学习你想想，一个新员工入职，你会第一天就让他做项目吗？不会。你会让他先了解公司、熟悉业务、看文档 agent也一样它不知道你的项目架构、不知道你的代码风格偏好、不知道你之前踩过什么坑。你不教它，它就只能用通用的方式帮你干活——能用，但不好用问题来了：怎么让agent学习？你让它读一下午文档，它全记住了。进度、要点、下一步该学什么，聊得头头是道第二天再打开，全忘了不是它不想记，是OpenClaw的对话窗口有上限。聊太多它会自动压缩旧内容，你教它的东西就被压没了学习不是一次性的事，是一个连续的链条：了解框架→跑通demo→记录要点→提炼方法→写入长期记忆这个链条一旦中间断了，就得从头来我的解法很简单：给学习任务建一个计划文件文件里就写几样东西——学习目标、步骤列表、当前进度、学到了什么每学完一步就更新文件。对话被压缩了也不怕，因为进度存在文件里，不在对话里新session打开，agent读完计划文件，接着上次的进度继续学学完的内容按三层记忆模型存下来： → 原始笔记存信息层，只追加不删 → 每天提炼一次存知识层 → 核心方法论写入长期记忆，每次session都加载这套跑通之后你的agent会变成什么样？你的代码风格它知道，你的项目架构它知道，你上周踩过的坑它也知道。不用你每次重复说，它自己就能按你的标准干活先让agent学会怎么学，再让它干活这个顺序搞反了，后面怎么调都是在打补丁怎么教agent学习、学习成果怎么存、三层记忆怎么配、计划文件的模板长什么样——这些落地细节我全写在中级篇里了社群里还有群友在互相交叉验证配置效果，一个人摸索三天的事，群里问一句可能三分钟就解决了评论区有入口

超级个体｜柿子@yaohui12138

x.com/i/article/2029…

中文

9.6K

Davis Zhu retweetledi

花叔@AlchainHust·16 Mar

x.com/i/article/2033…

ZXX

155

767

877K

Davis Zhu retweetledi

Guri Singh@heygurisingh·16 Mar

🚨BREAKING: This open source tool generates entire Minecraft worlds from real-world map data. It's called Arnis. You pick any location on Earth. Arnis builds it block by block in Minecraft. No mods. No world editors. No manual building. Just real geography. Here's how it works: → You select any area on the map using a rectangle tool → It pulls geospatial data from OpenStreetMap → Processes real-world elevation and terrain data → Maps every building, road, river, and landscape to Minecraft blocks → Generates a fully playable Java or Bedrock Edition world Here's the wildest part: It doesn't just flatten everything into a 2D grid. It reconstructs actual topography. Hills, valleys, coastlines. Real elevation data turned into Minecraft terrain. You can generate your hometown. Tokyo. Manhattan. The Swiss Alps. Anything OpenStreetMap has data for. Tom's Hardware, Hackaday, and XDA Developers all covered it. It even got cited in an academic paper on using Minecraft for flood preparedness education. Written in Rust. Ships with a full GUI. Works on Windows, macOS, and Linux. 32 contributors. 746 forks. 8,100+ GitHub stars. 100% Open Source.

English

516

6.6K

496.5K

Davis Zhu retweetledi

Orange AI@oran_ge·13 Mar

腾讯竟然搞出了 Agent 届的第一个流氓软件…

中文

149

159

1.2K

283.6K

Davis Zhu retweetledi

木子不写代码@ai_muzi·12 Mar

开源一个我自用的OpenClaw控制中心！可以一个面板： - 看哪些任务烧了多少 token(百分比) - 看整个 OpenClaw 现在健不健康 - 看每个 Agent 现在在干嘛，有没有卡住 - 看每个 Agent 用的模型、目录、权限 - 直接查看和修改 Agent 的记忆，人设、任务文档 - 看定时任务和心跳任务有没有正常在跑项目地址：github.com/TianyiDataScie…

中文

294

1.4K

359.9K

Davis Zhu retweetledi

卡尔的AI沃茨@aiwarts·11 Mar

新生的OpenClaw最少需要安装多少个Skills才能把飞轮转起来？现版本我答案是五个， self-imporving-agent（自我迭代） skill-creator（技能创造） find-skills（发现新技能） skills-vetter（保证技能安全） automation-workflows（把技能串起来当工作流）而类似的这样一套工作流，现在已经可以通过安装一个Skills加入到一个叫水产市场的Agent应用商店实现了🤔 （1/6）

中文

296

1.4K

97.6K

Davis Zhu@hamburgdd·22 Şub

@xxx111god 恭喜老哥喜提爱车🎉

中文

Jason Zuo@xxxjzuo·21 Şub

提车了以后上下班路上也能监督agent干活了话说有人尝试给openclaw接入Tesla fleet API吗？感觉会很有意思

中文

743

Davis Zhu@hamburgdd·20 Şub

Crazy！这个提升可不是一点半点啊

Andreas Storm@avstorm

Gemini 3 Pro vs Gemini 3.1 Pro

中文

Davis Zhu@hamburgdd·20 Şub

@xxx111god 有些人劝不动的，就像我朋友，曾经推荐他用web的gemini。经过他长时间的使用和gemini的记忆让gemini更加了解他了。后面ide，cli开始爆火的时候我让他去用，因为没有属于他的记忆他就觉得模型很蠢我也懒得和他争，爱古法古法去吧。有些人也只是用用而已，更进阶的东西本就不适合这类人

中文

274

Jason Zuo@xxxjzuo·19 Şub

让我惊讶的是多数人依然不理解怎么使用AI Agent 为什么要使用agent 昨天在xhs分享，被人评论“没必要搞这么麻烦，用Chatgpt也一样的效果“

huangserva@servasyy_ai

x.com/i/article/2024…

中文

104

35.4K

Davis Zhu retweetledi

Geek@geekbb·19 Şub

这条破圈了，我了个豆，很多外国人关注。

Geek Lite@QingQ77

Seedance 2.0 这细节做得很到位了，有变形金刚电影几十万美元一个毫无逻辑变形镜头的感觉了。

中文

22.2K

Davis Zhu retweetledi

80 LEVEL@80Level·19 Şub

.@puck_psx shared a tool that adds pixelated PSX-inspired aesthetics to any 3D model. Download: 80.lv/articles/styli…

English

841

37.8K

Davis Zhu retweetledi

余温@gkxspace·18 Şub

x.com/i/article/2024…

ZXX

319

1.5K

552.8K

Davis Zhu retweetledi

Next Indie@nexindie·18 Şub

1-3 player co-op factory-building roguelite game 'We Build Below' has been announced. Early Access launching in 2026 Steam page: store.steampowered.com/app/3929340

English

241

4.3K

288.1K

Davis Zhu@hamburgdd·18 Şub

@berryxia 太好看了老师，可以求一份嘛！

中文

Davis Zhu retweetledi

Berryxia.AI@berryxia·18 Şub

兄弟们！有没有星露谷物语的粉丝啊？我非常喜欢像素风的小游戏，于是想着给我的OpenClaw 🦞来个这个风格的主题！已经完成简体/繁体中文的支持，并且采用了pixel 字体。主题：春、夏、秋、冬。根据当前季节自动切换！增加Dashboard 看板模块自定义、倒入本地Skills 等功能。目前觉得还可以优化和可以定制的内容很多，完成度属于0.6 吧！如果你想要这个OpenClaw 主题桌面，记得一键三连！ 👍赞至少来100 个啊！好了！明天还要赶路，晚安兄弟们！

中文

5.2K

Davis Zhu@hamburgdd·18 Şub

That's right.

Jacob Posel@jacob_posel

x.com/i/article/2023…

English

Keşfet

@SandAI_HQ @xxx111god @puck_psx @berryxia @elonmusk @BarackObama @taylorswift13 @cristiano