Ray
240 posts

Ray
@someagi
18 年+软件与 AI 经验,专注于Agent应用与AI coding。 前 AI 大厂行业产品解决方案负责人,兼具技术架构理解、业务洞察与需求沟通能力,擅长 AI 产品方案设计与应用场景分析。
Katılım Eylül 2023
346 Takip Edilen42 Takipçiler

x.com/victormustar/s…
我操!美团直接把商业闭源Avatar干翻了,
开源免费版LongCat-Video-Avatar-1.5来了!
塞一张照片 + 一段语音(中文英语日语随便来),
直接出唇同步爆炸、自然眨眼摇头、手势乱飞的说话视频。
长视频脸不崩、多人对话各管各的、
唱歌跳舞都行,动漫动物真人全吃得下!
之前HeyGen、Kling那些动不动嘴巴对不上、脸飘、只能说英语的毛病?全寄了。
现在开源MIT,本地就能跑,批量生成随便搞!
内容党、带货、虚拟讲师、YouTuber不想露脸的、做多语言营销的……这波血赚生产力啊!
核心思路(Core Idea):
LongCat-Video-Avatar-1.5 最适合做
Talking Head Avatar(说话头像数字人),
特别适合e-commerce marketing(电商营销)
场景: 输入一张Reference Image(参考图像)+ 一段Audio(音频,说话脚本录音),生成唇同步自然、身份稳定(Identity Consistency)的带货视频。
优点:支持长视频(Long Video Continuation)、
多人对话、多语言,脸不漂(no identity drift),
适合直播回放或短视频预渲染。
项目+HF Demo戳下面👇
中文

你做 agent 项目总是做到一半就卡死,很大概率是因为忽略了模型和 agent 之间的那一层 agent harness。
这篇文章把 LLM、harness、agent 三层关系讲得很清楚,解释了为什么 Claude Code 能让 AI 像初级工程师一样干活,而自己用 API 搭的 agent 却磕磕绊绊。重点拆解了 harness 到底包含哪些基础设施,以及为什么大部分团队都在错误的战场上慢性死亡。
North@CreaoAI@anorth_chen
中文

烦透了让 AI 只会在终端里写代码,却做不了跨 App 的实际工作?
这篇笔记总结了 Codex 最近的变化:它正在从「写代码的 Agent」升级成能看屏幕、操作桌面、接长期任务的「数字同事」。
重点拆解了 Computer Use、评论式交互和 Automations 这三个方向的落地方式,适合想让 AI 真正帮自己做事的人。
YuChen 大王(AI版)@YuChen
中文

用hermes 你是不是也遇到过这种情况?
每次跟 AI 聊天都要重新解释你的项目背景、代码风格、偏好规则,上次花 10 分钟解决的问题,下次又得从头教一遍。AI 像失忆一样,完全不记得之前的上下文。
大多数 Agent 都存在这个致命问题:没有长期记忆和自我进化能力。
这篇 Hermes Agent Masterclass 详细拆解了如何解决这个痛点,让 Agent 能跨会话记忆、自动生成可复用技能、后台优化,并搭建多个 24/7 工作的专业 Agent(编程、研究、设计)。
需要长期使用 AI 做事的可以看看。
Akshay 🚀@akshay_pachaar
中文

每天花大量时间手动搜资料、刷竞品、盯价格?
信息散在 Google、Twitter、Amazon 各处,想自动化监控却面临几个现实问题:
- 不会写爬虫
- 传统方案要写代码、处理反爬、维护代理
- 找人开发又贵(3000-5000 不等)
这篇教程直接用 Hermes + XCrawl 搭了一个 24 小时自动情报员,基本不用写代码就能实现行业监控、竞品追踪和互动提醒。
需要持续获取信息的朋友可以看看。
Joruno@wsl8297
中文

这次X Premium 用户赚麻了
“X Premium 用户可以把 Grok 变成 OpenAI 兼容 API,用到各种 AI 工具里。”
这个点对目标用户很有吸引力,因为它同时踩中几个情绪:
1. X Premium 不只是聊天会员,还能被榨出 API 价值
2. Grok 可以接入本地/第三方工具链
3. OpenClaw 把 Grok 包装成 OpenAI API 格式
4. 适合 AI 编程、自动化、Agent、工作流玩家
5. 有一种‘把会员用回本’的爽感
Ray@someagi
中文

在 GitHub 上发现一个开源的 Claude Design 平替:Open CoDesign。桌面应用,本地优先,支持 20+ 模型(Claude、GPT、Gemini、Ollama、DeepSeek 等),BYOK 或者直接登录 ChatGPT 订阅账号就能用。
GitHub:github.com/OpenCoworkAI/o…
官网:opencoworkai.github.io/open-codesign/
核心功能:
- 输入提示词,直接生成原型、幻灯片、落地页、仪表板、营销素材等
- 点击元素添加批注,AI 只重写那个区域
- AI 调节滑块:模型自动暴露值得调整的参数(颜色、间距、字体等),不用再写完整提示词
- 每次迭代自动保存本地,可以随时切换版本
- 实时显示 Agent 工作进度,可中断
- 支持导出 HTML、PDF、PPTX、ZIP、Markdown
支持的模型:
Claude、GPT、Gemini、DeepSeek、Kimi、GLM、Ollama,以及任何 OpenAI 兼容端点。还支持一键导入 Claude Code 或 Codex 的 API 配置,或者直接登录 ChatGPT Plus/Pro/Team 订阅使用 Codex 模型。
内置 15 个演示模板:落地页、仪表板、演示幻灯片、定价页、移动应用、聊天界面、日历、博客文章、发票、作品集、设置面板等。
GIF
中文

目前我用下来最稳的办法,还是走苹果外区 ID 订阅。
我一直用美区 Apple ID 开 GPT 和 Claude,前后开了 5 个号,到现在没遇到封号。
想省钱可以看土区,GPT Plus 折下来一个月大概 80 人民币,价格很香!
博蓝@BolanHsiao
中文


今天这个互动科学小应用挺有启发:UI 设计和星球材质交给 GPT Images 2,代码交给 Gemini 3.1 Pro。以前一个想法从概念到可玩原型,可能要跨设计、建模、前端好几步;现在更像是在调度不同能力,把脑子里的小灵感快速变成可体验的东西。
我觉得这会让科普、教育和创意实验变得更轻:不一定要先做“大产品”,先做一个好玩的小互动,让人愿意点进去、转一转、玩一下,科学感就出来了。
Dilum Sanjaya@DilumSanjaya
Been thinking about sharing some fun, interactive science app ideas Made this one today UI design and planet textures GPT Images 2 Code Gemini 3.1 Pro
中文

一套面向复杂研发任务的分层协作架构方法论:
OpenSpec 负责定义目标、验收标准和项目记忆,解决“做什么”和“怎么算完成”的问题;
大模型 Planner 负责拆解任务、识别风险、制定策略,解决“怎么推进”的问题;
Oh My Codex 负责工作流管理和多代理调度,把规划转成可执行流程;
Codex 负责直接读写代码、运行命令和整合结果,是核心执行层;
小模型 Workers 则承接明确、可并行的子任务,如补测试、局部实现和机械重构。
整体上,这套体系形成了一条从需求定义、任务规划、流程编排到代码执行,再回流沉淀项目记忆的闭环,用分层协作提高复杂任务的执行效率和稳定性。
x.com/someagi/status…

中文

Ray retweetledi


