烟花老师

1.6K posts

烟花老师 banner
烟花老师

烟花老师

@teach_fireworks

AI 社区【一支烟花】 发起人, AI 应用架构师,分享深度 AI 内容,链接 AI 创业者

SH Katılım Şubat 2024
2K Takip Edilen4.5K Takipçiler
Sabitlenmiş Tweet
烟花老师
烟花老师@teach_fireworks·
写技术文章最烦的事之一:画图。 脑子里很清楚的架构,落到 draw.io 上总是对不齐、颜色难看、导出模糊。 所以我做了 fireworks-tech-graph,一个专门生成技术图的 Claude Code Skill。 o… 用法很简单—— t 「画一张 Multi-Agent 协作图:Orchestrator 调度 3 个 SubAgent,分别负责搜索、计算和代码执行,最后汇聚到 Aggregator 输出结果,玻璃态风格」 然后它会: ① 识别图类型 → Agent 架构图 ② 分配语义形状 → Orchestrator 用六边形,Agent 用六边形,存储用圆柱体 ③ 用语义颜色编码箭头 → 蓝色主流程、橙色控制流、绿色读写 ④ 自动导出 SVG + 1920px PNG 整个过程不需要写 DSL,不需要打开任何工具,一句话描述,图就出来了。 o… 目前支持 8 种图类型、5 种视觉风格,AI/Agent 领域的常见 Pattern 全部内置(RAG、Mem0、Agentic Search、Multi-Agent、Tool Call 等)。 开源,欢迎 star 和 fork 👇 github.com/yizhiyanhua-ai…
烟花老师 tweet media
中文
27
217
1.1K
407.5K
阿绎 AYi
阿绎 AYi@AYi_AInotes·
兄弟们,我现在手还在抖。 刚下班到家,手机弹出来Jason的艾特,说LeCun转了我的帖子, 我以为看错了,点进去才发现,是两篇。 那一刻站在玄关愣了好久, 就像小时候偷偷在作业本背面写的小故事,被最崇拜的老师看到,还认认真真打了个红勾😭😭😭 说实话这两篇都是有感而发,没有任何期待能被LeCun 看到或者点赞,结果巨佬直接转贴了,还是连续两条😭😭😭 这是我写号几个月以来,收到过最珍贵的认可, 心情复杂感慨 ,AI圈最不缺的就是喧嚣和情绪,但永远有人愿意听清醒的声音。 @ylecun Dear Yann,非常感谢,我会一直写下去,写扎实的内容,写不偏不倚的观点。 也谢谢每一个一直跟着看的朋友,爱你们🫡🫡🫡
阿绎 AYi tweet media阿绎 AYi tweet media
阿绎 AYi@AYi_AInotes

全网都在吹的LeCun新论文,90%的解读都是错的。 他们说生成式AI是死路,说过去三年花的几百亿全白费了,说15M参数的小模型就能吊打万亿大模型。 这些全是营销号的夸张, 我觉得这篇论文的真正分量比他们吹的还要重。 Yann LeCun团队这次解决了JEPA困扰了好几年的表征坍缩问题。 以前的世界模型,学着学着就会把狗车人都压成一模一样的向量,什么都学不到。 这次他们只加了一个极其优雅的数学正则化器SIGReg, 没有复杂的trick 和六个超参数要调,训练稳得离谱。 单张GPU几个小时就能训完,在机器人控制任务上,规划速度比巨型世界模型快48倍,成功率还更高。 最厉害的是它的隐空间里天然就编码了物理规律。 不用教,它自己就知道物体不能瞬移,知道速度和位置的关系。 能瞬间检测出物理上不可能发生的事。 这不是啥范式革命,也不会让GPT和Claude明天就死掉。 语言和创意生成,依然是自回归大模型的天下。 但它打开了一扇全新的门, 原来懂物理不需要万亿参数,不需要云端超算。 原来世界模型可以小到跑在机器人的本地芯片上。 过去三年,整个行业都在一条路上狂奔,堆参数,堆算力,堆数据。 所有人都以为只要足够大,就能懂世界。 现在我们终于知道,还有另一条路,一条更高效,更优雅,更接近真实世界运行方式的路。 生成式AI不会死, 但未来的智能体不会是只会聊天的大模型, 它会是一个懂物理的小世界模型,加一个大语言接口, 这才是这篇论文真正的意义所在吧 hhh

中文
61
37
532
130K
sitin
sitin@sitinme·
平时用 ElevenLabs 做语音克隆效果虽然好,但订阅费贵、按字符计费,长期做播客、有声书、AI 语音助手,成本实在太高了。 然后就发现了VoiceBox,完全本地运行,不用 API 密钥、没有额外收费、所有数据都保存在自己电脑上,完美平替各类付费语音服务。 它不是只有一个 TTS 模型,而是直接集成了 7 个不同的语音引擎。你想要高质量克隆、多语言支持、超快生成、长文本稳定输出,CPU 就能跑的迷你模型,还有支持表情语气、多国小语种、自然语言控声的专用模型,按需切换就行。 语音克隆门槛极低,只需要 3 秒音频就能复刻人声。你可以上传音频文件、直接麦克风录制,甚至直接截取网页播放的声音来克隆,克隆好的音色可以保存、导入导出,还能叠加优化提升相似度。 除了语音生成,软件还自带全套音频后期工具,支持变调、混响、音效处理,内置多种音色预设。 更实用的是多角色时间轴编辑器,可以拼接多条音轨、切换不同人声,做多人播客、有声小说对话完全够用,不用再额外开别的剪辑软件。 软件全平台适配,Windows、Mac 都有安装包,对各类显卡、苹果芯片都做了加速优化,没有独立显卡用 CPU 也能运行。 同时自带开箱即用的本地 API,开发者可以直接调用接口做游戏语音、APP 语音助手、批量生成音频,无调用限制、无 token 扣费。 整体来看,VoiceBox 把语音克隆、多引擎合成、音频后期、多角色编辑全部整合在了一个本地开源工具里。
sitin tweet mediasitin tweet mediasitin tweet mediasitin tweet media
中文
14
95
346
26.1K
肖师傅
肖师傅@xiaojietongxue·
@brad_zhang2024 以前还要写一大堆提示词,现在真的一句话的事
中文
1
0
1
128
烟花老师
烟花老师@teach_fireworks·
gpt-image 2真的是无敌了!卧槽
烟花老师 tweet media烟花老师 tweet media烟花老师 tweet media烟花老师 tweet media
中文
1
0
2
999
波妞PONYO
波妞PONYO@ponyodong·
最近我一直在用 ChatGPT 的 Image 2 反复打磨一套「角色 IP 设定卡」工作流,做得越多,我越觉得,这类图真正难的地方从来都不是“画得够不够华丽”,而是你有没有能力把一个角色的体系真正搭完整。很多人第一次看到这种图,会先被那种精致感打到,觉得重点是材质够不够梦幻、颜色够不够贵、画面够不够满,但说实话,这些东西都只是表层。真正决定一套角色设定卡有没有长期价值的,是这个角色有没有被建立成一个之后还能继续往下开发、往外延展、往深处生长的视觉单位。 也就是说,你做的到底是一张漂亮的图,还是一个可以持续生产内容的 IP 起点,这两件事看起来很像,实际上差得非常远。前者更像一次性结果,后者才是真正的资产。Image 2 最近让我越来越兴奋的地方,也正在这里。它不只是更会出图了,而是开始适合被拿来做角色世界观、视觉母设和系列化开发的前期基础。这个变化对做角色的人来说,其实比“更惊艳”重要得多。
波妞PONYO tweet media
中文
31
7
93
11.2K
向阳乔木
向阳乔木@vista8·
强烈推荐 AIgocode 的 Codex 中转,疯狂用一天,才花27块钱,且超稳定。 自己的ChatGPT Plus用一会儿Codex就到5小时限额。 彭总@sitinme 靠谱,也在X上活跃,有问题还能当客服,哈哈哈。 马上体验:aigocode.com/invite/AP5KFJWJ (赚个佣金,继续Coding开源博客)
向阳乔木 tweet media
中文
54
57
390
62.1K
Yanhua
Yanhua@yanhua1010·
4 年老 Mac 终于“呼吸顺畅”了!清理出 30G 空间,全是实打实的干货。 我做了两件事: 1️⃣ 手动手术: 砍掉微信这个“内存大户”(图 1,几十个 G 真的离谱)。 2️⃣ 深度挖掘: 推荐 @tw93 大佬的开源神器 Mole。 作为开发者最烦的就是各种 App 缓存和 开发工具构建缓存,平时根本找不着。Mole 一键就把这些深层垃圾给揪出来了,直接释放 15G。 🔗 GitHub:github.com/tw93/Mole
Yanhua tweet mediaYanhua tweet media
Yanhua@yanhua1010

不愧是国民级App,~67G 🚀🚀

中文
21
34
208
60.4K
志辉
志辉@iamzhihui·
重大消息,周一给大家带来干货 那就是打磨了两周的skills管理工具开源了 我觉得应该差不多,功能很棒 解决了我自己平时的痛点 现在基本自己一边用一边开发 1️⃣ 全局~/.agents/skills 的管理 2️⃣ 一键安装github上的skills仓库 3️⃣ 电脑全局项目skills管理 4️⃣ skills市场,官方和最佳推荐 5️⃣ 支持各大Coding Agent和OpenClaw/Hermes平台 6️⃣ 还支持AI解释skills 还贴心给大家准备了介绍视频 大家记得star下 我会继续努力打磨好 有问题记得来开喷哈 好的坏的都接受 也欢迎一起来共建 开源地址:github.com/iamzhihuix/ski…
中文
33
36
273
215.9K
烟花老师
烟花老师@teach_fireworks·
PR 流程agentic 应该是大势所趋了,ai coding 让github 涌入了海量的单次访问的用户和star ,star 开始严重的通货膨胀。 开源项目数量也是指数级的增长。 对于开源世界来讲整体应该是好事。 不过带来了一系列的副作用,大开源项目的维护者PR 审核负担越来越重 记得前几天有维护着吐槽现在PR的数量有很多垃圾内容,不堪其扰🤣 这篇文章的作者思路我理解应该是PR agentic 化的一种实践,个人感觉是个很好的思路,PR只是其中一环,整个流程都应该agentic 化。今年这块应该有蛮大进展
Avi Chawla@_avichawla

Steinberger said PRs should be Prompt Requests. It's a good framing because the review model actually changes when the author is an agent. When a human opens a PR, the reviewer assumes the author understood the codebase and made a few mistakes along the way. You catch edge cases, style violations, maybe a wrong pattern. The mental model is: this person knows the code, I'm checking their work. Agents don't carry that context. They don't know your quality profiles, your banned patterns, or which dependencies your team stopped using. They write code that compiles and passes surface-level checks. That's enough to land a commit. CI catches the deeper problems 20 minutes later. By then, the agent has moved on to the next task and built on top of whatever it just committed. This keeps happening because verification still lives outside the agent's workflow. The agent writes and commits. The pipeline validates after the fact. The gap between those two steps is where bugs, vulnerabilities, and technical debt accumulate quietly. The fix is moving verification into the agent's inner loop instead of running it after: → During a regular CI run, SonarQube stores full project context: dependencies, compiled artifacts, type information, and build configuration. → When the agent writes code in a file, it calls SonarQube's analysis engine mid-workflow. The engine restores that cached CI context, applies your team's quality profiles and security rules, and runs the same analysis your pipeline uses. This is not a linter but rather a full analysis. → Issues from the analysis are surfaced inside the inner loop. The agent fixes, re-verifies, and commits high-quality code. You get the same precision as a full CI scan, but in seconds and PRs that pass quality gates the first time. If you want to see this in practice, SonarQube Agentic Analysis (by @SonarSource) implements the exact solution. Note: this is available for free in beta to current SonarQube Cloud Teams and Enterprise customers. The setup is a project-specific .mcp.json file pointing to the SonarQube MCP server. That's it. Works with Claude Code, Cursor, Codex, Gemini CLI, and VS Code with Copilot. I have shared a hands-on GitHub repo in the replies on using Agentic Analysis with Claude Code to write cleaner code from the very first draft. Thanks to Sonar for working with me today.

中文
0
0
2
536
烟花老师
烟花老师@teach_fireworks·
这个方向有意思:Skill +RAG 传统检索增强生成(RAG)系统的核心痛点,是反复检索仍无法解决的持续性失败。 论文发现,这类失败大多并非因为知识库中没有相关信息,而是查询与证据空间之间的“对齐偏差”(例如口语化提问与知识库索引不匹配、多跳问题未拆解导致信息无法关联等)。 此前的自适应RAG方案,多采用“是否需要再检索”的二元判断,无法诊断失败的具体原因,只能盲目重试,导致效率低下、效果有限。 核心方法:Skill-RAG 框架 该框架由两大核心模块组成,形成“检测-诊断-修复”的闭环流程: 1. 轻量级隐藏状态探针(Hidden-State Prober) ◦ 工作原理:通过探测大语言模型(LLM)的隐藏状态,在两个关键节点判断是否出现检索失败状态: 1. 初次检索后,判断现有证据是否足以支撑回答; 2. 初次生成答案前,判断模型是否因信息偏差无法生成可靠答案。 ◦ 优势:无需额外训练大型分类器,轻量高效,可直接嵌入现有RAG流程。 2. 基于提示词的技能路由器(Skill Router) 当探针检测到失败时,路由器会诊断失败原因,并从4种针对性的“检索技能”中选择对应方案,而非简单重试: 技能类型 适用场景 作用 查询重写 口语化提问、缩写、代词指代等表述不匹配 将查询改写为更标准、匹配知识库的形式 问题分解 多跳推理、复杂逻辑问题 将复杂问题拆解为多个子问题,分步检索解决 证据聚焦 检索结果宽泛、信息冗余 从海量证据中筛选与问题强相关的关键片段 额外检索 前三种技能无法解决的极端情况 触发补充检索,兜底修复偏差 实验结果与核心发现 1. 性能提升显著:在开放域问答、复杂推理等多个基准测试中,Skill-RAG相比传统RAG和自适应RAG,在“硬样本”上的准确率大幅提升,尤其在分布外(OOD)数据集上表现突出,泛化能力更强。 2. 失败状态空间的结构化特征: 分析表明,这4种技能对应的失败场景并非孤立存在,而是分布在失败状态空间中相互独立的区域。这说明“查询-证据对齐偏差”不是单一问题,而是多类型的结构化问题,也验证了分技能路由的必要性。 价值: 1. 首次提出“失败状态感知”的RAG范式,突破了传统二元判断的局限,实现了精准诊断、按需修复的检索增强。 2. 提出的轻量级探针+技能路由方案,无需大规模模型训练,可直接适配现有LLM和RAG系统,落地成本低。 3. 揭示了RAG失败的结构化本质,为后续细粒度、可解释的检索增强研究提供了新方向。 局限性与未来方向: 论文指出,当前方案仍存在优化空间: • skill 路由的诊断准确率依赖提示词设计,复杂场景下可能误判; • skill的扩展性有待提升,目前仅覆盖4种常见失败模式,未来可扩展更多技能; • 对不同规模LLM的适配性,还需进一步验证。
elvis@omarsar0

Nice paper combining the strength of Skills and RAG. Most RAG systems retrieve on every query, whether the model needs help or not. This is wasteful when the model already knows the answer, and often too late when it does not. New research introduces Skill-RAG, a failure-state-aware retrieval system. It uses hidden-state probing to detect when an LLM is approaching a knowledge failure, then routes the query to a specialized retrieval strategy matched to the gap. Evaluated on HotpotQA, Natural Questions, and TriviaQA, the approach improves over uniform RAG baselines on both efficiency and accuracy. Why does it matter? RAG is moving from a single monolithic pipeline to a suite of skills an agent selects between. Knowing when to retrieve and what kind of retrieval to run will matter more than raw retriever quality as agents take on multi-step reasoning, where a single bad lookup derails the whole chain. Paper: arxiv.org/abs/2604.15771 Learn to build effective AI agents in our academy: academy.dair.ai

中文
0
3
8
715
烟花老师
烟花老师@teach_fireworks·
Claude Opus 4.7 highlight 1 Claude Opus 4.7 会严格按指令执行,不再像 4.6 那样自行脑补缺失信息。原有提示词大多仍可用,但表述模糊的需要修正。 2 相比冗长提示或更多规则,它更看重意图清晰明确。可将关键上下文一次性前置到 CLAUDE.md 中统一配置。 3 十条迁移要点:默认使用最高优先级(xhigh effort)、批量提问、提供正面示例、移除旧的引导框架、明确拆分子智能体、审查整体方案而非细节差异。 4 Opus4.7 在编程与创意任务上表现更优,但在模糊的多轮对话任务中有所取舍。其设计本身就更精准、更具智能体特性。 5 用好它的关键在于清晰规划意图,而非事无巨细地管控。将长效上下文前置,可降低成本并提升注意力效率。
Paweł Huryn@PawelHuryn

x.com/i/article/2046…

中文
0
0
1
459
烟花老师
烟花老师@teach_fireworks·
一个生产级别的agent 的运行时系统应该是什么样的? 这位保藏博主分享了这篇干货文章: 1 要建立良好的代理,需要具有提示和工具的强大安全带;强大的运行時可以处理持久的执行、内存、多租户、可观察性等。 2 持久执行使用任务队列和检查点,因此长代理循环在崩溃、部署和等待人工输入时幸存下来,从最后一步恢复。 3 内存包括通过检查点在线程中的短期内存,以及在具有语义搜索的名称空间键值存储中跨对话的长期内存。 4 多租户使用身份验证中间件隔离用户数据,使代理能够通过代理身份验证的用户凭据进行操作,并使用RBAC控制操作员访问。 5 Human-in-the-loop使用中断进行审批和澄清;流式传输提供实时进度,而策略则处理双重文本。 6 通过中间件的护栏强制执行PII编辑和工具限制等策略;可观察性提供痕迹,时间旅行使分叉调试,沙盒支持安全的代码执行。
Sydney Runkle@sydneyrunkle

x.com/i/article/2046…

中文
0
0
2
308
烟花老师
烟花老师@teach_fireworks·
RLMs是新的推理模型 推理模型是第一个明确的证明,语言模型功能可以通过测试时间计算进行扩展。 递归语言模型(RLM)是一种新的推理模型和趋势,这个博主详细介绍了RLMs 推理模型可通过测试时计算实现能力扩展。递归语言模型(RLMs)将推理能力与工具调用整合为统一的推理抽象范式。 递归语言模型将提示词视为可解析的运行环境,对其进行切片处理,并发起递归子调用,从而突破上下文长度限制。 在长上下文任务、LongMemEval 等长文本记忆基准测试,以及 LongCoT 这类长程推理任务上,该模型表现优于当前顶尖大语言模型。 最新研究结果表明,递归语言模型能够将长输入转化为结构化计算,小型模型借助递归机制实现性能大幅跃升。 目前该技术仍在成本、推理耗时不可控,以及如何让模型高效递归等方面存在挑战,但递归语言模型指明了下一代推理范式的发展方向。 术语简要说明 • Reasoning models:推理模型 • test-time compute:测试时计算(推理阶段动态扩容算力) • RLMs:Recursive Language Models,递归语言模型 • frontier LLMs:前沿大语言模型 • long-horizon reasoning:长程推理 • recursion:递归
Raymond Weitekamp@raw_works

x.com/i/article/2046…

中文
0
0
3
387
肖师傅
肖师傅@xiaojietongxue·
🎉视觉艺术,你不需要懂得的,在制作视频和图片时可以用得上,而且学会了挣钱就是指数级暴涨!
中文
42
255
1.3K
172.6K
LIN WEI
LIN WEI@skywind3000·
小孩对游戏开发感兴趣,但学了一年信奥(C++)只会在黑窗口里输出内容,正反馈太弱了,我扫了一眼现在 C++ 的游戏开发框架,都太复杂了,SDL 概念琐碎,SFML 使用麻烦,所以我写了个针对初学者的游戏库,只有一个头文件 GameLib.h 零依赖,拷贝到代码目录 include 就能用,十行代码就能出个小 demo:
LIN WEI tweet media
中文
37
32
339
119.6K
Xiangyu 香鱼🐬
Xiangyu 香鱼🐬@XianyuLi·
最近体感上说实话 尤其写代码 Claude code不如codex
中文
61
1
139
51.2K
Berryxia.AI
Berryxia.AI@berryxia·
🔥兄弟们!百度冷不丁发布了个 ERNIE-Image 8B 直接把开源文生图模型! 8B DiT 参数,却在 GenEval、OneIG、LongTextBench 三个基准全部拿下 open weights #1!(这里我们可以忽略) 核心杀手级能力: ✅ 中英文精确文本渲染(终于不乱码了) ✅ 复杂指令跟随 + 多对象精准控制 ✅ 海报、漫画、多格布局结构一致性拉满 ✅ 摄影、电影感、平面设计等风格全覆盖 ✅ 仅需 24GB VRAM 就能本地跑 还有 Turbo 版本:8步出图,速度+美感双在线! 看了一圈实例,我自己写过的提示词都看到不少… 模型 + Demo + GitHub 全开源👉 huggingface.co/ERNIE-Image
Berryxia.AI tweet media
中文
9
17
102
13.9K
烟花老师
烟花老师@teach_fireworks·
@berryxia 卧槽,我正考虑要不要做一个bytebytego 风格
中文
0
0
1
365
Berryxia.AI
Berryxia.AI@berryxia·
兄弟们!系统设计和后端工程学习神器! 每次觉得他们的图设计的真好看! ByteByteGo Substack 正式推荐,Alex Xu 团队用图解方式把复杂架构讲得通透又有趣! 1. 专注大型系统设计、Scaling、分布式系统、缓存数据库等核心主题 2. 每期高质量插图 + 深度解析,抽象概念瞬间变直观易懂 3. 结合真实工程案例和面试热点,适合工程师快速提升系统思维 4. 免费订阅即可获取最新干货,已帮助数十万开发者成长 强烈推荐给所有后端、架构师和准备面试的朋友!
Berryxia.AI tweet media
Alex Xu@alexxubyte

Figma Design to Code, Code to Design: Clearly Explained We spoke with the Figma team behind these releases to better understand the details and engineering challenges. This article covers how Figma’s design-to-code and code-to-design workflows actually work, starting with why the obvious approaches fail, how MCP solves them, and the engineering challenges that remain. Read the full newsletter here: blog.bytebytego.com/p/figma-design…

中文
5
26
111
14.7K