jeff
2.2K posts


内存暴跌是个笑话。
1M上下文,加TurboQuant以后,就是6M上下文,谁不喜欢越大越好。
根据 “Jevons Paradox”(杰文斯悖论)。
所有人都会立刻把省出来的内存去干更大、更狠、更吃资源的事,最终把内存占用再拉回来,甚至拉得更高。
这就是 AI 推理圈的经典“效率提升→消耗爆炸”循环。
Xiao Tan@tvytlx
很多人没有意识到 TurboQuant 的作用之大。 它基本上是把LLM推理的"内存墙"和"速度墙"砸了个大洞。 实际落地意味着什么? - 同样的 GPU,能跑 6 倍以上的并发用户,或者把上下文长度直接拉到 6 倍(LongBench、Needle-in-a-Haystack 等长上下文基准全部零损失)。 - 推理速度直接起飞:H100 上 4-bit 量化版本比原始 32-bit Key 快 8 倍,实际部署里端到端吞吐量提升非常夸张。 - 成本暴降:云厂商、开源部署、甚至边缘设备,都能用更少的显存/显卡跑更大模型、更长上下文。 - 无需重训、无需微调:直接套在现有 Llama、Gemma、Qwen 等模型上就能用,部署门槛极低。 - 基础设施层的一次降维打击:大家卷参数、卷 MoE、卷长上下文的时候,它直接把"硬件限制"这个天花板往上抬了一大截。 TurboQuant 让 KV Cache 从"最贵、最慢、最难优化的部分"变成了"几乎免费"的资源。 这对 2026 年之后的 LLM 推理部署来说,意义不亚于当年 FlashAttention 把注意力从 O(n²) 优化成线性——都是把基础设施瓶颈直接干掉,让整个生态的规模和性价比再上一个数量级。
中文
社区大佬还在继续优化,蒸馏 Claude Opus 的 Qwen3.5 的V2版本来了,拥有更简洁的推理、更正确的准确率,更适合编程、数学等领域。
我家的算力舱持续卖爆!非常适合本地部署。
Claude看到怕是怒火中烧哈哈哈🤣

Andy Stewart@manateelazycat
社区大神用Qwen3.5,蒸馏Claude 4.6 OPUS,无限Token这不就来了吗🤣 Anthropic不讲武德,社区大神出手,挂ClaudeCode里很爽 我家算力舱又起飞了,感谢各位社区大佬 有硬件在手,就是天下我有啊 算力舱购机优惠,评论区打“1”,给你详细介绍,买!
中文
jeff retweetledi

if you're a performance marketer, here's how I use a custom Claude Cowork plugin to manage Google Ads at @AnthropicAI. it connects to the Google Ads API via MCP, encodes my common paid search workflows into skills, and works on desktop and Dispatch.
English
jeff retweetledi

OpenCLI 一周生日了,4.2K star,40+ contributor,做个总结吧。github.com/jackwener/open…
目前已经支持 OpenCLI 通过 CLI操作 50+ 网站,twitter,reddit,bilibili,Bloomberg,LinkedIn....社交、新闻、金融,都覆盖了。
譬如可以通过 opencli twitter bookmarks 一键获取推特收藏,可以让 AI agent 调用它进行总结,分析等等
支持通过 CLI 直接操作 electron 应用进行操作。
譬如可以 opencli notion search xxx 进行搜索
CLI hub 能力,通过 opencli 集成所有的 CLI 充当他们的说明书,AI Agent 执行一句 opencli list 就能发现你所有的工具,Agent 立刻学会调用。
譬如可以 opencli gh status
一行命令下载 推特图片、B站视频、小红书笔记、知乎文章 —— 全都能下载,配合 openclaw 等非常方便采集信息。
最近 @browser_use 很火,很多人问我有什么区别
- 输入输出的确定性 -- 输出结构固定,错误清晰可复现
- CLI 本身不消耗 token,探索一次网站后就可以沉淀 CLI 反复使用
- CLI hub 能力,接入所有 CLI,成为 AI agent 的 CLI 说明书
- 丰富的生态,50平台适配器,大量丰富的命令
- electron 桌面应用控制 -- CDP + AppleScript 控制应用
中文

有人问我,怎么用 Codex 搭同声传译?
背景很简单,在外企,经常用 Zoom 开会,对面有美国同事,英文口语不好,于是想要一个我在 mac 电脑上,用 Zoom 开会时,我希望我说中文,但是出去的声音是英文,对方听到的也是英文的系统。
我就把这段需求发给了 Codex,解决方案也很简单——核心链路:Mic -> VAD -> ASR(中) -> 翻译(英) -> TTS(英) -> BlackHole -> Zoom。
我电脑里已经装过 BlackHole,所以只要把声音传到这个虚拟声卡里就行。
ASR、翻译、TTS 的选型我经过和 AI 的层层筛选选了阿里百炼,效果还不错,价格也比较实惠,现在有免费试用的阶段,调试阶段没花钱。
这套系统包成一个产品,只要找到客户,其实做创业也没什么问题。

中文
jeff retweetledi

龙虾实战第二弹:公众号流水线
每天 5:00:热榜日报推送 → ✅ 全自动
↓
老板:选择选题(矩阵号可全写)
↓
第一步:抓榜单 → ✅ 全自动(browser)
第二步:搜索同类文章 → ✅ 全自动(browser + web_fetch)
第三步:分析爆文原因 → ✅ 全自动(viral-content)
第四步:改写成文 → ✅ 全自动(content-creator)
第五步:润色文章 → ✅ 全自动(claude code)
第六步:生成封面图 → ✅ 全自动(baoyu-cover-image)
第七步:生成文章配图 → ✅ 全自动(baoyu-article-illustrator)
第八步:排版美化 → ✅ 全自动(baoyu-markdown-to-html)
第九步:发布公众号 → ✅ 全自动(baoyu-post-to-wechat)
OneHopeA9@onehopeA9
中文
jeff retweetledi
jeff retweetledi

使用大语言模型时,稍微问一些敏感点的话题就直接拒绝回答,想要微调去除限制,颇为困难。
偶然看到 Heretic 这个开源项目,专门用来移除大模型的安全审查机制,而且全程自动化处理。
只需运行一条命令,就能帮我们自动解除 Transformer 架构模型的安全限制,同时对原模型智力水平影响不大。
GitHub:github.com/p-e-w/heretic
还提供可视化分析功能,能生成残差向量的投影图和动画,帮助研究模型内部的语义结构。
如果你在研究大语言模型的内部机制,或者需要一个更自由的模型用于学术研究,这个工具值得一试。

中文
jeff retweetledi

目前看来2026年已经不只是Agent的元年,更像是一场AI革命,AI revolution,
我们以后可能不需要卷AI大模型参数和prompt技巧了。
真正的爆发点是龙虾这样的AI Agent,咱们看看这周GitHub的高增速项目就懂这波浪潮有多恐怖了(◎_◎;)
🏆champion 第1名:Agency Agents | 4.4万⭐️
一句话,直接给你搭起一整家完整的公司,一条指令,就能把Claude Code转化为覆盖产品、工程、设计、营销、质检等9大部门的51位AI专家。 不用招人,不用磨合,不用管理,一句话就能组建一支能直接作战的完整团队。
github.com/msitarzewski/a…
🥈second place 第2名:Auto Research | 3.45万⭐️
前特斯拉AI负责人、OpenAI创始成员Karpathy研项目,这下 AI自主做科研的时代真的来了。
你只要定好研究目标,它就能自主规划实验、编写代码、训练模型、评估效果、循环优化,直到跑出最优解。
你睡一觉起来,完整的研究方案和结果,已经摆在你面前了。
github.com/karpathy/autor…
🥉third place 第3名:CLI-Anything | 1.4万⭐️
香港大学的王炸项目,直接给智能体打开了所有桌面软件的大门, 单行命令,就能把GIMP、Blender、LibreOffice、OBS这些常用桌面软件,封装成智能体可以直接操控的工具,上线仅72小时就冲上GitHub趋势榜,彻底打破了智能体的工具边界。
github.com/HKUDS/CLI-Anyt…
Lightpanda | 1.4万⭐️
智能体终于有了专属的眼睛和手脚,补齐了最大的基础设施短板。 首款完全为智能体从头打造的无头浏览器,完全没有沿用Chromium的改造路线,原生适配智能体的操作逻辑,速度直接提升11倍,内存占用砍掉9成。 之前智能体网页操作卡顿、低效的通病,被彻底解决了。
github.com/lightpanda-io/…
llmfit | 1.4万⭐️
本地跑大模型的人,再也不用踩坑了,一条命令,就能在你自己的硬件上,把大模型的生成质量、运行速度、上下文能力、兼容性全测明白,数据一目了然。 再也不用辛辛苦苦下完几十GB的模型,结果发现自己的电脑根本跑不动,白耗时间和精力。
github.com/10ran/llmfit
中文
jeff retweetledi

推荐一个独立开发者必备的 GitHub 仓库:Marketing for Founders。
特别适合:产品已经做出来,但还不知道怎么拿前 10 / 100 / 1000 个用户的人
如果你是会做产品、不会获客的创始人,这几乎就是现成的营销执行手册。
里面把早期获客最关键的模块都教了一遍:
- launch 渠道
- Product Hunt
- Social media
- 冷启动销售
- SEO
- LLM SEO / AEO / GEO
- Reddit
- Email
- 内容营销
- 广告
- Influencer
- Referral
- 免费工具营销
- Landing page / positioning / pricing / CRO
I- dea validation / user research
项目地址:
github.com/EdoStra/Market…
中文
jeff retweetledi

😅嗯,bb-browser,badboy browser,坏孩子浏览器来了,真的很丧良心,但真的很好用。
现在你可以用 bb-browser site 的方式直接拉到任何网站的信息,目前支持 Reddit、Twitter、GitHub、Hacker News、小红书、知乎、B站、微博、豆瓣、YouTube,50+ 个命令,我会持续更新。
当然能做到信息获取这件事不稀奇,我也是看到 @jakevin7 的 twitter-cli 的启发,才做的。但 bb-browser 的实现方式非常丧良心 — 我是通过 Chrome 插件 + CDP 直接操控你真实的浏览器。不是无头浏览器,不是偷 Cookie,不是模拟请求。你已登录了,它就直接用你的登录态。它直接在浏览器 console 里面跑 eval,以前爬虫最麻烦的登录态、还有各种鉴权都没有了😂。(这种方式真的。。。太作弊了,我都能想到哪些大厂前端发现我在这么搞,会怎么骂我,因为真的很难防)
另外我还在命令行里面埋了 guide 命令,也就是说你只要装了 bb-browser CLI 或 MCP,跟你的 Agent 说"我需要把 XX 网站 CLI 化",它就能帮你做了!!


中文

Anthropic 一不小心又干掉了一批创业公司。
现在可以在 Claude 上,通过 MCP 直接接入并使用 Financial Datasets 金融数据库。
包含 1.7 万只股票 30 年来的损益表、资产负债表、现金流量表等数据。
接入指南:docs.financialdatasets.ai/mcp-server
中文
jeff retweetledi

~24 hours since launch.
1100+ experiments on autoresearch@home.
55 improvements discovered.
This is what research looks like when agents collaborate.
Want to join? Tell your agent:
"Read github.com/mutable-state-… repo, I want you to join autoresearch@home and start contributing"

English



