githubchy retweetledi
githubchy
769 posts

githubchy retweetledi

发现一个被低估的 AI 基建:XCrawl
XCrawl是一个网页抓取和数据采集的API,它让 Agent 拥有了真正意义上的"上网能力"。
它提供几个核心能力:
- Scrape:抓单个页面
- Crawl:批量跑整个站点
- Map:摸清网站结构
- Search:拿搜索结果
从单页到整站,从搜索到整理,一步打通。
用下来最直接的感受:
- 不给一堆原始HTML,直接输出Markdown、JSON、摘要、链接
- 基本不用二次清洗,拿来就能用
- 动态页面(JS渲染)也能处理
- 地区、语言、结构化提取都支持
- 成功率稳定
如果你在用OpenClaw,会发现很多Agent卡住不是因为模型不行,而是数据不好用。
XCrawl正好解决这块——让Agent自己搜、抓、读,继续执行下去。OpenClaw负责决策,XCrawl负责把信息接进来。
能落地的场景:
- 电商选品、竞品整理
- 招聘、社交、新闻信息汇总
- SEO关键词跟踪
- 自动整理资料、生成报告
原本需要人工收集的数据,现在跑个流程就行。
它遵循公开网页+合规采集的原则,自带规则约束。
这不是更强的爬虫,而是把"获取数据"变成可以直接接进Agent的能力。
做Agent或自动化,XCrawl 是一个趁手的工具。
中文
githubchy retweetledi
githubchy retweetledi
githubchy retweetledi
githubchy retweetledi

论文来了。名字叫 MSA,Memory Sparse Attention。
一句话说清楚它是什么:
让大模型原生拥有超长记忆。不是外挂检索,不是暴力扩窗口,而是把「记忆」直接长进了注意力机制里,端到端训练。
过去的方案为什么不行?
RAG 的本质是「开卷考试」。模型自己不记东西,全靠现场翻笔记。翻得准不准要看检索质量,翻得快不快要看数据量。一旦信息分散在几十份文档里、需要跨文档推理,就抓瞎了。
线性注意力和 KV 缓存的本质是「压缩记忆」。记是记了,但越压越糊,长了就丢。
MSA 的思路完全不同:
→ 不压缩,不外挂,而是让模型学会「挑重点看」
核心是一种可扩展的稀疏注意力架构,复杂度是线性的。记忆量翻 10 倍,计算成本不会指数爆炸。
→ 模型知道「这段记忆来自哪、什么时候的」
用了一种叫 document-wise RoPE 的位置编码,让模型天然理解文档边界和时间顺序。
→ 碎片化的信息也能串起来推理
Memory Interleaving 机制,让模型能在散落各处的记忆片段之间做多跳推理。不是只找到一条相关记录,而是把线索串成链。
结果呢?
· 从 16K 扩到 1 亿 token,精度衰减不到 9%
· 4B 参数的 MSA 模型,在长上下文 benchmark 上打赢 235B 级别的顶级 RAG 系统
· 2 张 A800 就能跑 1 亿 token 推理。这不是实验室专属,这是创业公司买得起的成本。
说白了,以前的大模型是一个极度聪明但只有金鱼记忆的天才。MSA 想做的事情是,让它真正「记住」。
我们放 github 上了,算法的同学不容易,可以点颗星星支持一下。🌟👀🙏
github.com/EverMind-AI/MSA

艾略特@elliotchen100
稍微剧透一下,@EverMind 这周还会发一篇高质量论文
中文
githubchy retweetledi
githubchy retweetledi

AI代码编辑器Cursor 也加入模型等战场了!
他们刚刚发布了Composer 2,是他们首款自研代码模型,在 CursorBench 上得分 66%,超越 Claude Opus 的 58%,而中位任务成本仅为其三分之一(约 0.50 美元/任务)
要知道Cursor才50来号人😳
Cursor@cursor_ai
Composer 2 is now available in Cursor.
中文
githubchy retweetledi

港大专门为OPC一人公司开发的基于OpenClaw龙虾的Agent群协作开源项目,离超级个体又近了一步!
现在大家玩AI Agent都是一个agent一个任务,跟单线程一样。复杂点的项目?你得自己当项目经理,手动拆任务、分配、汇总。Agent号称替你打工,结果你管agent比管人还累。
港大数据科学实验室刚开源了一个叫 ClawTeam 的框架(github.com/HKUDS/ClawTeam),思路很直接——让AI Agent自己组队,自己分工,自己协作。
怎么做的?拆开看:
1️⃣ 群体智能,不是单兵作战
一个leader agent负责全局调度,自动拆解任务,按需生成专门的worker agent。每个worker有独立的隔离环境(git worktree),干完活把结果交回来。你只管下达目标,执行全自动。
2️⃣ 架构极简,不搞重型基建
不像其他多Agent框架动不动要Docker、Redis、写一堆YAML配置。ClawTeam就靠文件系统+tmux,agent之间通过CLI命令通信。轻到什么程度?pip install clawteam 就能跑。
3️⃣ 兼容主流Agent
Claude Code、Codex、OpenClaw、nanobot,只要满足基本接口约定的CLI agent都能接入。不挑模型,不挑框架。
4️⃣ 应用场景已经很实际
项目里自带了几个TOML模板:ML实验自动化(多agent跨GPU并行跑实验)、全栈开发协作、甚至还有AI投资分析——自动做市场研究、组合优化、风险评估。

中文
githubchy retweetledi

发现一个宝藏项目 YTPlayer,它把网易云做得像十年前那样纯粹。 没有直播,没有朋友圈,只有你和你的音乐。 最感人的是它对无障碍细节的打磨,这种人道主义关怀真的酷毙了。
github.com/ChenZ2000/YTPl…
中文
githubchy retweetledi

昨天正式发布了OpenWuKong v0.1 版本🎉
官网下载: openwukong.app
这是最新的功能演示视频,产品特点:
- 快!底层Rust实现,启动迅速
- 小!mac版本只有不到20MB
- 多模态支持!文本/图片多模态支持
- skills支持,浏览器自由操作,无限可能
目前还很不完善,但是会持续更新,后续会主要加入和维护skills广场能力,将很多通用工作自动化运行,让AI真正帮你干活,帮你赚钱
nash_su - e/acc@nash_su
发布啦!OpenWuKong v0.1 版本正式上线!🎉 官网下载: openwukong.app 前天逆向了阿里钉钉新推出的“悟空”,昨天就开始实现一个平替版本: - 快!底层Rust实现,启动迅速 - 小!mac版本只有不到20MB - 多模态支持!文本/图片多模态支持 - skills支持,浏览器自由操作,无限可能 当然目前只是一个最基础版本,未来还会持续更新,我们的PoorClaw穷虾🦞项目也会持续更新哒😘
中文
githubchy retweetledi

哈哈,妈的
赚钱还得是人家Web4.0
我们一群穷鬼养个龙虾,天天做自己的总裁梦
实际连个真实商业场景都找不到
刚刚刷推看到一个项目
人家当场手搓一个Agent To Agent版 polymarket(arena42.ai)
给个ETH地址,龙虾进去以后自动上桌
还能多虾一起对手盘
我服了

中文
githubchy retweetledi

Mac用户必装:一个命令清出95G垃圾,CleanMyMac可以卸载了(免费卸载OpenClaw龙虾工具)
用Mac的都有个隐痛——系统用着用着就莫名其妙满了。你打开存储一看,"系统数据"占了几十G,但你根本不知道是什么,也不敢删。
于是花几百块买个CleanMyMac,一年一续费,干的事情其实就是帮你删缓存。
现在有个开源替代品——Mole(github.com/tw93/Mole,42,010星,1,200 fork),一个Go写的命令行工具,一个二进制文件解决所有问题。
它能干嘛:
1️⃣ 深度清理 — 应用缓存、浏览器数据、开发工具残留、系统日志、临时文件,有用户一次清出95.5G
2️⃣ 智能卸载 — 不只是删.app,会把配置文件、偏好设置、Launch Agent、插件残留全部找出来干掉
3️⃣ 磁盘分析 — 可视化看每个文件夹占了多少空间,大文件一目了然
4️⃣ 系统优化 — 重建系统数据库、清Spotlight索引、重置网络服务、管理swap文件
5️⃣ 实时监控 — CPU、内存、磁盘IO、网络、温度、电池健康,全部实时看
6️⃣ 开发者福利 — 自动扫描项目目录里的node_modules、build、venv,这些吃硬盘的大户一键清理
最让我放心的一点:默认安全模式,删之前先dry-run预览,拿不准的文件宁可跳过也不乱删。所有操作都有日志记录。
安装就一行:Homebrew装或者跑个脚本。还支持Raycast和Alfred集成。
说白了,CleanMyMac能干的它全能干,还免费、开源、不收年费。4.2万星不是白给的。

中文
githubchy retweetledi
githubchy retweetledi

githubchy retweetledi

OpenDataLoader PDF — 一个专门给 AI/RAG 场景做的本地 PDF 结构化抽取器
不是“PDF 转 Markdown”,而是它会重建标题、列表、表格、图片和阅读顺序。
输出直接给 JSON / Markdown / HTML,明显就是冲着 LLM、向量检索、RAG 去的。
github.com/opendataloader…
中文
顺丰小哥刚来拉走早上的第四批懒猫微服了。
刚好看到海力士会长接受采访说的话:存储芯片短缺可能持续到2030年。🥲意思是还会涨价?
现在买具备存储属性的产品真的就是早买早享受,晚买还涨价🤣
最后一批百万补贴的懒猫微服还剩少量现货,卖完涨价。有需求的推友评论区留言,我再给张BOSS专享券,到手价绝对惊爆😎
自己买内存+固态怕是都不止我们整机价格了。
老规矩,先到先得。

Andy Stewart@manateelazycat
🚀全球内存疯狂涨价6倍的情况下,我们家懒猫微服16GB/32GB的机型依然没有涨价(之前囤了很多货),一条内存条价格就可以买一台微服了,CPU存储等于白送 🔥 16GB/32GB最后一批清仓货,良心低价出了,先到先得,感兴趣的大佬评论区打1
中文
githubchy retweetledi
githubchy retweetledi
githubchy retweetledi










