Sky in context 🌌
14 posts

Sky in context 🌌
@sky_opvc
Investor. Building between China and the world. Thinking about intelligence — the ancient kind and the artificial kind. HK.
Hong Kong Katılım Temmuz 2025
137 Takip Edilen258 Takipçiler
Sabitlenmiş Tweet

连马斯克都认可。a16z 联合创始人,分享的信息获取方式。
浏览 X 平台,听顶尖从业者分享,与最领先的 AI 模型对话,阅读旧的书籍。
他认为做其他事情,付出的机会成本都太高了,其实只需要从这几个渠道,获取信息即可。

Marc Andreessen 🇺🇸@pmarca
My information consumption is now 1/4 X, 1/4 podcast interviews of the smartest practitioners, 1/4 talking to the leading AI models, and 1/4 reading old books. The opportunity cost of anything else is far too high, and rising daily.
Minato-ku, Tokyo 🇯🇵 中文

For the first time, overtime pay comes to the AI world.
For the first time, I told my openclaw to shut up and focus on his work.
It feels good.🤣
Claude@claudeai
A small thank you to everyone using Claude: We’re doubling usage outside our peak hours for the next two weeks.
English

最近试了几个爬虫工具,分享下我的使用体验
做 AI Agent 的时候,数据采集是最头疼的环节。
MediaCrawler(45K+ stars)
如果你要做国内社交媒体的内容抓取,这个几乎是唯一选择。
支持的平台很全:小红书、抖音、B站、微博、快手、知乎、百度贴吧。代码质量不错,社区活跃,更新也及时。
唯一的缺点是它专注国内平台,如果你想抓 Twitter,这就帮不上忙了。
Agent-Reach(8K+ stars)
这个工具的口号是"给你的 AI Agent 一双眼睛"。
支持的平台很广:Twitter、Reddit、YouTube、GitHub、B站、小红书。最重要的是它声称零 API 费用,一条命令就能抓取多平台内容。
但我实测下来,它的稳定性存疑。因为它依赖反向工程,平台一更新可能就挂了。如果你是个人项目、预算有限,可以试试;但如果是生产环境,建议还是用官方 API。
jina-cli(226 stars)
一个极简的 URL 解析工具,可以把任意网页转成 LLM 友好的格式(Markdown/Text)。
我用它来快速抓取新闻、博客、文档页面。它的设计理念就是给 AI Agent 用的,所以输出的格式很干净。
不过它受登录墙限制,想抓 Twitter 时间线是不行的。单页抓取没问题,批量采集就别想了。
x-tweet-fetcher(ythx-101,407 stars)
这是专门为 Twitter 打造的工具。
支持抓取推文串、mentions、时间线,还内置了 LLM 分析功能。我现在的 AI 早报就是用它来巡逻 Twitter 账号的。
它的优势是深度集成 AI 分析,支持自动巡逻和智能筛选。缺点是部署有点复杂,而且文档不算完善。
怎么选?
抓国内社交媒体MediaCrawlerTwitter
舆情监控x-tweet-fetcher
零成本多平台抓取Agent-Reach(备用)
快速解析单页内容jina-cli
工具只是手段,选适合自己场景的就行。
GitHub 链接:
MediaCrawler: github.com/NanmiCoder/Med…
jina-cli: github.com/geekjourneyx/j…
Agent-Reach: github.com/Panniantong/Ag…
x-tweet-fetcher: github.com/ythx-101/x-twe…
中文




