しょうくん retweetledi

微软开源了一个牛P的工具
MarkItDown:一行命令把任意内容全转成干净的Markdown
PDF、Word、Excel、PowerPoint、HTML、图片、音频、YouTube 链接、JSON、XML、ZIP 压缩包,基本上你能想到的格式它都支持。
一个 pip install 搞定,命令行或 Python API 都能用。
还有两个值得关注的能力
1. MCP Server
MarkItDown 现在有官方的 MCP(Model Context Protocol)服务器,可以直接接入 Claude Desktop 等支持 MCP 的 AI 客户端。
实际效果是:你在跟 Claude 对话的时候,可以直接让它读取并转换本地文件,不用提前手动处理。对话流程不中断,文件转换在后台自动完成。
2. 插件系统
0.1.0 版本引入了第三方插件支持。比如 markitdown-ocr 插件,给 PDF、Word、PPT、Excel 里的嵌入图片加上 OCR 能力,用 LLM Vision 提取图片中的文字。

中文































