OpenDataLab

60 posts

OpenDataLab

@OpenDataLab_AI

Tham gia Şubat 2023

45 Đang theo dõi191 Người theo dõi

OpenDataLab@OpenDataLab_AI·2h

Struggling with messy receipts & invoices? 🧾 #MinerU Skills delivers zero-code receipt parsing. Automatically locate, split & extract key data—amounts, dates, items—with high accuracy. Structured output ready for storage & reconciliation. Full workflow tutorial video now live!

English

OpenDataLab@OpenDataLab_AI·2h

Tired of messy PDF outputs? 📄 #MinerU Skills let you process papers with zero code. Parse layouts, formulas, tables & OCR in one click. Batch 50+ papers to clean Markdown, keep LaTeX & tables perfectly. Connect to RAG/knowledge base effortlessly. Full tutorial video out now!

English

OpenDataLab@OpenDataLab_AI·21h

🚀#OpenDataLab’s AI-ready database #Sciverse Launched! Powering #AGI4S with a 3-layer system (Sci-Base/Sci-Align/Sci-Evo). ✅25M+ parsed literatures, 600B+ high-quality tokens via ＃MinerU ✅18M+ protein sequences, 6M+ chemical reactions 👉Explore: sciverse.opendatalab.com

English

OpenDataLab@OpenDataLab_AI·5d

Paper: huggingface.co/papers/2603.22… GitHub: github.com/opendatalab/Mi…

English

OpenDataLab@OpenDataLab_AI·5d

🚀New from #OpenDataLab: MinerU-Diffusion! We redefine document OCR as inverse rendering via diffusion decoding, replacing slow autoregressive generation. ✅ Up to 5.1× faster inference ✅ Stronger visual structure modeling ✅ Stable in challenging scenarios Try it & star us!

English

OpenDataLab@OpenDataLab_AI·23 Mar

Free open-source PDF parser MinerU now offers Skills, MCP Server, dual-mode API, cross-platform CLI/SDK, and RAG plugins. One sentence lets AI read PDFs easily! 🦞MinerU skills clawhub.ai/MinerU-Extract… 👉Dev-ecosystem Usage Guide mineru.net/ecosystem

English

OpenDataLab@OpenDataLab_AI·19 Mar

🚀Big Update! MinerU has adapted to 10+ computing power platforms 💯99% accuracy in capturing PDF/web elements 💪OmniDocBench adopted by Gemini3/DeepSeek as authoritativee benchmark 👉Explore: github.com/opendatalab/mi…; mineru.net/OpenSourceTool… 🏆MDIC: mineru.net/MDIC2026

English

OpenDataLab@OpenDataLab_AI·19 Mar

🚀2026 MinerU Data Intelligence Challenge is LIVE! 🌐Rooted in AGl4S with 3 competitive tracks. 🏆Win 2M RMB rewards (1M cash + 1M computing power). Present at WAIC 2026. 🔥Conquer unstructured data challenges now! 👉Sign up: mineru.net/MDIC2026

English

OpenDataLab đã retweet

NodeShift@nodeshiftai·3 Eki

MinerU2.5 is a compact 1.2B VLM with a smart two-stage, coarse-to-fine pipeline (global layout → native-res crops) that delivers state-of-the-art doc parsing with low compute.

English

300

OpenDataLab@OpenDataLab_AI·6 Eki

@williamcri82977 可以尝试一下MinerU2.6

中文

William的开发之路@williamcri82977·24 Eyl

5）个人主观排名如下，不代表模型实际性能： POINTS-Reader = OCRflux-3B > MonkeyOCR >= MinerU2.0-2505-0.9B > Qwen2.5VL-3B

中文

William的开发之路@williamcri82977·24 Eyl

VLM做文档OCR效果如何？我拿了几个常见模型进行对比

中文

OpenDataLab đã retweet

meng shao@shao__meng·29 Eyl

MinerU2.5 正式发布 🎉，这个参数规模仅 1.2B 的视觉-语言模型，通过创新的解耦架构和数据引擎，实现 SOTA 准确率，同时显著降低计算开销！！团队也公布了技术报告，一起看看它的模型组成、训练细节和实战表现 👇 1. 背景与挑战文档不同于自然图像，具有高分辨率（常超数千像素）、内容密集（文本密集）和结构复杂（多列布局、跨页元素）等特性。这些导致传统 OCR 系统面临三大难题： · 分辨率需求：需原生分辨率处理以捕捉细粒度细节，但全图编码产生 O(N²) 复杂度的高 token 冗余。 · 效率与鲁棒性：长文档易引发 VLM 幻觉，参数效率低，处理慢。 · 数据瓶颈：现有数据集多样性不足、样本不均衡、标注质量参差。现有方法分两类： · 传统管道式（e.g., Marker, MinerU）：模块化分解（布局检测→阅读顺序→内容识别），可解释但易误差传播，维护复杂。 · 端到端VLM（e.g., GOT, Qwen2.5-VL）：语义强但高分辨率下效率低，易在长文档中幻觉。 MinerU2.5 针对这些痛点，提出解耦策略，结合管道效率与 VLM 准确性。 2. 核心方法 MinerU2.5 的核心是粗到细的两阶段解析策略，将全局布局分析与局部内容识别解耦，避免全图高成本编码。模型架构基于 Qwen2-VL 框架，包括： · 视觉编码器：675M 参数的 NaViT（Native-Resolution ViT），支持动态分辨率和 2D-RoPE 位置编码，适应裁剪区域的任意宽高比。 · 语言解码器：0.5B 参数的 Qwen2-Instruct，替换为 M-RoPE 以提升多分辨率泛化。 · Patch Merger：像素重排（pixel-unshuffle）合并相邻视觉t oken，平衡效率与性能。两阶段解析流程： · 阶段I：布局分析 - 在下采样图像（e.g., 1036px）上快速全局检测元素边界、类型（文本/表格/公式/图像）和阅读顺序。输出结构化提示（如 <|box_start|> 坐标 <|ref_start|> 类型 <|ref_end|>），计算成本低。 · 阶段II：内容识别 - 基于布局结果，从原高分辨率图像裁剪关键区域（e.g., 1715px×154px），并行解码文本、公式和表格。使用专用提示，保留细粒细节，避免冗余。训练配方（三阶段）： · 阶段0：模态对齐 - 使用图像-文本对预训练视觉-语言融合。 · 阶段1：文档解析预训练 - 大规模语料覆盖布局、OCR、公式/表格识别。 · 阶段2：微调 - 任务特定优化，融入数据增强（如旋转、噪声）提升鲁棒性。数据引擎（创新亮点）：闭环系统生成多样化语料。 · 工作流： curation（收集 PDF /扫描件）→预训练/微调数据集构建→任务重构（布局/公式/表格增强标注）。 · 关键技术：迭代挖掘（inference consistency），通过模型自一致性过滤高质量样本；针对公式（混合中英）、表格（无边框/旋转）生成合成数据。 · 规模：数百万级语料，确保覆盖学术/金融/教科书等文档类型。部署上，支持 Markdown 输出，便于下游集成；推理效率比端到端 VLM 高10倍。 3. 实验评测结果在全文档解析基准 OmniDocBench 上，MinerU2.5 刷新记录： · 整体性能：1-Edit 得分 95+，超越通用 VLM（如 Gemini-2.5 Pro 90+、Qwen2.5-VL-72B 92+）和领域模型（如 MonkeyOCR 88+、PP-StructureV3 85+）。 · 元素级：文本块98%、公式97%、表格96%、阅读顺序95%；TEDS/CDM 指标领先5-10%。 · 子任务：布局分析（DocLayNet mAP 85+）、表格（PubTabNet TEDS 95+）、公式（Marmot 准确率92+），均 SOTA。 · 效率：1.2B 参数下，处理高分辨率文档只需秒级，远低于 72B 模型。定性示例展示其在复杂 PDF（如多列学术文、无边框表）上的优势，优于前版 MinerU 和竞品。 4. 意义与展望 MinerU2.5 以轻量设计桥接效率与准确，特别适用于高密度文档场景，推动 OCR 向实用化演进。其解耦范式可扩展至其他多模态任务，数据引擎则为数据稀缺领域提供范例。未来可探索更强 LM 集成或实时部署。开源代码和模型便于复现与迭代。

中文

150

15.7K

OpenDataLab đã retweet

s3nh@s3nhxx·5 Eki

testing MineU, 1.2B VLM for 'efficient' document parsing. its not heavy, im really optimistic. huggingface.co/opendatalab/Mi…

English

315

OpenDataLab@OpenDataLab_AI·30 Eyl

🚀 The MinerU2.5 Technical Report is officially released!

English

292

OpenDataLab@OpenDataLab_AI·11 Ağu

@mrbleem_eth MinerU是上海AI 实验室的哦，如果觉得vlm慢，可以使用Sglang加速，快到起飞。当然，这对设备有一定性能要求和门槛

中文

133

克斯马@mrbleem_eth·9 Ağu

有没有试试Dolphin、dots.ocr、mineru、ocrflux三个很火的开源ocr的（分别来自字节、小红书、交大本科大创项目、chatdoc（麦肯锡的老印外包团队））。mineru基本满足需求，但是vlm解析表格的时候非常慢，还是要依靠pipeline。ocrflux据说可以合并分页pdf（金融文档必备功能）。希望有推油分享完整经验

Sumanth@Sumanth_077

Turn PDF files into clean, LLM-ready data! Dolphin is an open source document parsing framework that converts PDFs into structured formats like Markdown, HTML, LaTeX, and JSON. 100% Open Source

中文

1.6K

OpenDataLab@OpenDataLab_AI·7 Ağu

👉The Paper Link: aclanthology.org/2025.acl-long.… 📲 Get the source code from: github.com/opendatalab/Me…

English

105

OpenDataLab@OpenDataLab_AI·7 Ağu

✨The research output "Meta-rater: A Multi-dimensional Data Selection Method for Pre-training Language Models", jointly proposed by the OpenDataLab team of Shanghai AI Lab and the team from ECNU, has been awarded the "Best Theme Paper Award" at #ACL2025

English

286

OpenDataLab@OpenDataLab_AI·24 Tem

Beyond basic reasoning, REST specifically evaluates several under-tested capabilities: contextual priority allocation 🗂️, cross-problem interference resistance ⚖️, and dynamic cognitive load management⚙️. Paper link: arxiv.org/abs/2507.10541

English

OpenDataLab@OpenDataLab_AI·24 Tem

REST (Reasoning Evaluation through Simultaneous Testing), a stress-testing framework that concurrently exposes #LRMs to multiple problems. #REST transforms existing benchmarks to evaluate multiple questions at once, repurposing benchmarks into more challenging variants. #AI

English

155

Khám phá

@williamcri82977 @mrbleem_eth @elonmusk @BarackObama @taylorswift13 @cristiano @BillGates @NASA