

ChatDOC
339 posts

@chatdoc_ai
ChatGPT-based file-reading assistant🤖 Quickly extract, locate and summarize information from docs.🚀 Citations are presented for fact-checking 🔍









🚨 This is WILD. A new tool just dropped that might quietly replace half of the “UI/UX agent startups” you’ve been seeing. It’s called ChatDoc Studio and it turns a single screenshot of your landing page into a full AI design review + redesign. Here’s why this matters 👇





















PDF parsing is still painful because LLMs reorder text in complex layouts, break tables across pages, and fail on graphs or images. 💡Testing the new open-source OCRFlux model, and here the results are really good for a change. So OCRFlux is a multimodal, LLM based toolkit for converting PDFs and images into clean, readable, plain Markdown text. Because the underlying VLM is only 3B param, it runs even on a 3090 GPU. The model is available on @huggingface . The engine that powers the OCRFlux, teaches the model to rebuild every page and then stitch fragments across pages into one clean Markdown file. It bundles one vision language model with 3B parameters that was fine-tuned from Qwen 2.5-VL-3B-Instruct for both page parsing and cross-page merging. OCRFlux reads raw page images and, guided by task prompts, outputs Markdown for each page and merges split elements across pages. The evaluation shows Edit Distance Similarity (EDS) 0.967 and cross‑page table Tree Edit Distance 0.950, so the parser is both accurate and layout aware. How it works while parsing each page - Convert into text with a natural reading order, even in the presence of multi-column layouts, figures, and insets - Support for complicated tables and equations - Automatically removes headers and footers Cross-page table/paragraph merging - Cross-page table merging - Cross-page paragraph merging A compact vision‑language models can beat bigger models once cross‑page context is added. 🧵 1/n Read on 👇

PDFの常識を変える?!🤯✨ 新ツール「OCRFlux」が登場しましたよ! ✎. FYIG: x.com/aigclink/statu… PDFをMarkdownに変換する新しいツール「OCRFlux」が発表されたそうです!これがもう、すごい機能満載なんですって! 一番驚いたのは、PDFでページをまたぐ表や段落を、自動で繋げてMarkdownにしてくれること!😲 これって、今まで手作業で調整していた部分ですよね。論文や長い報告書を扱う方には、革命的な機能なんじゃないでしょうか?! なんと98.3%という驚異の正確率なんですって!✨ しかも、多列レイアウトや、中国語と英語が混ざったドキュメントまで、ちゃんと自然な読み順で変換してくれるそうですよ。グローバルな資料作成にも心強いですね! 他の有名なOCRツールと比べても、ベンチマークで圧倒的な性能を示しているとのこと!そして、GTX 3090などのGPUがあれば、3Bパラメータモデルでめちゃくちゃ高速に処理できちゃうそうです!🚀 作業効率がグンと上がりそうでワクワクしますね! 実際の変換の様子は動画で見られますが、まるで魔法みたいにサクサク動いていましたよ!これがあれば、PDFからのデータ抽出や再利用が格段にラクになりますよね。 例えば、古いPDF資料をMarkdown化して検索しやすくしたり、議事録をPDFでもらってもすぐに編集可能なテキストに変換したり…アイデア次第で色々な使い方ができそうです! 詳しい情報や、もしかしたら試せるデモもあるかもしれませんね!ぜひチェックしてみてください! PDFを扱う皆さんの救世主になるかもしれませんね!これからが本当に楽しみです!😊 #OCRFlux #PDF変換 #AIツール

