MinerU:PDFからデータを抽出・変換する革新的なオープンソースツール
科学技術論文の記号変換問題に着目し、高品質なPDFコンテンツ抽出を提供するオープンソースツール「MinerU」のご紹介。PDFを機械可読な形式に変換し、大規模モデル時代の技術発展に貢献することを目指しています。
MinerUの主要機能:あらゆるPDFをMarkdownやJSONに変換
MinerUはPDFファイルを解析し、様々な形式でデータを取り出すことができます。
- ヘッダー、フッター、ページ番号の除去
- 複雑なレイアウトにも対応したテキスト抽出
- 見出し、段落、リスト構造の保持
- 画像、画像説明、テーブル、表題、脚注の抽出
- 数式・表の自動認識と変換
- スキャンされたPDFの自動検出 OCR対応
OCR機能と言語サポート:84言語に対応
MinerUはOCR機能を搭載しており、スキャンされたPDFや文字化けしたPDFも解析できます。84言語の検出と認識をサポートしています。
柔軟な出力形式
MinerUは、ニーズに合わせた様々な出力形式をサポートしています。
- マルチモーダルおよびNLP Markdown
- 読み取り順にソートされたJSON
- 豊富な中間フォーマット
インストールと互換性:環境を選ばない最適化
MinerUは、幅広い環境で動作するように最適化されています。
- LayoutLMv3の使用を廃止し、互換性問題を解決
- Torchバージョン2.2〜2.6(2.5を除く)をサポート
- CUDA 11.8/12.4/12.6/12.8をサポート GPUの互換性
- Python 3.10〜3.12をサポート
- オフライン環境での展開を最適化
パフォーマンスの最適化:高速なバッチ処理
MinerUは、パフォーマンスを向上させるために様々な最適化が施されています。
- 複数のPDFファイルのバッチ処理をサポート
- GPUメモリ使用量を最適化し、最小6GBで実行可能に
- MPSデバイスでの実行速度を向上
使い方と環境構築
MinerUを利用するための方法はいくつかあります。
- オンラインデモ (インストール不要)
- クイックCPUデモ (Windows、Linux、Mac)
- CUDA/CANN/MPSによるGPU高速化
詳細な手順や必要な環境については、公式ドキュメントを参照してください。
コマンドラインとAPI: 柔軟な使い方
MinerUは、コマンドラインインターフェースとPython APIを提供。様々なプロジェクトに組み込むことができます。派生プロジェクトも存在し、より高度な機能やユーザーエクスペリエンスを提供
MinerUでPDF解析を始めよう
MinerUは、論文・レポート・技術ドキュメントなど、大量のPDFデータを効率的に処理・活用するための強力なツールです。ぜひお試しください。