PDFからデータを抽出!MinerUでドキュメント変換をもっと手軽に
大規模言語モデル(LLM)の発展に伴い、ドキュメントから情報を効率的に抽出するツールの重要性が高まっています。ここでは、PDFを機械可読な形式に変換するツールであるMinerUを紹介します。
MinerUとは?
MinerUは、PDFファイルをMarkdownやJSONなどの形式に変換し、データ抽出を容易にするツールです。科学論文における記号変換の問題解決に焦点を当て、LLM時代の技術発展に貢献することを目指しています。
MinerUの主要な機能
- 不要な要素の除去: ヘッダー、フッター、脚注、ページ番号などを削除し、意味的な一貫性を確保します。
- 可読性の高いテキスト出力: シングルカラム、マルチカラム、複雑なレイアウトに対応し、人間が読みやすい順序でテキストを出力します。
- ドキュメント構造の維持: 見出し、段落、リストなど、元のドキュメントの構造を保持します。
- 豊富な要素抽出: 画像、画像の注釈、テーブル、テーブルタイトル、脚注などを抽出します。
- 数式の自動認識と変換: ドキュメント内の数式を自動的に認識し、LaTeX形式に変換します。
- テーブルの自動認識と変換: ドキュメント内のテーブルを自動的に認識し、HTML形式に変換します。
- スキャンされたPDFの自動検出: スキャンされたPDFや文字化けしたPDFを自動的に検出し、OCR機能を有効にします。
- 多言語OCR: 84言語の検出と認識をサポートしています。
- 多様な出力形式: マルチモーダルおよびNLP Markdown、読み取り順にソートされたJSON、豊富な中間フォーマットなどをサポートします。
- 視覚化結果のサポート: レイアウトの視覚化やスパンの視覚化など、出力品質の効率的な確認を可能にします。
- 環境への対応: CPU環境での実行をサポートするほか、GPU(CUDA)/NPU(CANN)/MPSによる高速化もサポートします。Windows、Linux、Macプラットフォームに対応。
3つのMinerU体験方法
- オンラインデモ: インストール不要で手軽に試せます。
- クイックCPUデモ: Windows、Linux、Macで利用可能です。
- GPU/NPU/MPSによる高速化: CUDA、CANN、MPSを利用してより高速な処理が可能です。
MinerUの始め方
MinerUの利用を開始するための手順は以下の通りです。
- 環境構築: Minicondaなどの環境を構築し、MinerU専用の環境を作成します。
- パッケージのインストール:
pip install -U "magic-pdf[full]"
を実行して、必要なパッケージをインストールします。 - 設定ファイルの編集: ダウンロードされたモデルのパスなどを設定ファイル(magic-pdf.json)に記述します。必要に応じて、数式認識やテーブル認識の有効/無効を設定できます。
コマンドラインでの使用例
MinerUはコマンドラインから簡単に利用できます。
MinerUの対応言語
MinerUは、日本語を含む84の言語に対応したOCR機能を搭載しています。これにより、多言語ドキュメントからの情報抽出も可能です。 OCR言語が指定されていない場合に、英語テキストエリアで単語の連結が発生する問題を修正(モデルのアップデートが必要です)。
MinerUの最新情報(2025年4月)
MinerUは継続的にアップデートされており、最新バージョンでは以下の点が改善されています。
- PP-OCRv4_server_rec_docへの更新: 一部の繁体字中国語、日本語、および特殊文字の認識機能を強化。15,000を超える認識可能な文字をサポート。
- インストールと互換性の最適化: layoutlmv3の使用を削除し、detectron2による互換性の問題を解決。 CUDAの互換性により、GPU利用者の問題を解決。
- パフォーマンスの最適化: 複数PDFファイルのバッチ処理のサポートにより、小規模ファイルの解析速度を向上(バージョン1.0.1と比較して、数式の解析速度が1400%以上向上、全体的な解析速度が500%以上向上)。 GPUメモリの使用量を最適化し、MPSデバイスでの実行速度を向上。
- 解析効果の最適化: mfrモデルを更新し、複数行の数式における改行の消失の問題を解決。
- 使いやすさの最適化: paddleocr2torchの使用により、paddleフレームワークとtorch間の競合、およびpaddleフレームワークによって引き起こされるスレッドの安全性に関する問題を解決。 解析プロセス中にリアルタイムのプログレスバーを追加し、正確に進捗状況を追跡可能。
プロジェクトへの貢献
MinerUは、大規模言語モデル開発に貢献することを目指すオープンソースプロジェクトです。バグ報告や機能要望など、Issueを通じて積極的にフィードバックをお寄せください。コントリビューターも歓迎しています。
ライセンス情報
このプロジェクトは現在、高度な機能を実現するためにPyMuPDFを使用していますが、AGPLライセンスに従うため、特定の利用シナリオで制限が課される可能性があります。 将来的には、ユーザーフレンドリーと柔軟性を高めるために、より寛容なPDF処理ライブラリを検討して置き換える予定です。
関連リンク
- LabelU: マルチモーダルデータのアノテーションツール
- LabelLLM: LLM対話アノテーションプラットフォーム
- PDF-Extract-Kit: 高品質なPDFコンテンツ抽出のためのツールキット
MinerUは、PDFからのデータ抽出を効率化し、大規模言語モデル開発を支援する強力なツールです。ぜひ一度お試しください。
主要キーワード: PDF抽出、データ変換, OCR ロングテールキーワード: PDF Markdown変換, PDF JSON変換, スキャンPDF OCR 日本語