MinerU: PDFを機械可読形式へ変換する高品質なツールガイド
MinerUは、PDFファイルを機械可読な形式(例:Markdown、JSON)に変換し、容易なデータ抽出を可能にするツールです。特に、科学文献における数式変換の問題解決に注力しており、大規模言語モデル時代の技術発展に貢献することを目指しています。この記事では、MinerUの主要機能、インストール方法、使い方、既知の問題点について詳しく解説します。
MinerUの主要機能
MinerUは、単にPDFからテキストを抽出するだけでなく、文書の構造を理解し、様々な形式で出力できる高度な機能を備えています。
- 不要な要素の除去: ヘッダー、フッター、脚注、ページ番号などを自動的に削除し、内容の整合性を確保します。
- 自然な読み順での出力: シングルカラム、マルチカラム、複雑なレイアウトに関わらず、人間が読みやすい順序でテキストを出力します。
- 文書構造の保持: 見出し、段落、リストなど、元の文書の構造を忠実に再現します。
- マルチモーダル要素の抽出: 画像、画像説明、テーブル、テーブルタイトル、脚注を抽出します。
- latex数式:ドキュメント内の数式を自動認識し、LaTeX形式に変換します。
- テーブル形式:ドキュメント内のテーブルを自動認識し、HTML形式に変換します。
- OCR機能: スキャンされたPDFや文字化けしたPDFを自動検出し、OCR機能を有効にします(84言語をサポート)。
- 多彩な出力形式: マルチモーダルMarkdown、NLP Markdown、読み順にソートされたJSONなど、豊富な出力形式をサポートします。
- 視覚化サポート: レイアウトやスパンの視覚化により、出力品質を効率的に確認できます。
- 環境への適応:CPU環境での実行をサポートし、GPU (CUDA)/NPU (CANN)/MPSによる高速化も可能です。
- OSサポート:Windows、Linux、Mac プラットフォームに対応しています。
MinerUのインストールとセットアップ
MinerUを使い始めるには、いくつかの方法があります。
オンラインデモ(インストール不要)
手軽にMinerUの機能を試したい場合は、オンラインデモを利用できます。
クイック CPU デモ
ローカル環境で手軽に試したい場合は、クイックCPUデモがおすすめです。
-
magic-pdfのインストール:
-
モデルウェイトファイルのダウンロード: 詳細な手順はこちらを参照してください。
-
設定ファイルの修正: モデルウェイトファイルのダウンロードが完了すると、ユーザーディレクトリに
magic-pdf.json
ファイルが自動生成されます。このファイルで、テーブル認識などの機能を有効または無効にできます。
GPUの利用
GPUを利用することで、高速な処理が可能です。対応するシステムに応じて、以下のガイドを参照してください。
- Ubuntu 22.04 LTS + GPU
- Windows 10/11 + GPU
Dockerによるクイックデプロイメント
Dockerを使用すると、環境構築が容易になります。
NPU/MPSの利用
NPUまたはMPSアクセラレーションハードウェアを使用することもできます。詳細な手順はドキュメントを参照してください。
MinerUの使い方
MinerUは、コマンドラインまたはPython APIを通じて使用できます。
コマンドライン
MinerUをコマンドラインで使用する方法は、ドキュメントを参照してください。
Python API
MinerUをPython APIで使用する方法は、ドキュメントを参照してください。
既知の問題点とFAQ
MinerUはまだ開発中のツールであり、いくつかの既知の問題点があります。
- 読み順: 複雑なレイアウトの場合、読み順が正しくなくなることがあります。
- 縦書き: 縦書きテキストはサポートされていません。
- 目次とリスト: まれな形式のリストは認識されない場合があります。
- コードブロック: レイアウトモデルではまだサポートされていません。
- 特定種類のドキュメント: コミック、アートアルバム、教科書などはうまく解析できません。
- テーブル認識: 複雑なテーブルでは、行/列の認識エラーが発生する可能性があります。
- OCR: あまり知られていない言語では、文字が不正確に認識される可能性があります。
- 数式: 一部の数式がMarkdownで正しく表示されない場合があります。
より詳細な情報は、FAQ (中国語)/FAQ (英語)を参照してください。
Changelog (更新履歴)
-
2025/04/23 1.3.8 Released
- デフォルトのOCRモデルがPP-OCRv4_server_rec_docにアップデートされました。これにより、中国語、日本語、特殊文字の認識能力が向上しています。
-
2025/04/22 1.3.7 Released
- テーブル解析モデルの初期化時にlangパラメータが無効になる問題を修正。
- CPUモードでのOCRとテーブル解析の速度が大幅に低下する問題を修正。
以降の更新履歴については、GitHub - opendatalab/MinerUを参照ください。
ライセンス情報
本プロジェクトは現在、高度な機能を実現するためにPyMuPDFを使用しています。ただし、AGPLライセンスに準拠しているため、特定の利用シナリオで制限が生じる可能性があります。 将来的には、より寛容なPDF処理ライブラリを検討し、ユーザーフレンドリーと柔軟性を向上させる予定です。
MinerUは、PDFからコンテンツを抽出するための強力なツールです。 このガイドが、MinerUをより効果的に活用するための一助となれば幸いです。