MinerU:PDFから構造化データを抽出する高精度ツールとその最新アップデート
MinerUは、PDF文書を機械可読な形式に変換し、データ抽出を容易にするツールです。科学技術文献における数式変換の問題解決を目指し、大規模言語モデル(LLM)の開発に貢献するために生まれました。
MinerUの主な機能
- ヘッダー、フッター、脚注の除去: セマンティックな一貫性を保ちます。
- 自然な読み順での出力: シングルカラム、マルチカラム、複雑なレイアウトに対応。
- 文書構造の保持: 見出し、段落、リストなどを維持します。
- 画像、表、数式の抽出: 画像、画像説明、表題、脚注を抽出します。
- 数式をLaTeX形式に変換: 数式を自動認識し、変換します。
- 表をHTML形式に変換: 表を自動認識し、変換します。
- スキャンPDF、文字化けPDFの自動検出: OCR機能を自動で有効にします。
- 多言語OCRサポート: 84言語の検出と認識に対応します(OCR 言語)。
- 多様な出力形式: マルチモーダルMarkdown、NLP Markdown、JSONなど。
- 可視化結果のサポート: レイアウトやスパンの可視化により、出力品質を確認できます。
- GPU/NPU/MPS: GPU(CUDA)/NPU(CANN)/MPSによる高速化、またはCPU環境での実行に対応します。
- クロスプラットフォーム: Windows、Linux、Macで利用可能です。
MinerUで抽出可能なデータ形式と用途の例
MinerUを使用すると、PDFファイルから様々なデータ形式で情報を抽出できます。例えば、数式をLaTeX形式で抽出することで、論文の数式部分だけを効率的に再利用できます。また、表をHTML形式で抽出することで、Webページへの埋め込みやデータ分析ツールへのインポートが容易になります。JSON形式で抽出することで、プログラミングによるデータ加工が容易になります。
MinerUのインストールと使い方
オンラインデモ
インストール不要で、MinerUの機能を試せます。
クイックCPUデモ
簡単な手順で MinerU を CPU 環境で試すことができます。
-
magic-pdfのインストール
-
モデルウェイトファイルのダウンロード
- 詳細な手順は、ドキュメントを参照してください。
-
構成ファイル(magic-pdf .json)の修正でテーブル認識などを有効化:
### GPUを利用した高速化
CUDAをサポートする環境では、GPUによる高速化が可能です。
Ubuntu、Windows環境での手順が用意されています。
### Dockerによるクイックデプロイ
Dockerを使用すると、 MinerU を簡単にデプロイできます。
* Dockerには、6GB以上のVRAMを搭載したGPUが必要です。
```bash
wget https://github.com/opendatalab/MinerU/raw/master/docker/global/Dockerfile -O Dockerfile
docker build -t mineru:latest.
docker run -it --name mineru --gpus=all mineru:latest /bin/bash -c " echo 'source /opt/mineru_venv/bin/activate' >> ~/.bashrc && exec bash "
magic-pdf --help
NPU/MPSの利用
NPU(Ascend)やMPS(Apple Silicon)にも対応しています。magic-pdf.json
ファイルでdevice-mode
パラメータを設定することで、MPSアクセラレーションを有効にできます。
最新アップデート情報と性能向上
MinerUは継続的に開発が行われており、最新バージョンでは以下の点が改善されています。
OCR精度の向上
最新のOCRモデル(PP-OCRv4_server_rec_doc)を導入し、中国語、日本語、特殊文字などの文字認識能力が向上しました。シングル言語、混合言語環境のどちらでも精度が向上しています。
インストールと互換性の最適化
detectron2による互換性の問題を解消し、CUDA互換性が向上しました。
パフォーマンスの最適化
バッチ処理のサポートにより、小規模ファイルの解析速度が向上しました(数式解析速度はバージョン1.0.1と比較して1400%以上向上、全体的な解析速度は500%以上向上)。GPUメモリの使用量も最適化され、最低6GBで実行可能です。
ユーザビリティの向上
paddleocr2torchを使用し、paddleフレームワークとの競合を解消しました。解析プロセス中にリアルタイムのプログレスバーを追加し、進捗状況を正確に追跡できます。
まとめと今後の展望
MinerUは、PDFからのデータ抽出を効率化するための強力なツールです。活発な開発コミュニティと継続的なアップデートにより、今後ますます進化していくことが期待されます。ぜひ MinerU を活用して、PDF データ活用を加速させてください。