MinerU: PDFから機械可読形式への高品質な変換ツール|最新アップデートと活用法
機械可読形式へのPDF変換ツール「MinerU」の最新情報をお届けします。 インターンの事前トレーニングプロセスから生まれ、科学文献における記号変換の問題解決に焦点を当てています。
MinerUの主要機能
- ノイズ除去: ヘッダー、フッター、脚注、ページ番号などを削除し、文章構造を維持。
- 可読性重視: 1段組、複数段組等の複雑なレイアウトでも、人間が読みやすい順序でテキストを出力します。
- 構造維持: 見出し、段落、リストなど、元のドキュメントの構造を保持します。
- マルチメディア抽出: 画像、画像説明、表、表題、脚注を個別に抽出。
- 数式認識: 文書内の数式を自動認識し、LaTeX形式に変換します。
- 表認識: 文書内の表を自動認識し、HTML形式に変換します。
- OCR対応: スキャンされたPDFや文字化けPDFを自動検出し、OCR機能を有効化します。 OCRは84言語に対応。
- 多様な出力形式: マルチモーダルMarkdown、JSON、豊富な中間ファイル形式をサポート。
- 可視化サポート: レイアウトやスパンの可視化により、出力品質を効率的に確認できます。
- 環境対応: CPU環境での実行に加え、GPU(CUDA)/NPU(CANN)/MPSによる高速化をサポート。 Windows/Linux/Macに対応。
最新のアップデート: より正確なPDF変換へ
MinerUは常に進化を続けています。 最新のアップデート情報を見ていきましょう。
2025年4月23日: バージョン1.3.8リリース
PP-OCRv4_server_rec_docモデルがデフォルトのOCRモデルとしてアップデートされました。
- より多くの中国語ドキュメントデータとPP-OCRトレーニングデータの組み合わせで学習。
- 繁体字中国語、日本語、特殊文字の認識能力が向上。
- 15,000以上の認識可能な文字をサポートし、ドキュメント内のテキスト認識を改善。
PP-OCRv4モデルの性能比較: PP-OCRv4_server_rec_doc, PP-OCRv4_server_rec, PP-OCRv4_mobile_rec
検証結果から、PP-OCRv4_server_rec_docモデルは、単一言語(中国語、英語、日本語、繁体字中国語)と混合言語の両方のシナリオで精度が大幅に向上しています。 速度はPP-OCRv4_server_recと同程度であり、ほとんどのユースケースに適しています。
少数の純粋な英語のシナリオでは、PP-OCRv4_server_rec_docモデルで単語の連結の問題が発生する可能性があります。 このようなケースでは、PP-OCRv4_server_recの方が適しています。 したがって、PP-OCRv4_server_recモデルは保持しています。lang='ch_server'(python API)または--lang ch_server(cli)のパラメータを渡すことで呼び出すことができます。
その他の最新アップデート
- 2025年4月22日: テーブル解析モデル初期化時のlangパラメータ非有効問題を修正、CPUモードでのOCR及びテーブル解析速度低下を修正。
- 2025年4月16日: 一部の未使用ブロックを削除し、OCR検出速度を若干改善。フッターが原因で発生するページレベルのソートエラーを修正。
- 2025年4月12日: Python 3.13環境(Windows)における非互換性問題を修正。バッチ推論時のメモリ使用量を最適化。90度回転したテーブルの解析効果を改善。財務報告書における大規模なテーブルの解析精度を向上。OCR言語が指定されない場合の英語テキストエリアにおける単語結合の問題を修正。
- 2025年4月8日: Python 3.13をサポート。旧式のLinuxシステム(CentOS 7など)への最終的な適応。
MinerUの利用方法
オンラインデモ
インストール不要で、MinerUの機能をすぐに体験できます。
クイックCPUデモ
Windows、Linux、Mac環境で簡単に試せるCPUデモです。
-
magic-pdfのインストール
-
モデルウェイトファイルのダウンロード (詳細な手順は ドキュメントを参照ください)
-
設定ファイルの修正
モデルウェイトファイルのダウンロード後、magic-pdf.jsonファイルが自動生成され、デフォルトのモデルパスを設定します。
Windows:
C:\Users\username
、Linux:/home/username
、macOS:/Users/username
でmagic-pdf.jsonファイルを確認できます。
GPUによる高速化
CUDAに対応したGPUをお持ちの場合、GPUアクセラレーションを利用できます。
NPU/MPSによる高速化
NPUアクセラレーションハードウェアを搭載したデバイスでは、NPUアクセラレーションを利用できます。 Appleシリコンチップ搭載のデバイスでは、MPSアクセラレーションを有効にできます。
その他の情報
- コマンドラインでの使用方法: コマンドラインでMinerUを使用する方法
- API: Python APIを使ったMinerUの使い方
知っておくべきこと
- 読み取り順序は、モデルが可読コンテンツの空間分布に基づいて決定するため、非常に複雑なレイアウトでは順序が狂う場合があります。
- 縦書きテキストはサポートされていません。
- 目次とリストはルールを通じて認識されるため、一部の珍しいリスト形式は認識されない場合があります。
- コードブロックはレイアウトモデルではまだサポートされていません。
- 漫画本、画集、小学校の教科書、および練習問題はうまく解析できません。
- 複雑なテーブルでは、テーブル認識で列/行認識エラーが発生する可能性があります。
- OCR認識では、マイナーな言語のPDFで文字が不正確になる場合があります(例:ラテン文字の分音記号、アラビア文字で簡単に混同される文字)。
- 一部の数式はMarkdownで正しくレンダリングされない場合があります。
まとめ
MinerUは、PDFファイルを機械可読形式に変換するための強力なツールです。 最新アップデートにより、精度とパフォーマンスが向上し、様々な環境での利用が容易になりました。 ドキュメント抽出の効率化に、ぜひMinerUをご活用ください。