AcrobatのOCRエラー(その後)
スキャンした雑誌PDFファイルは300〜600ページ程度。Acrobatで一気にOCRするとエラーで
スキャンした雑誌PDFファイルは300〜600ページ程度。Acrobatで一気にOCRすると「Paper Capture 認識サービスのエラーにより、ページを処理できません」エラーでアウト。
そこで、ページ分割にチャレンジ。5ページ単位、10ページ単位、1ページ単位など、さまざまなサイズに分割。それらをOCRさせることに。
以下、まとめです。
- 分割したPDFファイル、2,000〜3,000個をまとめてAcrobatOCRすると、やっぱりエラーは発生する。
- エラー発生のページは、そのページだけ抜き出してもエラーでAcrobatが落ちることが多い。
- 5ページPDFや10ページPDFは、その中のどのページでOCRが落ちたかどうか探すのが面倒。
- Acrobatが「〜ファイルの〜ページでOCRに失敗しました」などのダイアログを出してくれる場合も多い(この場合はAcrobat自体が落ちていない)。でも、ログに書き出してくれていないようなので、ダイアログをスクロールして失敗ファイル/失敗ページをメモしないといけない(スクロールキャプチャしたりしました)。
ということで、とても面倒だけど、以下の方向で処理を進めることにしました。
- 全ページを1ページ単位で分割し、1ページ単位のPDFファイルを作成。
- 分割後、OCR失敗ファイルを探す。
- 失敗ファイルはテキスト埋め込みの有無で探す(探す方法は人力検索で質問しました)。
- 全ページのOCRが終了後、全ページを連結して1つのファイルに。
- これで終了。
分割や連結はフリーのツールもたくさんあります。面倒になってきたら、分割連結だけはUnix上でスクリプトを書いて実行しようと考えています。
過去の雑誌20年分をOCRテキスト化する意義は大きいので、気長にがんばろうと思います。