AcrobatのOCRエラー(その後)

スキャンした雑誌PDFファイルは300〜600ページ程度。Acrobatで一気にOCRするとエラーで

スキャンした雑誌PDFファイルは300〜600ページ程度。Acrobatで一気にOCRすると「Paper Capture 認識サービスのエラーにより、ページを処理できません」エラーでアウト。

そこで、ページ分割にチャレンジ。5ページ単位、10ページ単位、1ページ単位など、さまざまなサイズに分割。それらをOCRさせることに。

以下、まとめです。

  • 分割したPDFファイル、2,000〜3,000個をまとめてAcrobatOCRすると、やっぱりエラーは発生する。
  • 発生するけど、エラーでAcrobatが落ちる前までのPDFファイルは、OCR化に成功している。
  • エラーが発生したPDFファイルは、エラー発生のページ以降がOCRナシではなく、全ページがOCRされる状態に。
  • エラー発生のページは、そのページだけ抜き出してもエラーでAcrobatが落ちることが多い。
  • 5ページPDFや10ページPDFは、その中のどのページでOCRが落ちたかどうか探すのが面倒。
  • Acrobatが「〜ファイルの〜ページでOCRに失敗しました」などのダイアログを出してくれる場合も多い(この場合はAcrobat自体が落ちていない)。でも、ログに書き出してくれていないようなので、ダイアログをスクロールして失敗ファイル/失敗ページをメモしないといけない(スクロールキャプチャしたりしました)。

ということで、とても面倒だけど、以下の方向で処理を進めることにしました。

  • 全ページを1ページ単位で分割し、1ページ単位のPDFファイルを作成。
  • 1ページ単位でOCRを実行。Acrobatが落ちるまで多量のファイルをまとめて実行。
  • 分割後、OCR失敗ファイルを探す。
  • 失敗ファイルはテキスト埋め込みの有無で探す(探す方法は人力検索で質問しました)。
  • 失敗ファイルはScanSnapOCR機能でOCR実行。ほとんど上手くいきます。ClearScanはできないけど...
  • 全ページのOCRが終了後、全ページを連結して1つのファイルに。
  • これで終了。


分割や連結はフリーのツールもたくさんあります。面倒になってきたら、分割連結だけはUnix上でスクリプトを書いて実行しようと考えています。

過去の雑誌20年分をOCRテキスト化する意義は大きいので、気長にがんばろうと思います。