Mugicha2004の日記

AcrobatのOCRエラー（その後）

スキャンした雑誌PDFファイルは300〜600ページ程度。Acrobatで一気にOCRするとエラーで

スキャンした雑誌PDFファイルは300〜600ページ程度。Acrobatで一気にOCRすると「Paper Capture 認識サービスのエラーにより、ページを処理できません」エラーでアウト。

そこで、ページ分割にチャレンジ。5ページ単位、10ページ単位、1ページ単位など、さまざまなサイズに分割。それらをOCRさせることに。

以下、まとめです。

分割したPDFファイル、2,000〜3,000個をまとめてAcrobatOCRすると、やっぱりエラーは発生する。

発生するけど、エラーでAcrobatが落ちる前までのPDFファイルは、OCR化に成功している。

エラーが発生したPDFファイルは、エラー発生のページ以降がOCRナシではなく、全ページがOCRされる状態に。

エラー発生のページは、そのページだけ抜き出してもエラーでAcrobatが落ちることが多い。

5ページPDFや10ページPDFは、その中のどのページでOCRが落ちたかどうか探すのが面倒。

Acrobatが「〜ファイルの〜ページでOCRに失敗しました」などのダイアログを出してくれる場合も多い（この場合はAcrobat自体が落ちていない）。でも、ログに書き出してくれていないようなので、ダイアログをスクロールして失敗ファイル/失敗ページをメモしないといけない（スクロールキャプチャしたりしました）。

ということで、とても面倒だけど、以下の方向で処理を進めることにしました。

全ページを1ページ単位で分割し、1ページ単位のPDFファイルを作成。

1ページ単位でOCRを実行。Acrobatが落ちるまで多量のファイルをまとめて実行。

分割後、OCR失敗ファイルを探す。

失敗ファイルはテキスト埋め込みの有無で探す（探す方法は人力検索で質問しました）。

失敗ファイルはScanSnapのOCR機能でOCR実行。ほとんど上手くいきます。ClearScanはできないけど...

全ページのOCRが終了後、全ページを連結して1つのファイルに。

これで終了。

分割や連結はフリーのツールもたくさんあります。面倒になってきたら、分割連結だけはUnix上でスクリプトを書いて実行しようと考えています。

過去の雑誌20年分をOCRテキスト化する意義は大きいので、気長にがんばろうと思います。