AcrobatのOCRエラー(まとめ)

S1500で雑誌類を大量にスキャンした。技術系の雑誌。1冊300〜600ページくらい。

スーパーファイン、カラー自動判別、両面読み取り、「文字をくっきりします」オフ...などの設定でスキャン。スキャン直後の生PDFファイルは500MB前後でした。

OCRをかけてテキストを埋め込みたいなあ... キーワード検索できるといいなあ...という動機で、せっせとスキャンしたのでした。

で、OCRのエラー続出で大半がうまくいかない... 疲れました。以下、試行錯誤を簡単にまとめます(備忘録的)。

  • 「Paper Capture 認識サービスのエラーにより、ページを処理できません」のエラーが続出。
  • 50ページ単位ごとに区切っても発生するときは発生(1〜50ページは成功しても51〜100ページで発生)。
  • エラー発生のページを回避しつつOCRすればよいのかもしれないけど、600ページ雑誌×100冊に対して手動でそれをやる元気はない。
  • スキャン直後の生ファイルはWeb最適化されていない。Acrobatで別名保存すると自動的にWeb最適化されるが、いずれも同様のエラー発生。
  • 「スキャンされた文書の最適化...」や「Acrobat8以降で圧縮保存」などを行った後にOCRをかけても同様。
  • Acrobat8/Professional、Acrobat9/Standad、AcrobatX/Standardでも同様。
  • cleascanでもそうでなくても同様。検索可能な画像... 600dpiや300dpiなどオプションをいろいろ変えてみても同様。
  • メインPCがWin7/64bit/Core-i7なので、Win7/64bit/Core2QuadWinXP/32bit/Pen4マシンなどいろいろなPCで試したけど同様。いずれもメモリは8GBなど潤沢。64bitOSを疑ったけど関係なかった。
  • タスクマネージャーで優先度をあげる、他のアプリを極力落とす...などとしても同様。
  • 「Paper Capture 認識サービスのエラー」の情報が少ない。英語で検索してもヒットはするが、対処法の情報は少ない。Adobeフォーラムでも少ないようだ。


Acrobatの「Paper Capture」機能は、別会社から買収?して導入したような記述も見かけました。Acrobatとの親和性や多ページに対する安定性が十分ではないのかもしれません。

ScanSnap OrganizerでのOCR機能では、まあまあ上手くいきますが、それでもフォルダ単位でまとめて「検索可能なPDFに変換」をすると、エラーで止まっていたりすることがあります。Acrobatに限らず、OCR処理自体があまりこなれていない印象も受けました(マイナーな需要なのかな?)。

雑誌を少数ページに切り出し、OCR化に成功した場合を見てみると、噂とおりclearscan化できた場合は劇的にファイルサイズが縮小しています。100MBが20MBになったりしています。多数の雑誌や書籍を扱う際には、大きな魅力なのですが...

書いてて気づいたのが「セーフモードでWindowsを起動した状態で処理をしてみる」という試み。これもNGでしたら、ScanSnap OrganizerでのOCR化にしてしまうか、「読み取り革命」などの別ソフトを導入してみようと思います。

雑誌は手にとってパラパラ見るのが「閲覧としては」ベストですが、数百冊が自宅スペースを占有している状態では、雑誌を引っ張りだすのも大変だし、戻すのも面倒。書籍雪崩がおきます。キーワード検索できるし散らからないし、所望のページにはすぐにアクセスできるので、電子化すること自体は大いに意味があると思っています!