青空文庫とOCR
269

カテゴリー:テクノロジー,青空文庫 | 投稿者:おかもと | 投稿日:2024年9月14日 |

やあ、読んでくれてありがとう。
さて、今回のお題は……「青空文庫とOCR」ね。つまり、青空文庫の入力や校正に、OCRを使ったらどうかな、ってハナシ。
OCRについては、Horash Quditaさんが12年前にこのblogで書いているんだよね。
その中から、OCRと手入力を比較してる部分を、ちょっと引用(※1)

OCR
利点としては
・誤認識はあるけれど、間違いが一定なので、一括変換で修正可能(同一底本、同一シリーズをスキャン、OCRしておいて一括変換で他のファイルも修正してゆくとさらに楽になる)
・てにをは、の間違い、漢字の送り仮名の間違い、漢字/仮名の開きの間違いがかなり少ない
・とにかく早い(スキャン、OCR後、手直しするだけなら20-30Kのファイルが一時間程度で作成できる)
欠点としては
・OCRかけっぱなしだと、とにかく文字の間違いが多い
・見た目が似ている漢字を間違える:これは、間違えやすい漢字のリストを参照すれば改善できるかな?

手入力
利点としては
・機材いらず
・とりあえずどんな底本でも可能
・読む楽しみがある?
欠点としては
・てにをは、漢字/仮名の開きのレベルで間違う:入力後に詳細な突き合わせ読みが必要
・間違いが一定しないので一括変換でも間違いを拾いきれない
・時間がかかる

そして、OCRで作成したファイルと、手入力のファイルを比較することで、かなり容易に校正ができる、と結論づけてます。

で、12年もたつと、OCRはだいぶ進化しているんだよね。

たとえば、Googleドキュメント。これは、Googleドライブに画像やPDFをアップロードして、Googleドキュメントで開くと、OCRが実行されるというもの(※2)。これがかなりのスグレモノで、一昔前のOCRとくらべると雲泥の差。
また、NDLOCRなんてのもある。これは、国立国会図書館デジタルコレクションの、明治から昭和にかけての本や雑誌のテキスト化に使われている。つまり、青空文庫の対象になりそうな、旧仮名や旧字体のOCRが得意ってこと。
このNDLOCRは、国立国会図書館からCC BY 4.0で公開されている。さらに、Google ColaboratoryでNDLOCRを動かして、OCRの結果をGoogleドライブに保存、なんて便利なものもあるんだよね(※3)
でもって、この2種類のOCR、開発元が違うこともあって、OCRで間違う個所が同じじゃない。だから、この2つのOCRで作ったテキストを比較して修正すれば、けっこう簡単に精度の高いテキストができちゃう。

OCRのソフトはこれ以外にもいろいろあるし、この分野は移り変わりが激しいから、すぐに別のソフトがオススメになるかもしれないけど、青空文庫のテキスト作成や校正には、手入力+OCRじゃなく、こうしたOCR+OCRもいいんじゃないかな、と思う次第でありまする。


※1 Horash Qudita. “校正をやりやすくする為に”. aozorablog. 2012-05-16. https://www.aozora.gr.jp/aozorablog/?p=565, (参照 2024-09-14).

※2 GoogleドキュメントでOCRを使う方法は、Googleドライブのヘルプにも説明があるけど、ここではわかりやすそうなサイトを紹介。
Yoshi. “Google ドキュメントで OCR(文字認識) を使うには? | G Suite ガイド”. G Suite ガイド. 2022-02-06. https://gsuiteguide.jp/docs/how-to-use-ocr-with-google-docs/, (参照 2024-09-14).

※3 nakamura196. “NDLOCRおよびNDL古典籍OCRのver.2を用いたノートブックを作成しました。”. Zenn. 2023-09-20. https://zenn.dev/nakamura196/articles/43151b473e8954, (参照 2024-09-14).
実際にやってみると、初期セットアップに5分くらいかかるなど、OCRの実行にたどり着くまでのハードルがちょっと高いかも。
ある程度わかる人は、NDLOCRを自分のパソコンにインストールしたり、クラウドで実行するのが吉。


0 Comments »

No comments yet.

RSS feed for comments on this post. TrackBack URI

Leave a comment

This work is licensed under a Creative Commons Attribution-Noncommercial-Share Alike 3.0 Unported License.
(c) 2024 aozorablog | powered by WordPress with Barecity