14
底本とコンピュータさえあれば、青空文庫の作業は始められる。だけど、他にいろいろと機材があるとかなり便利。ということで、入力、校正に活躍するOCR関連の機材を紹介します。
使っているコンピュータは、マックのOS X (ver 10.5)で、ファイルの処理は通常JEdit X(2.15)で行っている。
スキャンは、スキャナーがCanom CanoScan LiDE 90で、OCRはe.Typist v.8.0を使っている。スキャンそのものも、e.Typist v.8.0のスキャン機能を使ってスキャンしている。
前にも書いたけれど(ヒラ工作員の日常〜入力編〜:http://www.aozora.jp/blog_old/2004/05/06/post.html)、スキャナーとOCRは基本的に入力に使っている。最近、校正にも使えるのではないか、といろいろと試みている。やり方は以下の通り。
1)底本をスキャンし、OCRでテキストファイルを作成する。
2)OCR出力のファイルを手直しする。この時、しっかりと読むようなことはしないでもいいようだ。
3)校正するファイルとOCR出力のファイルを相違点チェッカーで比較する。
この方法は、手入力で入力されたファイルの校正にはかなり威力を発揮する。手入力の際には、どうしてもてにをはの間違いや、漢字の開きのミスがまぎれてしまう。そして、そういった間違いは眼で比較しているだけではなかなか全てを拾いきれない。もっとも、底本がOCR向きのものでないとOCR出力のファイルが間違いだらけであまり使えないかもしれないが。
また、OCRで入力されたファイルの際にも、スキャンの状態、OCRソフトの違いで出力に違いがあるようなので、ミスを見つけるのに役に立つかもしれない。
相違点チェッカー:結城さんの作られたツール
http://www.hyuki.com/aozora/
現在、OCRソフトの見直しをしています。
PCを新しくした(前のが壊れた)関係で作業環境が変ってしまいました。
以前はWindowsで読んでココ!を使用していましたが、最新事情はどうなのでしょう?
皆様のアドバイスをお待ちしています。
[…] aozorablog » 青空文庫の作業に使っている機材: aozorablog » 青空文庫の作業に使っている機材 […]
手入力とOCRの違いは?
それぞれの強み、弱みは、どんなところに出てくるのでしょう?
過去記事へのリンク、最後の「l」が落ちていました。
http://www.aozora.jp/blog_old/2004/05/06/post.html
OCR向きの底本、手入力向きの底本、というカテゴリーで考えてみます。
OCR向きの底本
・比較的よい印刷:誤認識が減ります。
・ルビ少なめか、ルビが漢字から離れている方がよい:ルビがあったり漢字の近くに組まれていると確実に誤認識します。これはスキャンの解像度をあげると改善出来るのかな? ちなみに旧字/新字はどちらでも問題ありません。ただ、旧字は総ルビが多いので。
・文字がべたっと全ページにわたって組まれていても大丈夫:手入力にありがちな一行飛ばし等はありません。
・1ページあたりの文字数が少ないものはスキャンの苦労の割に報われません(詩集など)
利点としては
・誤認識はあるけれど、間違いが一定なので、一括変換で修正可能(同一底本、同一シリーズをスキャン、OCRしておいて一括変換で他のファイルも修正してゆくとさらに楽になる)
・てにをは、の間違い、漢字の送り仮名の間違い、漢字/仮名の開きの間違いがかなり少ない
・とにかく早い(スキャン、OCR後、手直しするだけなら20-30Kのファイルが一時間程度で作成できる)
欠点としては
・OCRかけっぱなしだと、とにかく文字の間違いが多い
・見た目が似ている漢字を間違える:これは、間違えやすい漢字のリストを参照すれば改善できるかな?
くらいでしょうか。
手入力向きの底本
・印刷時期によらず可能
・ルビが多い、または漢字にルビが密着しているような底本(古い全集モノは、これが多いです。直木三十五全集、長谷川時雨全集など)
・詩集などのページあたりの文字数の少ないもの
・割り注などの多用してある底本
利点としては
・機材いらず
・とりあえずどんな底本でも可能
・読む楽しみがある?
欠点としては
・てにをは、漢字/仮名の開きのレベルで間違う:入力後に詳細な突き合わせ読みが必要
・間違いが一定しないので一括変換でも間違いを拾いきれない
・時間がかかる
くらいでしょうか。