余談 表記のゆれとOCR
のっけから余談とは、これいかに。まあまあ、落ち着いて落ち着いて。
(more…)
前口上
先日、aozorablogの「伊東英子をさがせ その3」のコメント欄に、森本穫(おさむ)さんからの投稿がありました。なんでも、川端康成の初恋の人である伊藤初代が勤めていた本郷元町のカフェについて、調べてほしいことがあるとのこと。
- カフェ・エランの実在した証拠
- カフェ・エランの向かいにあった煙草屋の主婦の情報
さっそく、Wikipediaにある伊藤初代のページをみてみたのですが、川端康成の研究者がすでにいろいろと調査済みのご様子。いまさら、新しいものなんてみつかるのかしらん……
とりあえず、国立国会図書館のレファレンス協同データベースをみたところ、今回の調査にちょっと近い事例がありました。
大正10年(1921年)頃に浅草にあった『カフェ・アメリカ』に関する資料や写真を見たい。(東京都立中央図書館)
https://crd.ndl.go.jp/reference/detail?page=ref_view&id=1000348075
さすが東京都立中央図書館、きちんと調べていらっしゃる。
こんな感じで調べればいいのかな、と、いうことで、「本郷」「元町」「カフェ」などのキーワードで、調査をスタート。
(more…)
やあ、読んでくれてありがとう。
さて、今回のお題は……「青空文庫とOCR」ね。つまり、青空文庫の入力や校正に、OCRを使ったらどうかな、ってハナシ。
OCRについては、Horash Quditaさんが12年前にこのblogで書いているんだよね。
その中から、OCRと手入力を比較してる部分を、ちょっと引用(※1)。
(more…)
はじめに
2018年10月に「青空文庫の作業状況」https://yozora.main.jp/inp/ を公開して、3年半たちました。公開した当初は、どれだけ利用されるのか不安でしたが、最近では一日に200名程度の利用者がいるようです。どうもありがとうございます。
この3年半の間にたまったデータをもとに、青空文庫の作業状況について振り返ってみたいと思います。
(more…)
蔵書印とは、その本の持ち主であることを示す印のこと。
くわしくはWikipediaを見ていただくとして、青空文庫の作者たちが、どんな蔵書印を使っていたか、国文学研究資料館の「蔵書印データベース」(以下「蔵書印DB」)(2023年3月、人文情報学研究所の「蔵書印ツールコレクション」に継承)から調べてみました。(※1)
(more…)
昨年(2017年)の10月、青空文庫のオフ会で、こんな話題がでました。
「現在入力中とか校正中といった作品の情報を、最近の分だけでもまとめてサイトに掲載したらどうか。」
青空文庫で、入力や校正の作業をしている工作員(もしくは耕作員)にとって、自分が入力・校正した作品はどうなっているのか、いつ公開されるのか、といった情報は、知りたいことの一つではないかと思います。
これについて、青空文庫からは「作業中 作家別作品一覧」というCSV形式のデータが提供されていて、これをダウンロードしてチェックすれば、その作品がどんな状況にあるか確認できるようになっています。
しかし、毎回ダウンロードしてチェックするのは面倒です。そこで、上記のような発言となったわけです。
(more…)
経緯
10月15日、青空文庫のオフ会に参加してきた。その時、「せっかく校了になったのに、諸般の事情で公開できない作品」の話が出た。
そのうち、一番古いのは2002年に校了になった作品で、その作品が公開できなかった理由は、著者の没年が不明だったため、とのこと。それで、以前、青空文庫の掲示板「こもれび」で調査が行われた――と、ここまで聞いて、そういやその調査に自分も関わっていたっけ、と思い出した。
(more…)
「青空文庫分野別リスト」(以下「分野別リスト」)をメンテしている、おかもと と申します。
今回は、分野別リストのサイト移転について書きたいと思います。
(more…)
TPP(環太平洋パートナーシップ協定)の大筋合意で、著作権保護期間がこれまでの50年から70年になるとのこと。
これによって青空文庫は大きな影響を受けるといわれているが、実際、どれくらい影響があるのか、今ひとつピンとこないので、ちょっと調べてみた。
(more…)
はじめに
青空文庫、インターネット上の電子図書館。2014年2月22日の時点で、12,400点の作品を公開している。
こんなにたくさん作品があると、中にどんなものがあるか、よくわからないだろう。また、よその図書館と比べて多いのか少ないのか、そのあたりもよくわからない。
そこで、青空文庫の蔵書構成がどうなっているか、数値を元に、よその図書館と比較しながらみていくことにしよう。
(more…)