106
はじめに
青空文庫、インターネット上の電子図書館。2014年2月22日の時点で、12,400点の作品を公開している。
こんなにたくさん作品があると、中にどんなものがあるか、よくわからないだろう。また、よその図書館と比べて多いのか少ないのか、そのあたりもよくわからない。
そこで、青空文庫の蔵書構成がどうなっているか、数値を元に、よその図書館と比較しながらみていくことにしよう。
1. 青空文庫(http://www.aozora.gr.jp/)
まず、青空文庫からダウンロードできる「公開中 作家別作品一覧」(※1)のデータを元に、作者別の傾向をみてみよう。
このデータによると、青空文庫に収録されている作品の作者の数は、全部で839名。この中には、いわゆる著者以外に、翻訳者や編集者、校訂者の数も含まれている。
作者別にみて、作品数が一番多いのは「宮本百合子」の1,165点。この人の作品だけで青空文庫全体の1割近くを占めている。その次は「岸田国士」の636点、「坂口安吾」の440点と続いている(表1)。そして、1位の「宮本百合子」から10位の「太宰治」までの作品数の計は4,420点となり、作品数全体の36%余りになる。
No | 作者名 | 作品数 |
1 | 宮本 百合子 | 1,165 |
2 | 岸田 国士 | 636 |
3 | 坂口 安吾 | 440 |
4 | 芥川 竜之介 | 369 |
5 | 豊島 与志雄 | 355 |
6 | 牧野 信一 | 343 |
7 | 寺田 寅彦 | 288 |
8 | 小川 未明 | 277 |
9 | 宮沢 賢治 | 275 |
10 | 太宰 治 | 272 |
ここで注意しておきたいのは、「作品数イコール(紙の)本の冊数ではない」ということである。
作品の中には、長い小説もあれば短いエッセイもあるが、青空文庫ではすべて1つの作品としてカウントされている。
作品数が一番多い「宮本百合子」を例にすると、紙の『宮本百合子全集』は3種類出版されているが、一番新しい新日本出版社版『宮本百合子全集』は全33巻+別冊=34冊であり、1,165点の作品の大半はこの34冊のどこかに含まれている。つまり、「宮本百合子」の作品数が1,165点だからといって、1,165冊もの本がずらっと並んでいることを想像すると、それは違うということになるだろう。
同じように、「岸田国士」の636点に対して岩波書店版『岸田國士全集』は全28巻、「坂口安吾」の440点に対して筑摩書房版『坂口安吾全集』は全18巻となる。全集はぶ厚い本が多いので、それを割り引く必要はあるが、青空文庫の全作品12,400点を紙の本に換算すると、ずいぶん少なくなるということは、注意しておいたほうがいいだろう。
次に、青空文庫の分野別の傾向をみてみよう。
青空文庫の「公開中 作家別作品一覧」のデータには、分類番号として日本十進分類法(NDC)に基づくデータが入っている。この分類データは、青空文庫ではなく青空文庫分野別リスト(※2)が作成しているのだが、これを集計すると次のようになる(表2、図1)。
分野 | 作品数 | 比率 | (うち児童書) | (児童書比率) |
0類 総記 | 123 | 0.89% | (0) | (0%) |
1類 哲学 | 273 | 1.98% | (0) | (0%) |
2類 歴史 | 479 | 3.47% | (4) | (0.03%) |
3類 社会科学 | 649 | 4.7% | (1) | (0.01%) |
4類 自然科学 | 165 | 1.2% | (7) | (0.05%) |
5類 技術・工学 | 170 | 1.23% | (0) | (0%) |
6類 産業 | 32 | 0.23% | (0) | (0%) |
7類 芸術・美術 | 980 | 7.1% | (25) | (0.18%) |
8類 言語 | 63 | 0.46% | (0) | (0%) |
9類 文学 | 10,861 | 78.73% | (1,159) | (8.4%) |
これをみると、「9類 文学」が78.73%で、圧倒的に多い。次に「7類 芸術・美術」の7.1%、そして「3類 社会科学(政治・法律・経済・教育など)」4.7%、「2類 歴史」3.47%、「1類 哲学」1.98%と続いている。
また、内数として児童書の比率がでているが、児童書はほとんどが「9類 文学」で、8.4%を占めている。
2. 公共図書館
さて、次は公共図書館の蔵書構成をみてみよう。
「公立図書館の蔵書構成比と貸出規則に関する実態調査」が、2008年に池内淳と中川恵理子によって行われ、その結果が2009年に報告されている(※3)。
この報告の中に、「新刊点数・推定発行部数・所蔵冊数のNDC分類別比較」という表があり、(紙の)新刊書の発行点数・推定発行部数と、実際の公共図書館の所蔵冊数が分野別に比較されている(表3)。
分野 | 新刊点数 | 発行部数 | 所蔵冊数 |
0類 総記 | 1.36% | 0.86% | 3.69% |
1類 哲学 | 5.4% | 7.2% | 3.29% |
2類 歴史 | 6.32% | 4.74% | 9.56% |
3類 社会科学 | 23.29% | 12.57% | 12.29% |
4類 自然科学 | 7.57% | 3% | 7.67% |
5類 技術・工学 | 8.31% | 4.09% | 7.79% |
6類 産業 | 4.4% | 2.85% | 3.31% |
7類 芸術・美術 | 19.07% | 25.02% | 10.1% |
8類 言語 | 2.99% | 2.58% | 1.84% |
9類 文学 | 21.29% | 37.07% | 40.47% |
この中の、公共図書館の所蔵冊数の項目をみると、「9類 文学」が40.47%で一番多い。しかし、青空文庫の78.73%ほど多くはない。次は「3類 社会科学」で12.29%、そして「7類 芸術・美術」10.1%、「2類 歴史」9.56%と続く(図2)。
これをみると、公共図書館も文学の分野が多いけれど、青空文庫のようにそれだけに集中することなく、いろいろな分野の本が置かれているといえそうである。
3. 新刊点数と推定発行部数
せっかくなので、「公立図書館の蔵書構成比と貸出規則に関する実態調査」の表にあった、書籍の新刊点数と推定発行部数についてもみてみよう。
この数値の元は『出版指標年報 2007』だが、新刊点数では「3類 社会科学」がトップで23.29%、次が「9類 文学」の21.29%、「7類 芸術・美術」の19.07%と続く(図3)。
「3類 社会科学」が多いのは、ビジネス書や学習参考書の新刊が多いためだろう。また、「7類 芸術・美術」が多いのは、コミックやゲーム関係の本がこの分野に含まれているからだろう。
次に、書籍の推定発行部数では、「9類 文学」がトップで37.07%、次が「7類 芸術・美術」の25.02%、「3類 社会科学」の12.57%と続く(図4)。
これはあくまでも推定発行部数で、実際に売れた部数ではないのだが、「9類 文学」が他の分野に比べて発行部数が多いのは、それだけ売れると期待されているのだろう。また、「7類 芸術・美術」が2位なのは、コミックやゲーム関係の本の発行部数が多いということなのだろう。
こうした新刊書の発行点数や推定発行部数が、実際の読者のニーズを反映したものならば、「9類 文学」が多い点は青空文庫と似ているが、それ以外はずいぶん違うといえそうである。
4. 近代デジタルライブラリー(http://kindai.ndl.go.jp/)
次は、国立国会図書館の近代デジタルライブラリーである。
近代デジタルライブラリーは、国立国会図書館が所蔵する明治以降に刊行された図書・雑誌のうち、著作権が切れたものをインターネット上で公開している電子図書館で、2002年に始まった。
著作権が切れた資料の公開という点では青空文庫と同じだが、本文が国立国会図書館の蔵書をスキャンした画像データという点で、大きく異なっている。
近代デジタルライブラリーの公開作品数は、図書が約350,000点、雑誌は英語版官報が約2,000点、医学中央雑誌が約3,000点となっている(※4)。この数は、青空文庫の作品数12,400点よりずっと多い。また、先に青空文庫は「作品数イコール(紙の)本の冊数ではない」と書いたが、近代デジタルライブラリーは「作品数イコール本の冊数」なので、さらに差が広がることになる。そのことを考えあわせると、同じ電子図書館でも規模がずいぶん違うことがわかるだろう。
この近代デジタルライブラリーには「テーマ検索」(※5)という機能があり、日本十進分類法に基づいてテーマが分けられている。これをみると、「3類 社会科学」が31.16%でトップ、次に「2類 歴史」の12.85%、そして「6類 産業」10.76%とほぼ同数の「9類 文学」の10.75%、と続いている(表4、図5)。
分野 | 点数 | 比率 |
0類 総記 | 8,098 | 2.38% |
1類 哲学 | 32,656 | 9.61% |
2類 歴史 | 43,627 | 12.85% |
3類 社会科学 | 105,848 | 31.16% |
4類 自然科学 | 23,966 | 7.06% |
5類 技術・工学 | 19,780 | 5.82% |
6類 産業 | 36,549 | 10.76% |
7類 芸術・美術 | 21,500 | 6.33% |
8類 言語 | 11,110 | 3.27% |
9類 文学 | 36,507 | 10.75% |
国立国会図書館の蔵書は、「出版された本はすべて納本すべし」という納本制度によって集められた本が中心である。そして、近代デジタルライブラリーは、そのうち明治・大正・昭和前期の著作権が切れた蔵書をデジタル化した、いわば部分集合のようなものである。そのため、近代デジタルライブラリーの分野別傾向は、当時の出版傾向を反映しているといえそうである。「3類 社会科学」がトップという点は、先にみた書籍の新刊点数の分野別傾向と同じだが、それは、今も昔も「3類 社会科学」の出版点数が多いということを示しているのだろう。
5. プロジェクト・グーテンベルク(http://www.gutenberg.org/)
最後に、プロジェクト・グーテンベルク(以下「グーテンベルク」)をみてみよう。
グーテンベルクは1971年に始まった電子図書館で、著作権が切れた作品(主に英語)を電子化して公開している。また、作品の入力・校正にボランティアが協力しているなど、青空文庫とは共通点がいくつかある。
このグーテンベルクは、作品データをXML/RDF形式で公開しているので、これを元に分野別と作者別の傾向をみてみよう(※6)。
まず、グーテンベルクの作品数だが、作品Noは44983まであるが、途中にタイトルが空白のものがあるため、それを除くと44,884点になる。
作品データには、アメリカ議会図書館分類表(LCC)の分類が付けられていている。しかし、44,884点のうち、分類が付けられているのは69.5%の31,203点で、残り30.5%の13,681点には分類がない。
そのため、グーテンベルク全体の分野別傾向は不明なのだが、分類が付けられた作品だけについてみてみると、「P 語学、文学」が61.05%でトップ、ついで「D 歴史」8.89%、「B 哲学、心理学、宗教」6.24%となっている(表5、図6)。
分野 | 作品数 | 比率 |
A 総記 | 1,627 | 4.95% |
B 哲学、心理学、宗教 | 2,049 | 6.24% |
C 歴史の補助学 | 223 | 0.68% |
D 歴史 | 2,921 | 8.89% |
E アメリカ史 | 890 | 2.71% |
F アメリカの地方史など | 634 | 1.93% |
G 地理学など | 507 | 1.54% |
H 社会科学 | 685 | 2.08% |
J 政治学 | 222 | 0.68% |
K 法律 | 85 | 0.26% |
L 教育 | 152 | 0.46% |
M 音楽 | 355 | 1.08% |
N 美術、芸術一般 | 324 | 0.99% |
P 語学、文学 | 20,060 | 61.05% |
Q 自然科学 | 921 | 2.80% |
R 医学 | 176 | 0.54% |
S 農業、林業、漁業 | 220 | 0.67% |
T 技術 | 509 | 1.55% |
U 軍事 | 59 | 0.18% |
V 海事 | 30 | 0.09% |
Z 書誌など | 209 | 0.64% |
(その他–分類なし) | (13,681) |
アメリカ議会図書館分類表の分類は、青空文庫などで用いた日本十進分類法とはうまく対応しないのだが、主な分野を(むりやり)対応させると、以下のようになる(表6)。
アメリカ議会 図書館分類表 |
プロジェクト・ グーテンベルク |
青空文庫 | 日本十進分類法 | ||
C 歴史の補助学 | 0.68% | 15.75% | 3.47% | 3.47% | 2類 歴史 |
D 歴史 | 8.89% | ||||
E アメリカ史 | 2.71% | ||||
F アメリカの地方史など | 1.93% | ||||
G 地理学など | 1.54% | ||||
H 社会科学 | 2.08% | 3.48% | 4.7% | 4.7% | 3類 社会科学 |
J 政治学 | 0.68% | ||||
K 法律 | 0.26% | ||||
L 教育 | 0.46% | ||||
P 語学、文学 | 61.05% | 61.05% | 79.19% | 0.46% | 8類 言語 |
78.73% | 9類 文学 |
こうしてみると、グーテンベルクは青空文庫ほど文学・語学分野は多くないが、そのかわり歴史分野が多いのが特徴といえそうである。
次に、グーテンベルクの作者別傾向だが、作者(作者の中には編集者や翻訳者などが含まれる)の総数は20,557名で、青空文庫の作者数839名と比べるとずいぶん多い。これは、グーテンベルクに英語以外の言語の作品も含まれていることと関係するのかもしれないが、おおまかにいって、グーテンベルクはいろんな作者の作品があるのに、青空文庫は同じ作者の作品が多く多様性に乏しい、ということになるだろう。
また、作者別の作品数をみると、1位がVarious(複数の作者)の2,780点、2位がAnonymous(匿名)の680点、3位がWilliam Shakespeareの306点と続く(表7)。
No | 作者名 | 作品数 |
1 | Various | 2,780 |
2 | Anonymous | 680 |
3 | Shakespeare, William | 306 |
4 | Twain, Mark | 216 |
5 | Lytton, Edward Bulwer Lytton, Baron | 216 |
6 | Ebers, Georg | 170 |
7 | Dickens, Charles | 170 |
8 | Unknown | 152 |
9 | Verne, Jules | 143 |
10 | Bell, George | 139 |
作者がVarious(複数の作者)となっている作品を実際にみてみると、「Punch」や「The Atlantic Monthly」といった雑誌や、「Encyclopaedia Britannica」のような百科事典が含まれている。また、2位のAnonymous(匿名)には、聖書などの経典が含まれている。
また、グーテンベルクの中には、「The Works of …」とか「The Poetical Works of …」といった、個々の作品を作品集や全集の形式でまとめて登録された作品がいくつも見受けられる。そのため、グーテンベルクの作品数と、作品が全集形式ではなくばらばらに登録されている青空文庫の作品数は、単純には比較できないだろう。
おわりに
以上、青空文庫の蔵書構成について、よその図書館などと比較しつつみてきた。
おおまかにまとめると、
- 青空文庫は、文学の分野が多くて、それ以外の分野はあまりない。
- 青空文庫は、同じ作者の作品が多い。
といったかんじになるだろうか。
青空文庫に限らず、電子図書館の蔵書構成がどうあるべきかは、議論が必要なところだろう。そうしたことに関心を持つ人たちに、今回の分析が少しでもお役に立てばさいわいである。
注)
※1 青空文庫. 公開中 作家別作品一覧. http://www.aozora.gr.jp/index_pages/person_all.html 2014年2月22日参照。
※2 青空文庫分野別リスト. http://yozora.kazumi386.org/ 2014年2月22日参照。なお、1つの作品に対して複数の分類が付けられている場合があるので、分類の付けられた作品数の合計は、実際の作品数とは一致しない。
※3 池内淳, 中川恵理子. 公立図書館の蔵書構成比と貸出規則に関する実態調査. 三田図書館・情報学会研究大会 2009年度 予稿 http://www.mslis.jp/am2009yoko/08_ikeuchi.pdf 2014年2月22日参照。
※4 国立国会図書館. 近代デジタルライブラリー このデータベースについて. http://kindai.ndl.go.jp/ja/aboutKDL.html 2014年2月22日参照。
※5 国立国会図書館. 近代デジタルライブラリー テーマ検索. http://kindai.ndl.go.jp/search/category?categoryGroupCode=K 2014年2月22日参照。
※6 Project Gutenberg. The Project Gutenberg Catalog in Machine-Readable Format. http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs#The_Project_Gutenberg_Catalog_in_Machine-Readable_Format 2014年2月22日参照。なお、プロジェクト・グーテンベルクでも、1つの作品に対して複数の分類が付けられている場合があるので、分類の付けられた作品数の合計は、実際の作品数とは一致しない。
児童図書が少ないのは、旧字旧かなのままでは児童には読みにくいから。
文学作品が多いのは、OCRにせよ手入力にせよ、手数が少なくてすむから。
児童作品や文学以外の作品には図版や表組み・計算式などもよく出てきますが、青空の入力マニュアルでは、そのあたりの作業方法が煩雑だったり、逆にまだアバウトだったりなせいもあるかなと個人的に思ってます。
おかもとさん、おひさしぶりです。
NDC分類の作業の継続、どうもありがとうございます。
しださん、ご無沙汰しております。
児童書や文学作品についてのご意見、ありがとうございます。
実際に入力・校正をされている方のご意見は、重みがありますね。
旧字旧かな表記や図版・表組みの問題がクリアできたとして、さらにやっかいなのは、科学分野の最新業績との内容のギャップと、まま見られる刺激的な表現の豊富さですよねー。
[…] さらに、「作家一覧」、「工作員一覧」として、作家ごと、あるいは工作員ごとの作業中作品数と公開中作品数をリストにしてみました。 4年ほど前、青空文庫の作家別作品数を「青空文庫の蔵書構成」の中で表にまとめたのですが、現在の「作家一覧」と比べると、作品数の上位3人(宮本百合子、岸田国士、坂口安吾)は同じですが、4位に小川未明、5位に野村胡堂が入るといった変化があります。小川未明や野村胡堂は、作業中の作品もたくさんあるので、そのうち上位3人と入れ替わるかもしれません。 また、「工作員一覧」をみると、1,000件以上の作品を入力・校正している、いわば「スーパー工作員」も何人かおられるようで、ボランティアとはいえ、青空文庫から感謝状でも贈呈したら? と思うくらいの働きぶりです。 […]