青空文庫の作業状況
200

カテゴリー:青空文庫 | 投稿者:おかもと | 投稿日:2018年10月24日 |

昨年(2017年)の10月、青空文庫のオフ会で、こんな話題がでました。

「現在入力中とか校正中といった作品の情報を、最近の分だけでもまとめてサイトに掲載したらどうか。」

青空文庫で、入力や校正の作業をしている工作員(もしくは耕作員)にとって、自分が入力・校正した作品はどうなっているのか、いつ公開されるのか、といった情報は、知りたいことの一つではないかと思います。
これについて、青空文庫からは「作業中 作家別作品一覧」というCSV形式のデータが提供されていて、これをダウンロードしてチェックすれば、その作品がどんな状況にあるか確認できるようになっています。
しかし、毎回ダウンロードしてチェックするのは面倒です。そこで、上記のような発言となったわけです。

このことを、昨年10月にAOZORAXのフォーラムに書いたところ、nanbuwksさんから色よい返事があったのですが、どうもお忙しいようでしたので、「青空文庫の作業状況」というサイトを作ってみました。

サイトの構成は、次の通りです(サイトの内容は毎日更新)。

青空文庫の作業状況 http://yozora.main.jp/inp/

●最近の動き
●今後の予定

●作業中の作品数(作家別)ベスト10
●作業中の作品数(入力者別)ベスト10
●作業中の作品数(校正者別)ベスト10

●作業中作品の内訳(作業状態/年別)

●参考資料:公開中の作品
・公開中の作品数(作家別 / 入力者別 / 校正者別)一覧
・公開中の作品数(公開年別)

●参考資料:作家一覧、工作員一覧

なんだか項目が多くなってしまいましたが、最初の「●最近の動き」が、当初目指していたものです。

「●最近の動き」は、過去4週間の作業状況で、過去4週間の間に入力中になったり、入力が終わって校正待ちになるなど、状態が変わった作品を表示しています。
ちなみに、元データとなる「作業中 作家別作品一覧」には、作業状態として12の段階があり、それをそのまま使っています。

    1. 入力予約
    2. 入力中
    3. 翻訳中
    4. 校正待ち(点検前)
    5. 校正待ち(点検済み)
    6. 校正予約(点検前)
    7. 校正予約(点検済み)
    8. 校正中
    9. 校了
    10. 公開
    11. 非公開
    12. 入力取り消し

このうち、「10. 公開」は近日中に公開されるということで、この段階の作品は、「●今後の予定」に表示しています。なお、「●今後の予定」は、今後4週間の公開予定を表示するように作ってありますが、10月24日現在、10月末までの公開予定しか表示されていません。これは、元のCSVデータに、10月末までのデータしか入ってないためです。

さて、「●最近の動き」「●今後の予定」で、どんな作品が入力・校正・公開予定なのかといった、作品ごとの動きはわかりやすくなりましたが、いったいどの作家の作品が入力中なのか、といった作家ごとのトレンドは、青空文庫のサイトで個々の作家の「作家別作品リスト」か「作業中 作家別作品一覧」を見て、一人ずつ確認するしかありませんでした。
もちろん、それはそれで有用なのですが、たとえば作業中の作品数を作家別に比較するのは、けっこう面倒です。そこで、「●作業中の作品数(作家別)ベスト10」というものを作ってみました。
これをみると、現在は田山花袋(=録弥)や小川未明、山本周五郎といった作家の作品が、たくさん入力・校正の作業中になっているのがわかります。
また、自分のすきな作家はベスト10には出てこないぞ、といった向きには、50位まで表示、あるいはすべて表示といったオプションも設けたので、その作家の作品が作業中なら、どこかに名前が出てくるはずです。

そして、この作家別ベスト10を別方向に拡張させて、「●作業中の作品数(入力者別)ベスト10」「●作業中の作品数(校正者別)ベスト10」というのも作ってみました。
これまで、どの工作員がどれくらい作業をしているのかというのはわからなかったのですが、これで入力者・校正者別に、たくさん作業している人がわかるようになったと思います(わかったからどうなのか、というツッコミも一部にはありますが……)。

また、工作員の名前をクリックすると、その人が入力・校正している作品のリストが表示されます。このリストは、「状態の開始日」を規準にソートされていて、最近、状態が変更された作品が上に並ぶようになっています(なお、リストの項目名をクリックすると、その項目を規準にして行を並び替えることができます)。
このリストをみると、入力専門の人、校正専門の人、同じ作家の作品を集中的に作業する人、いろんな作家の作品を担当する人など、工作員ごとの傾向が見えてきます。
工作員の方は、自分のリストをときどきチェックすると、自分で入力・校正した作品がどの状態にあるか一目でわかるので、けっこう便利ではないかと思います。

以上、作家別・入力者別・校正者別という3つのベスト10を作ったところで、別の方面から切り分けることを思いつきました。それは、入力中とか校正中といった作業状態からの切り分けです。実際に作業状態で切り分けてみたのが「●作業中作品の内訳(作業状態/年別)」です。
これをみると、作業状態が「入力中」の作品が一番多いのは当然かもしれませんが、次に多いのが「校正待ち(点検前)」なのは、ちょっと意外でした。この点検は、青空文庫の中の人が行うものなので、校正はもちろん大変ですが、校正前の点検もかなり手間がかかるもののようです。
さらに、それぞれの作業状態の内訳を年別にみることができるのですが、ずいぶん前に入力中になった作品も残っているようで、これを担当した工作員は一体なにをしてるのかな、という感じです。

さて、青空文庫の作業状況ということで、CSVデータを元にいろいろ作ってみたのですが、参考資料として、作業の終わった作品、つまり現在公開中の作品についても同じようなものを作ってみました。それが「公開中の作品数(作家別 / 入力者別 / 校正者別)一覧」「公開中の作品数(公開年別)」です。
作業中のものと現在公開中のものを比較することで、また別の視点が生まれるかもしれません。

さらに、「作家一覧」「工作員一覧」として、作家ごと、あるいは工作員ごとの作業中作品数と公開中作品数をリストにしてみました。
4年ほど前、青空文庫の作家別作品数を「青空文庫の蔵書構成」の中で表にまとめたのですが、現在の「作家一覧」と比べると、作品数の上位3人(宮本百合子、岸田国士、坂口安吾)は同じですが、4位に小川未明、5位に野村胡堂が入るといった変化があります。小川未明や野村胡堂は、作業中の作品もたくさんあるので、そのうち上位3人と入れ替わるかもしれません。
また、「工作員一覧」をみると、1,000件以上の作品を入力・校正している、いわば「スーパー工作員」も何人かおられるようで、ボランティアとはいえ、青空文庫から感謝状でも贈呈したら? と思うくらいの働きぶりです。

 

青空文庫のオフ会で話が出てから1年。「青空文庫の作業状況」として、それらしいものを作ってみました。実際に入力・校正の作業をしている工作員の方々にとって、お役に立つものになったでしょうか。

イヤ、こんなものじゃだめだ、オレが作ってやる、という方をお待ちしております(笑)


6 Comments »

  1. 工作員ごとの情報一覧はとても役に立ちます。

    細かいことを言えば:
    ・「作業中の作品数(作家別)」からも「入力取り消し」を除外したほうが良いと思います。
     そうすると一位の座が入れ替わりますね。
    ・「最近の動き」に公開された作品が含まれていればなおよい。
     作業中作品のDBを元にしているので含まれていないのは理解していますが
    ・いっそのこと、作業中と公開中のDBをマージして集計したほうが良いのではないでしょうか?
     両者を分けて集計する意味があまりないと思います。

    Comment by 工作員 — 2018年10月27日 @ 8:58 PM
  2. 前のコメントで作業中と公開中を分ける意味がないというようことを言いましたが
    言いすぎでした。分けたのとマージしたのとそれぞれ使い道があると思います。

    ただ
    作業中の作品数(作家別)ベスト10

    公開中の作品数(作家別)
    が異なるフォーマットで提供されているのは、見せ方を合わせたほうが良いのではないでしょうか。

    Comment by 工作員 — 2018年10月27日 @ 9:32 PM
  3. コメント、ありがとうございました。

    > 「作業中の作品数(作家別)」からも「入力取り消し」を除外したほうが良いと思います。

    当方も最初はそう思ったのですが、青空文庫ご本家の「作業中 作家別作品一覧」には「入力取り消し」が含まれているため、そちらとの整合性を優先しました。

    > 「最近の動き」に公開された作品が含まれていればなおよい。

    技術的には可能ですが、、、そのほうが「最近の動き」というタイトルには忠実かもしれませんね。
    これについては、他の方のご意見もお伺いしたいところです。

    > 作業中の作品数(作家別)ベスト10
    > と
    > 公開中の作品数(作家別)
    > が異なるフォーマットで提供されているのは、見せ方を合わせたほうが良いのではないでしょうか。

    「公開中の作品数(作家別)」は、「作業中の作品数(作家別)ベスト10」→「すべて表示」に対応しています。
    公開中作品のデータは参考資料という位置づけなので、このあたりは仕方ないところです。

    Comment by おかもと — 2018年10月27日 @ 10:03 PM
  4. > 「最近の動き」に公開された作品が含まれていればなおよい。

    おそくなりましたが、これに対応しました。どうもありがとうございました。

    Comment by おかもと — 2018年11月26日 @ 10:28 PM
  5. 「青空文庫の作業状況」、面白いです。以前、ずっと校正待ちの作品を探すのに、CSVファイルをダウンロードして、表計算ソフト(Libre Calc)でソートしたりしていました。CSVファイルを加工するのは、なんのプログラム言語を使っておられるのでしょうか。
    月間のアクセス増分析を行うのに、Libre Calcを使っているのですが、手作業部分が多くて、手違いを起こすこともあり、時間もかかるので、何かいい手があればと思ったりしています。もっともプログラミング能力は乏しいので、知ったからと言って、できるわけではないのですが。
     話は変わりますが、これは基のCSVファイルの構造から仕方のないことなのですが、いつ入力が終わり、いつ校正が始まったかの履歴が分かると興味深いですよね。どうして、最初にそれぞれの欄を作らなかったのでしょう。

    Comment by POKEPEEK2011 — 2019年2月17日 @ 10:49 AM
  6. コメントありがとうございます。
    CSVファイルは、一旦SQLiteのDBに入れてから、perlで加工して出力しています。
    アクセス増分析、Lible Calcを使っておられるのですね。関数とマクロを使えば、ある程度は省力化できそうですが。
    各作品の履歴があれば、着手から公開までの平均日数とかも算出できそうですね。現状でも、日々のCSVファイルを保存しておいて分析すれば、算出できるのかな。

    Comment by おかもと — 2019年2月17日 @ 9:53 PM

RSS feed for comments on this post. TrackBack URI

Leave a comment

This work is licensed under a Creative Commons Attribution-Noncommercial-Share Alike 3.0 Unported License.
(c) 2019 aozorablog | powered by WordPress with Barecity