入力-1

●1冊の本はさまざまな要素から成り立っています。本文だけを見ても、例えば文章にはルビ(ふりがな)や注釈があります。表組にした文章もあります。写真や挿し絵が使われている本も多数あります。
●そのうち、ここで「入力」と呼ぶのは、ルビや注釈・表組を含めたテキスト(文字)の入力です。青空文庫では、「文字のみを含むファイル」を作業の基本にしています。みなさんに入力していただくのは、この形式のファイルです。
●「文字のみを含むファイル」のことを、一般に「テキスト・ファイル」と呼びます。Windows、Macintosh、UNIX、MS-DOSなど、ほとんど全てのパソコンには、「テキスト・ファイル」を扱うことのできるソフトが組み込まれています。Windowsではメモ帳、MacintoshではSimpleTextが代表的なものです。
●それに対し、ワープロソフト等の独自の形式で保存したファイルは、そのソフトを使って開いたときに文字のみで表されていても、「テキスト・ファイル」ではありません。これらのファイルの多くには、人間が文字として読める情報の他に、そのソフトのみが解読できる情報が書き込まれています。従って、そのソフトがインストールされていないパソコンでは、正しく表示することができません。
●ワープロソフト等の独自形式、画像、音声など、文字以外の情報を含むファイルを総称して、一般に「バイナリ・ファイル」と呼び、「テキスト・ファイル」と区別しています。ここでは詳しい説明は省きますが、「青空文庫では、どのパソコンでも扱えるテキスト・ファイルのみを入力作業の対象とする」ということを覚えておいてください。
●青空文庫では、みなさんに作業していただいたテキスト・ファイルと共に、読みやすく加工したファイルを公開しています。「テキスト・ファイル」という呼び名が、これらのファイルと区別するために使われる場合もありますので、注意してください。
●写真や挿し絵などは、画像ファイルとして扱い、基本的に、入力の対象には含めません。加えて、本文の著作権とは別個に、写真撮影者や画家の著作権が存在する場合があります。
●内容の理解を図っていく上で写真や挿し絵がぜひとも必要という場合には、別途ご連絡ください。その上で、著作権の扱いや入力の処理についてご相談したいと思います。
●さて、入力です。作業にかかる前に1つだけ注意していただきたいことがあります。青空文庫は原則として、「底本のできるだけ忠実な再現」を目標に置き、「勝手な編集はしない」という点です。
●漢字の使い方や送りがなは、「底本どおり」とします。旧かなのテキストであれば旧かなのままに、時代によって変化の激しい送りがなも、底本にならって入力してください。
●ただし旧漢字、旧かなのテキストが、私たちの多くにとって読みにくいこともまた事実です。現代表記にあらためたものがあれば、それを底本とすることで読みやすくできます。けれど、すべての作品で書き換え版が用意されているわけではありません。
●そこで、旧字、旧かなの書きあらために関しては、作業を進める上での目安を定めた上で、例外的にこれを認めることとします。自分自身で書き換えを行おうと考える人は、「旧字、旧仮名で書かれた作品を、現代表記にあらためる際の作業指針」にそって、対処してください。
●「底本どおり」を目指しても、テキスト・ファイルではレイアウトを忠実に表現することはできません。字下げなどの組みに関する情報は、適宜、入力者注で表します。

■入力方法

●入力には、キーボードをお使いになる方が大半でしょう。その際に利用なさるアプリケーション・ソフトは、テキスト入力に使えるものであれば、どんな種類のものであってもかまいません。シンプルなテキスト・エディターであっても、ワープロ・ソフトであっても、あるいはアウトライン・プロセッサなどの特殊なエディターであっても、ご自分が使い慣れたものをお使いください。
●注意していただきたいのは、ただ1つ、「誰もがファイルを開くことのできる形式で保存する」ことだけです(→WIN版文書の保存、→MAC版文書の保存)。
●入力中は、できるだけこまめに保存してください。パソコンにはエラーがつきものです。また、停電などのトラブルもあります。適度な頻度でファイルを保存し、入力済みのデータが不意の事故で失われないようにすることが大切です。
【OCRの活用】
●書籍のページなどをスキャナーで読み込み、読み込まれた画像データを解析して文字データに変換し、テキスト・ファイルとして保存するしくみを、OCR(Optical Character Reader)といいます。最近はOCRソフトの精度が向上し、テキスト入力に活用なさる方が増えてきました。OCRの活用は負担の大きい入力作業の軽減につながります。
●ただし、100%の精度で変換できるOCRソフトはありません。ソフト自体が優秀であっても、スキャニングに用いる書籍やコピーの質の問題もあります。OCRによるテキスト入力は必ずエディターなどによる修正作業をともないます。

■基本となる書式

●入力にあたり、青空文庫では下記のような独自の書式(ルール)を定めています。
1)一番最初の行には「作品名」を入れる。(底本の表題にルビが付いていたとしても、1行目に入れる作品名には、ルビはいりません。)
2)その次の行に「著者名」を入れる。
3)1行開けて、ルビなどを表す記号の使い方を説明した、【テキスト中に現れる記号について】を入れる。(記号を使わないですむ場合は、入れる必要はありません。)
4)1行開けて、本文を入れる。
5)本文の末尾から3行開けて、「使用した底本の正式名称・出版社・発行年月日、入力者名」等を「青空文庫収録ファイルへの記載事項」の形式に沿って入れる。
6)現代表記に書き改めた場合の作業履歴、その他の注記事項などがある場合は、「青空文庫収録ファイルへの記載事項」の形式に沿って入れる。
●文庫本などではそれ自体に底本(全集など)が存在する場合があります。その場合には、「親本(底本の底本)の正式名称・出版社・発行年月日」もわかる範囲でつけ加えてください。
●テキスト・ファイル(→WIN版文書の保存、→MAC版文書の保存)では、レイアウトに関する形式まで含めて底本をそのまま再現することはできません。そのために生ずる補足事項については、下記のような「入力者注」を活用します。
【入力者注の形式】
●全体を「[]」(区点コード0146・0147、JISコード214E・214F、シフトJISコード816D・816E。キーボードから直接入力できます)でくくり、[]内の最初には井げた記号#(区点コード0184、JISコード2174、シフトJISコード8194。キーボードから直接入力できます)を入れます。(シャープ記号♯区点コード0284、JISコード2274、シフトJISコード81F2と混同しやすいので注意してください。)
●底本の何ページ、何行目にあるかを示す必要がある場合は、「数(ページ)-数(行)」の形式で示します。数字と「-」は、英文モードで入力できる、半角のものを使ってください。
行数を数える際には、行アキはカウントしないでください。右の例では、赤矢印の行は「3」と数えます。

■入力の実際

●入力にあたっては、以下のようなルールを守ってください。
 
(1)使う文字
【パソコンで使える文字】
●一般にパソコンでは、JIS X 0201(「7ビット及び8ビットの情報交換用符号化文字集合」)で定義された、ラテン文字、数字、カタカナ、記号と、JIS X 0208(「「7ビット及び8ビットの2バイト情報交換用符号化漢字集合」)で定義された漢字、かな、ラテン文字、ギリシア文字、キリール文字、数字、記号が使えます。
JIS X 0201の文字はすべて、JIS X 0208に組み込まれています。
共通する部分がダブってしまっているわけですが、JIS X 0201のものが「半角」で表示されるのに対し、JIS X 0208の文字は「全角」で表示されるという形で、使い分けられています。
加えて、各社のパソコンでは、OSメーカー、パソコン・メーカーが独自に拡張した、いわゆる「機種依存文字」が使えるようになっています。
【青空文庫で使う文字】
●青空文庫の入力では、JIS X 0201の「半角カタカナ」と、各パソコンに組み込まれた「機種依存文字」は使いません。
●「半角カタカナ」をのぞくJIS X 0201の文字(いわゆる半角英数と半角の記号)、加えてJIS X 0208のすべての文字を使って、入力を進めていきます。
【包摂規準】
●入力作業に取り組むと、底本の漢字の字体と、画面やプリントアウトのものの細部が微妙に違っていて、「このコードで入れて良いのか?」と迷うことがあります。(→WIN版微妙な字体差と包摂規準、→MAC版微妙な字体差と包摂規準
●青空文庫の入力ですべての文字を使うことのできるJIS X 0208は、第1水準第2水準の文字を定義した上に、細かな字体差によって漢字のコードを区別するかしないかの約束事を、「包摂規準」という名前で定めています。
●第1水準第2水準に追加して使う、第3水準第4水準の漢字などを定めたJIS X 0213(「7ビット及び8ビットの2バイト情報交換用符号化拡張漢字集合」)も、JIS X 0208のものに追加、修正をほどこす形で、包摂規準を定めています。
●青空文庫の漢字の入力は、JIS X 0208に明示された185番までの包摂規準に加え、JIS X 0213で追加された186〜199番を受け入れた上で、底本に忠実に行います。(→JIS X 0208と0213規格票の包摂関連項目
●JIS X 0208の第1水準第2水準にない漢字は、外字として注記します。(→WIN版入力時に使える文字、→MAC版入力時に使える文字
(2)レイアウト関連
【行頭の字下げ】
●ほとんどの書籍では、新しい段落の始まりの部分が1文字下げてあります。これはワープロ・ソフトなどでは、ふつう、「インデント設定」を用い、ルーラーや数値で指定します。しかしながら、青空文庫用のファイルではインデント設定は使わずに、段落の最初に全角のスペースを入れてください。
●Windowsには、MSIMEというかな漢字変換ソフトが標準装備されています。MSIMEでは、設定によって、和文モードでもスペースが半角になる場合があります。入力にとりかかる前に、設定を確認しておきましょう。
1)MSIMEのツールバーから「プロパティ」を選びます。

2)「基本設定」タブ(MSIME98以降は「全般」タブ)で、スペースの設定を「全角スペース」にしておいてください。

※ツールバーが出てこない設定の場合は、「スタート」メニュー→「設定」→「コントロールパネル」→「キーボード」で「言語」タブを選ぶと、インストールされているかな漢字変換ソフトが表示されます。この中から選んでダブルクリックすると、「プロパティ」の画面になります。
【行頭の括弧の字下げ】
●一部の書籍では、新しい段落の始まりに括弧(「「」、「(」など)がくる際、1字または半字下げてある場合があります。(右の例では、1字下げてあります。)こうした場合にも、下のように、スペースは入れずに入力してください。

【字下げ】
●テキスト・ファイルでは、字下げは形どおりに再現できません。底本に字下げした組みがあるときは、入力者注で表します。
●字下げがはじまる1行前に、下の例のように[#ここから○字下げ]と入れ、行をあらためて、底本の文章を入力してください。「○字下げ」の「○」の所は、全角のアラビア数字で入力してください。
すでに何字分下げるかは注記してあるのですから、あらためて字下げされた字数分、全角スペースを入れる必要はありません。
●字下げが終わったら、下のように改行して[#ここで字下げ終わり]と入れてください。
●字下げ箇所の前後で行が開けてあれば、下のように、入力テキスト中にも、空白の行を入れてください。

【行の長さ】
●写真やイラストレーションの入った書籍では、その部分だけ行の長さが変えてあることがよくあります。上の字下げの場合と同様に、このようなレイアウトは再現できませんので、無視してください。ただし、写真やイラストレーションの著作権が切れていて、それらを入れた形で登録したいという場合には[#写真入る]などの注記を入れてください。
【改行】
●底本(印刷物)は、それぞれ、固有の行の長さを基準にレイアウトが固定されています。入力の際には、「底本に合わせて、1行1行の行末に改行(リターン)を入れる」ことは絶対に避けてください。「改行は段落から段落への移り目だけに入れる」が原則です。
【表組】
●テキスト・ファイルで表組を正確に再現することはできません。簡単な表組の場合には、項目と項目との間でTABキーを押し、TABで区切って入力してください。また、複雑な表組の場合は、別途ご連絡ください。

(3)外国語
【アルファベット】
●JIS X 0208にある文字を使って進めていく青空文庫の入力では、ラテン文字、ギリシア文字、(ロシア語などの表記に使われる) キリール文字の三種類のアルファベットが使えます。
●このうちラテン文字については、一般のパソコンでは、半角のものと全角のものを使い分けられます。
青空文庫の入力でも、半角、全角双方のラテン文字を使います。
●アルファベットの語句は、原則として、英文モードで半角のラテン文字を使い、
    僕は Victor Hugo の Notre Dame を読んだとき、
のように入力してください。
●半角ラテン文字の語間は、上のように、半角開けてください。
●ギリシア文字、キリール文字は、和文モードの全角でしか入力できません。全角の文字を用いて、
    そこには ΚΑΜΑΤΟΣ ΕΥΚΑΜΑΤΟΣ とあった。
のように入力してください。
●ギリシア文字、キリール文字の語間は、上のように、全角開けてください。
●かな、漢字、記号(句読点と括弧をのぞく)とアルファベットの境は、
    外道哲学と Sokrates 前の希臘哲学
    説話には一々 moral が附く。
    そこには ΚΑΜΑΤΟΣ ΕΥΚΑΜΑΤΟΣ とあった。
のように、半角開けてください。
●アルファベット文字列に組み込まれた、ピリオドやコンマ、中点、コロン、セミコロン、疑問符、感嘆符などの各種記号は、アルファベットととして扱います。
半角のものがあれば、半角で入力し、かな、漢字、記号(句読点と括弧をのぞく)と接するときは、
    Il nevivra pas ! と云った。
    青空文庫の玄関口は http://aozora.gr.jp/ です。
のように、半角開けてください。
●句読点とアルファベットの境には、
    西洋にいた時から、Archive とか
のように、アキを入れないでください。
●日本語が入る括弧とアルファベットの境には、
    そこには ΚΑΜΑΤΟΣ ΕΥΚΑΜΑΤΟΣ(苦は苦にならぬ)とあった。
のように、アキを入れないでください。
●括弧の中にアルファベットが入る場合、アルファベットの前後には、
    “Kosinski soll leben !”
    バヴァリア(Bavaria, Bayern)は、
     苦は苦にならぬ(ΚΑΜΑΤΟΣ ΕΥΚΑΜΑΤΟΣ)
のように、アキを入れないでください。
アルファベットの入る括弧には、全角のものを使ってください。括弧の前後には、アキを入れないでください。
●JRやNASAなどのように、縦書き表示されることの多い略語は、和文モードで、全角のアルファベットを用いて入力してください。
●縦組みの底本中で、縦に組まれているアルファベットは、和文モードで、全角のものを用いて入力してください。
●全角で入力した、アルファベットの略号、縦アルファベットが、かな、漢字、記号と接するところには、
    AT&T、NTTはともに、
    a、b、cと黒板に
のように、アキを入れないでください。
【アクセント符号付きのラテン文字】
●アクサン(´)(`)や、ウムラウト(¨)などが付いたラテン文字には、異機種間の互換性がありません。アクセント符号なしのラテン文字を入力し、
   フランスには raffine[#eはアクサンテギュ(´)付き] という語がある。
のように、どの字にどのアクセント符号が付いているのかを、入力者注で示してください。(→WIN版異機種間の互換性、→MAC版異機種間の互換性
●アクセント符号に関する注記は、以下のように、単語の後に付けてください。
   刻み附けた ecriture[#1文字目のeはアクサンテギュ(´)付き] runique であろう。
●ラテン文字の語と注記の括弧([)のあいだには、上の例のように、アキを入れないでください。ラテン文字のうしろに入るアキは、注記の括弧(])のあとに置いてください。
●アクセント符号の名称は、以下にならってください。
   ´ アクサンテギュ
   ` アクサングラーブ
   ^ アクサンシルコンフレックス
   ¨ ウムラウト

(4)数字と記号
【数字】
●1文字のアラビア数字(算用数字)は全角で、2文字以上の場合は半角で(10キーを使って)入力してください。
●半角数字中の「,」は、半角で入力してください。
●底本の表記が「一九九八年」のような漢数字の場合は、そのまま漢数字で入力してください。
【記号】
●「(」、「)」、「「」、「」」などの括弧記号、「,」、「.」、「・」、「?」、「!」などの記述記号は、原則として、和文モードで入力してください。ただし、アルファベットとアラビア数字の、半角文字列中で用いられる場合には、英文モードで半角のものを入力してください。
●かな漢字変換ソフト(MSIME、ATOKなど)の設定によっては、句読点などが自動的に半角や「.」「,」に変換されてしまうことがあります。入力にとりかかる前に、設定を確認しておきましょう。
MSIME、ATOK共に、句読点の種類(「。、」か「.,」か)は、底本の句読点に合わせてください。ツールバーから、MSIMEは「プロパティ」を、ATOKは「メニュー」→「プロパティ」を選ぶと、設定画面になります。
MSIMEの設定画面

ATOKの設定画面

また、MSIMEの初期設定では、記号の半角/全角変換が「前回の変換に従う」となっていることがあります。「全角・半角」タブ(MSIME98以降は「オートコレクト」タブ)で、句読点、括弧の設定を「常に全角」にしておいてください。

【特殊記号】
●WindowsのMSIMEやATOK、MacintoshのことえりやATOKの文字パレット(→WIN版文字パレットを使う方法、→MAC版文字パレットを使う方法)にある「ローマ数字」などの特殊文字は異機種間の互換性がありませんので、使用しないでください。入力時には、普通の数字などへの置き換えが必要になります。(→WIN版異機種間の互換性、→MAC版異機種間の互換性
【単位】
●「cm」や「mg」などの単位は英語の小文字として扱い、英文モードで入力してください。
●WindowsのMSIMEやATOK、MacintoshのことえりやATOKの文字パレットの「単位」の項目には全角1文字の単位記号が用意されています。これらは異機種間の互換性がありませんので、使用しないでください。(→WIN版異機種間の互換性、→MAC版異機種間の互換性
【ハイフンとダッシュ】
●半角のアルファベット、数字文字列中で使われているハイフンには、半角の「-」を使ってください。
●ハイフンを少し長くした形のダッシュは、ダッシュ記号「―」(区点コード 0129、JISコード 213D、シフトJISコード815C)を使用してください。(キーボードから直接入力できるのは、線が少し短いマイナス記号です。混同しないよう注意してください。)
●印刷物でよく使われる2倍の長さ(全角2文字分)のダッシュは、上記のダッシュ記号を2つ続け、「――」と入力してください。実線についても同様です。
●ダッシュが二重になった形の記号には、等号「=」(区点コード0165、JISコード2161、シフトJISコード8181。キーボードから直接入力できます)を使用してください。
【点線】
●底本が「……」のようになっている場合は、3点リーダー「…」(区点コード0136、JISコード2144、シフトJISコード8163)を使用してください。
●底本が「‥‥」のようになっている場合は、2点リーダー「‥」(区点コード0137、JISコード2145、シフトJISコード8164)を使用してください。
●底本が「・・」のようになっている場合は、中点(中黒)「・」(区点コード0106、JISコード2126、シフトJISコード8145。キーボードから直接入力できます)を使用してください。
【全角と半角】
●プロポーショナルフォント(文字の形によって、表示される文字の幅が変化するフォント)をお使いの場合、入力中の画面では、数字などの全角と半角との区別がつきにくいことがあります。特に、Windowsでは、Macintoshに比べて、この傾向が強いようです。
●「画面では半角に見えているようなのに、全角になっていた」、あるいはその逆のケースが多発する場合は、お使いのワープロソフトやテキストエディタの「フォント設定」を、「等幅フォント」に変えてみると良いかもしれません。「等幅フォント」では、全角と半角の文字幅は、常に2対1で表示されます。
●Windowsでは、「MS Pゴシック」「MS P明朝」など、フォント名に「P」がつくものがプロポーショナルフォント、「MS ゴシック」「MS 明朝」など、「P」がつかないものが等幅フォントです。既定値の設定では、「MS Pゴシック」となっているソフトがほとんどです。

(5)特殊な表記
【ルビ】
◆ルビ処理の基本
●ルビは、ルビの付く文字列のあとに、「《》」(区点コード0152・0153、JISコード2154・2155、シフトJISコード8173・8174)でくくって入力します。(学術記号の≪≫区点コード0267・0268、JISコード2263・2264、シフトJISコード81E1・81E2と混同しやすいので注意してください。)
●印刷物では通常、「がつこう」、「きようしつ」のように、ルビの拗促音が小書きされません。けれど青空文庫のファイルでは、「学校《がっこう》」、「教室《きょうしつ》」などと、ルビの拗促音を小書きしてください。
ただし、拗促音を小書きしない旧かな作品では、ルビにも小書きを用いないでください。
●ルビ付きの熟語が連続する場合には、
   一応《いちおう》何時《いつ》もの
のようにルビを分割します。
ただし、複合語として定着している場合は、
   一瀉千里《いっしゃせんり》
のように1つにまとめます。
分けるべきか、まとめるべきか迷ったときは、まとめてください。
●ルビの付く文字列がはじまる前には、「|」(区点コード0135、JISコード2143、シフトJISコード8162。キーボードから直接入力できます。)を入れます。
書き込まれた「|」は、「《》」におさめられたルビを、プログラムを使って底本にあるような形に再現しようとする際などに、処理の手がかりとして利用できます。
底本に次のようにあれば、

   武州|青梅《おうめ》の宿
と入力してください。

◆「|」を省く場合
●ルビのかかる文字列の区切りにかならず「|」が入っていると、自動処理には便利でも、テキストを読む人にはわずらわしいでしょう。
そこで、「|」なしでもルビのかかる範囲を特定できる場合には、「|」を省きます。
●ルビのかかる部分が漢字だけで構成され、かな、記号、空白など、「漢字以外の文字」に続いている場合には、「漢字」と「漢字以外」という文字種の違いを手がかりに、ルビのかかる範囲を特定できます。

は、ルビのかかる「火照」がかなに続いていますから、「|」を省いて、
   耳まで火照《ほて》って
と入力します。
●ルビは多くの場合、ひらがなや句読点などに続く漢字文字列に付いています。そのためファイル中では、ほとんど、
   夢と現《うつつ》との閾《しきい》はない
   帆をたて直し、艪《ろ》を押して
などと、「|」なしで入力することになります。
●繰り返し記号「々」は、漢字として扱います。

とあれば、 「|」を省いて、
   すると稍々《やや》度を失った
と入力します。
●将来、入力に用いる文字をJIS X 0213の範囲に拡張した際は、「」(二の字点、面区点番号1-2-22)も、「々」と同様に漢字として扱います。
現時点で二の字点は、外字注記することになりますが、その際は、
    確実さで、益※[#二の字点、面区点番号1-2-22、33-3]《ますます》はっきりと
のように書いてください。
●アルファベットの単語は、【アルファベット】の項にあるように、原則として前後に半角のアキを入れて入力します。
アルファベットの単語にルビが付いている場合は、空白(まれに句読点、括弧)との文字種の違いによって、ルビのかかる範囲を特定できます。

とあれば、「Fanatiker」の前後を半角開けますから、「|」を省いて、
   兄きのような Fanatiker《ファナチイケル》 とは
と入力します。
この際、単語のあとにくる半角アキは、「《」の前ではなく、「》」のあとに置きます。
●アルファベットの句や文にルビが付く場合は、単語ごとにルビを付けます。

とあれば、
   “Kosinski《コジンスキイ》 soll《ゾル》 leben《レエベン》 !”
と入力します。
●アルファベットには、英文モードで入力された半角のものと、和文モードで入力された全角のものがありますが、ともに上のように処理してください。

◆「|」を省かない場合
●「|」なしでは、ルビのかかる範囲の特定が難しい次のような場合には、「|」を用います。
●冒頭の例のように、漢字文字列の途中からルビが付く場合には、文字種の違いを手がかりにできません。
そこで、「|」を用いてルビのかかる範囲を特定し、
   武州|青梅《おうめ》の宿
と入力します。
●ルビの付く文字列に、漢字とかななど、異なった文字種が混在している場合にも、文字種の違いを手がかりにできません。

とあれば、「|」を用いて、
   そんな|お伽話《フェヤリー・ストーリース》は、
と入力します。

とあれば、
   霧の|ロンドン警視庁《スコットランドヤード》…
と入力します。

の「ヱ」は、カタカナです。「|」を用いて、
   いいか|釜右ヱ門《かまえもん》。
と入力します。
●複数のアルファベットの単語に、一つのまとまったルビが付く場合には、「|」を用いてルビのかかる範囲を特定してください。

とあれば、「彼は」のあとに「|」を入れて、
   彼は| Au revoir《さらば》 と、
と入力します。
アルファベット入力時に入れる半角アキは、上の例では「|」と「Au」のあいだと、「》」 と「と」のあいだに置きます。

◆ルビ処理の応用
ルビ処理のルールを確立し、これを遵守していけば、プログラムによるルビ付けの自動処理や、洗練された音声読み上げなどへの道が開けます。
テキストビューワー」のページにあるように、すでに青空文庫形式のルビ記号に対応したソフトが、いくつも開発されています。
【傍点】
●強調のために語句のわきに打つ点を、傍点といいます。傍点は、入力者注で処理してください。例えば、底本が

の場合には、
   胡麻塩おやじ[#「おやじ」に傍点]
と入力します。(→入力者注の形式
●傍点には「」だけでなく、「」、「●」、「○」、「▲」、「△」、「◎」、「」などが使われることもあります。
」が使われている場合は、「傍点」の代わりに「白ゴマ傍点」と入力してください。「●」は「丸傍点」、「○」は「白丸傍点」、「▲」は「黒三角傍点」、「△」は「白三角傍点」、「◎」は「二重丸傍点」、「」は「蛇の目傍点」と書いてください。
【ママ】
●作品中に「ママ」というルビがふってある文字がときどきあります。

 これは形はルビであっても意味はルビではなく、「親本(原稿)の誤植(誤字)と思われるがそのまま(ママ)にする」という注釈です。これについては、ルビではなく入力者注を用い、
   吹喋[#「喋」に「ママ」の注記]
のように入力してください。
【踊り字】
●「人々」の「々」のように同じ文字の繰り返しを表す文字を、踊り字といいます。踊り字には、右の例のように2倍の長さ(全角2文字分)のものもあります。2倍の踊り字は、青空文庫で使える文字には含まれていません。代わりに「/\」(区点コード0131・0132、JISコード213F・2140、シフトJISコード815E・815F)を入力してください。
●2倍の踊り字には濁点付きのものがあります。この場合は、間に「″」(区点コード0177、JISコード216D、シフトJISコード818D)を入れて「/″\」を入力します。
●印刷物では、「々」「ゝ」などが行頭にくる場合には、「人々→人人」のように、踊り字を一字目の漢字に置き換えるのが普通です。この処理が行われたと判断できるときは、二つ目の漢字を踊り字に戻し、「人々」といった形で入力してください。
【訓点】
●漢文の字間や行の脇に小書きで添えられる、返り点などの符号や送り仮名を、訓点といいます。訓点は、入力者注を略した記号を添えて、次のように入力してください。
●返り点は、[#…]におさめて入力します。
   自[#二]女王國[#一]東度[#レ]海千餘里。
レ点には、カタカナの「レ」を用いてください。
●漢字の右下に、小書きのカタカナで添えられる訓点送り仮名は、[#(…)]におさめて入力します。
   阪[#(ノ)]上[#(ノ)]郎女
小書きの漢字(万葉仮名)が、訓点送り仮名として使われている場合も、同じ形で入力します。
   爾時倭姫命見悦給[#(弖)]、其處[#(爾)]魚見社定賜[#(支)]
【上付き文字、下付き文字】
●数式や元素記号などで使われる行の上部や下部に小さく入る文字は、入力者注で処理してください。例えば、「2の2乗」を表す数式は、
   22[#2つめの「2」は上付き小文字]
と入力します。また、水の元素記号は、
   H2[#「2」は下付き小文字]O
と入力します。
【伏せ字】
●国家による検閲が盛んに行われた時代に発行された書籍では、問題があるとされた箇所を「×」などで置き換えた、伏せ字が使われている場合があります。伏せ字は、底本で使われている記号を、使われている個数分入力してください。
●伏せ字があった場合は、ファイルの冒頭に置く【テキスト中に現れる記号について】の最後に、以下のように項目を追加してください。
   ×:伏せ字

■どう処理すべきか迷ったとき

●世に出ている書籍の数は膨大、しかも内容は多岐にわたります。入力途中でどう処理していいか迷う場面が、きっと出てくるはずです。また、底本の文字がかけていて判読できないなどといったトラブルもありえます。処理に困ったときは、原則として「入力者注」で処理してください。(→入力者注の形式
【誤植・誤記・脱字】
●本にはしばしば誤植があります。著者の誤記と思われる表現にもぶつかります。明らかに誤植、誤記、脱字だと判断できる文字は、入力者注で処理してください。迷う場合には、原文通りに入力してください。
●例えば、「宮沢憲治」のように明らかな誤植と思われる場合は、
   宮沢賢治[#「賢治」は底本では「憲治」]
のように、正しい文字に置き換えた上で、入力者注を付けてください。
●誤植と断定することはできないけれど、表記が疑わしい場合、もしくは、明らかに誤りではあるけれど、正しい内容が特定できない場合には、
   彼は12381[#「12381」はママ]年に生まれ、
のように、「ママ」を用いて注記してください。
【判読不能などの場合】
●文字が判読できないなどの場合は、その文字のかわりに「※」(区点コード0208、JISコード2228、シフトJISコード81A6)を入れ、
   ※[#判読不可、30-16]
のように入力者注で処理してください。



「入力_2WIN」へ|◆「入力_2MAC」へ|◆作業マニュアル目次へ