外字注記辞書編纂プロジェクトの紹介


2007年5月18日 作成開始
2007年7月7日 公開
2007年11月7日 修正
2011年7月25日 最終修正
青空文庫外字注記辞書編集グループ


 青空文庫で私たちがやろうとしていることは、テキストの〈交換〉だ。一台の孤立したマシンの画面上に、何万字もの漢字が表示できたり、プリントアウトできたとしても、そのファイルを不特定多数の人の手許で正しく表示できないのなら、少なくとも私たちが目指す〈交換〉の観点からすれば意味がない。
 青空文庫は、依拠する漢字コードの包摂規準は、〈交換〉を一義とする以上、受け入れるしかないという前提に立っている。
 包摂されるのか別字として取り扱われるのかを素早く判断することは不可能だ。

青空文庫と外字からの抜粋

目次


外字注記辞書編纂プロジェクトの夜明け
外字注記辞書編纂プロジェクトの作業方針
外字注記辞書編纂プロジェクトでつかうソフト
外字注記辞書の使い方
外字注記辞書の展望
公開テキスト版(ウェブ上)での外字表示
入力時に使える文字
入力時に使えない文字
外字に関する注記
  【書式】
  【字体説明部分には何を示すのか】
  【字体説明表現決定の流れ】
  【漢字構成記述記号】
  【特殊な仮名や記号などが使われている際の注記】
  【アクセント符号付きのラテン・アルファベットの注記】
【テキスト中に現れる記号について】の基本パターン
外字注記辞書編纂プロジェクトの夜明け
 上記でも述べられているように入力や校正作業で困ることの一つに、入力された文字と底本の文字の違いをどう判断するかということがあります。

目次に戻る


外字注記辞書編纂プロジェクトの作業方針

目次に戻る


外字注記辞書編纂プロジェクトでつかうソフト
Adobe Readerが必要です。Adobe Readerをまだインストールされてない方はget_adobe_reader.gifからお使いのオペレーティングシステムに対応したAdobe Readerをダウンロードしてください。

外字注記辞書の使い方

目次に戻る


公開テキスト版(ウェブ上)での外字表示
林 芙美子の「放浪記(初出)」から表示例をあげてみる
面区点番号の付与は、マニュアルで要求されていない。そのために多くのファイルが、面区点番号を欠いている。だが、xhtmlファイルの自動生成を進めるためには、「第3水準1-93-39」にあたるところを書き込んでおくことが、必須となる。これにより外字画像をリンクさせている

入力ファイルを「テキスト版」に仕上げるためにからの抜粋

目次に戻る



入力時に使える文字

目次に戻る

入力時に使えない文字

入力時に使えない文字のチェックは目で見て確認するのは大変なので、チェッカー君 3.60bを使うようにしてください。入力が終了したときと入力ファイルを送付するときにチェックするとよいです。機種依存文字が見つかったら、外字注記辞書の使い方に戻ってください。

目次に戻る

外字に関する注記

【書式】
問題の字が使われているところに※[#「◎」、▲]の書式で注記


#マニュアルの確定方針を変更し、原則として、「「読み」の記載は行わない。第3第4水準にあるものは、「ページ数-行数」の記載を行わない。」ことを提案しています。

テキスト版の注記をどう書くか外字に関する注記からの抜粋


目次に戻る

【字体説明部分には何を示すのか】

  1. JIS X 0213にあるものに関しては、底本の文字の形ではなく、該当する規格票の面区点位置の字体を示す。(これによって、くさかんむりの複数パターン問題が回避できる。
  2. JIS X 0213にないものに関しては、底本の文字の形を示す。

目次に戻る

【字体説明表現決定の流れ】

  1. JIS X 0208の範囲内で可能であるなら、部分字体は名称ではなく、形で示す。
    例)
    • 「亠」とし、「なべぶた」とはしない。
    • 「儿」とし、「ひとあし」とはしない。
    • 「冫」とし、「にすい」とはしない。
    • 「匚」とし、「はこがまえ」とはしない。
    • 「匸」とし、「かくしがまえ」とはしない。
    • 「厂」とし、「がんだれ」とはしない。
    • 「口」とし、「くちへん」とはしない。
    • 「囗」とし、「くにがまえ」とはしない。
    • 「廴」とし、「えんにょう」とはしない。
    • 「彳」とし、「ぎょうにんべん」とはしない。
    • 「豸」とし、「むじなへん」とはしない。
  2. 形で部分字体を示したもののうち、「かしら」「かんむり」には、「かしら」「かんむり」を添える。
    例)
    • 「人がしら」とし、「人」とはしない。
    • 「入がしら」とし、「入」とはしない。
    • 「八がしら」とし、「八」とはしない。
    • 「爪かんむり」とし、「爪」とはしない。
    • 「竹かんむり」とし、「竹」とはしない。
    • 「雨かんむり」とし、「雨」とはしない。
  3. 形で部分字体を示したもののうち、以下に掲げたもの限っては、字体の微妙な差異による誤解を防ぐために、「へん」「にょう」などを添える。
    例)
    • 「足へん」とし、「足」とはしない。(へんとして用いられる場合。)
    • 「土へん」とし、「土」とはしない。(へんとして用いられる場合。)
    • 「走にょう」とし、「走」とはしない。(にょうとして用いられる場合。)
    • 「鬼にょう」とし、「鬼」とはしない。(にょうとして用いられる場合。)
    • 「麦にょう」「麥にょう」とし、「麦」「麥」とはしない。(にょうとして用いられる場合。)
    • 「風にょう」とし、「風」とはしない。(にょうとして用いられる場合。)
    • 「瓜のにょうの形」とし、「瓜」とはしない。(にょうとして用いられる場合。)
    ※検討課題。
    「火/火へん」「立/立へん」「王/王へん」「金/金へん」「牛/牛へん」「馬/馬へん」などに関しては、「へん」なしとする
  4. 以下に掲げたものに限っては、部分字体を名称のみで示す。
    例)
    • 「ぼう」
    • 「にんべん」
    • 「りっとう」
    • 「りっしんべん」
    • 「てへん」
    • 「さんずい」
    • 「れんが」
    • 「けものへん」
    • 「やまいだれ」
    • 「ぐうのあし」
    • 「くさかんむり」
    • 「ころもへん」
    • 「一点しんにょう/二点しんにょう」
    • 「おおざと」
    • 「こざと」
    ※検討課題
    「つりばり」は不採用でいきたい。形を想像できない人が多いと思われるので。
    「しんにょう」は、次項9.に関連して、「一点しんにょう」「二点しんにょう」と書き分ける。
  5. 1)〜4)で表現できないときは、「Aのつくり」、「Aのへん」などと書く。
    例)
    • 「俊のつくり」
    • 「捷のつくり」
    • 「礼のつくり」(つりばりは不採用としたいので。)
    • 「操のつくり」
    • 「蚌のつくり」
  6. 1)〜4)と字体説明用の記号(+、−、/、<)を用いても書けるが、5)を用いた方が規格票を忠実に表現できる場合は、5)を用いる。
    例)
    • 「馬+(米/(夕+ヰ))」の代わりに、「「馬+鄰のへん」と書く。
  7. 1)〜6)で表現できないときは、「「A」の「B」に代えて「C」」といった形を用いる。
    例)
    • 「或」の「丿」に代えて「彡」
    • 「恵」の「心」に代えて「日」
  8. 1)〜4)と字体説明用の記号(+、−、/、<)を用いても書けるが、7)を用いた方が分かりやすいと思われるなら、7)を用いると良い。
    例)
    • 「(臣+又)/金」の代わりに、「「堅」の「土」に代えて「金」」のほうがわかりやすい。
  9. 字体差は、包摂規準に該当するものであっても区別して表現する。
    • しんにょうは、一点か二点かを明記することになる。(※これまでは、あまり行われていない要素。)
    • 食へんは、ほとんどの場合5)もしくは7)のパターンで説明せざるを得なくなると思われる。
    • 网がしらは、ほとんどの場合5)もしくは7)のパターンで説明せざるを得なくなると思われる。
    例)
    • 「しんにょう+章」ではなく、「二点しんにょう+章」と書く。
    • 「食+亶」ではなく、「飮のへん+亶」と書く。
    • 「网がしら/(厂+(炎+りっとう))」ではなく、「罘」の「不」に代えて「厂+(炎+りっとう)」、と書く。
    • 「木+習」ではなく、「木+褶のつくり」と書く。
    • 「さんずい+畔」ではなく、「さんずい+田+絆のつくり」と書く。
    • 「王+連」ではなく、「王+二点しんにょうの連」と書く。
    • 「缶+尊」ではなく、「缶+墫のつくり」と書く。
    • 「金+尚」ではなく、「金+淌のつくり」と書く。
    • 「正+青」ではなく、「政のへん+睛のつくり」と書く。
    • 「言+慧」ではなく、「言+(彗/心)」と書く。
    • 「羽/廾」ではなく、「栩のつくり/廾」と書く。
  10. 字体説明に利用できる漢字が存在しない場合に限って、「正字」「旧字」といった表現を用いても良い。
    例)
    • 「魚+戸の旧字」
    • 「木+勝の旧字」
    • 「「姉」の正字」
    • 「「柿」の正字」
    • 「「怱」の正字」
  11. 他にまったく書きようのないものに限っては、説明的な表現を用いても良い。
    例)
    • 「Yに似た字」

Windows機種依存文字の外字注記作成方針から方針に当たるところを抜粋した。


目次に戻る

【漢字構成記述記号】

#以下はマニュアルに記載済みの、確定した作業方針です。(ただし「−」、「<」はマニュアルに未記載。)
  1. 字体の組み立てを、鍵括弧(「 」)で挟んで説明してください。
  2. 左右に並んでいる部分は、「」でつないでください。
    《例》「林」を表現する際には、「木+木」と書きます。
  3. 「たれ」や「にょう」との組み合わせにも「」を用いてください。
    《例》「病」を表現する際には、「やまいだれ+丙」と書きます。
  4. 記入例

     「※[#「目+争」」、U+7741、ページ数-行数]
     「※[#「登+おおざと」、第3水準1-92-80]
     「※[#「厂+萬」、第3水準1-14-84]
     「※[#「二点しんにょう+官」、第3水準1-92-56]

  5. 上下の関係にあるものは、「」でつないでください。
    《例》「音」を表現する際には、「立/日」と書きます。
  6. 記入例

     「※[#「くさかんむり/宛」、第3水準1-90-92]
     「※[#「白/十」、第3水準1-88-64]

  7. ある字体から別の部分字体をのぞく場合は、「」を用いてください。
    《例》「辛」を表現する際には、「梓−木」と書きます。
  8. 記入例

     「※[#「菌−くさかんむり」、第4水準2-4-56]

  9. 上下、左右の関係にあるものを組み合わせて示す際は、「( )」を補って、位置関係をはっきりさせてください。
    《例》「森」を表現する際には、「木/(木+木)」と書きます。
  10. 記入例

     「※[#「水/(水+水)」、第3水準1-86-86]

  11. かまえに入っている形は、「」で示してください。
    《例》「間」を表現する際には、「門<日」と書きます。
  12. 記入例

     「※[#「勹<夕」、第3水準1-14-76]
     「※[#「門<虫」、第3水準1-93-49]

  13. 」や「」や「」で表しにくい場合には、つぎのように説明してもかまいません。
    《例》「「阜」の「十」に代えて「虫」


#以下はマニュアルに記載のない、作業方針の提案です。
  1. 外字には、のつくりのように、説明の困難なものがあります。
    どうしても、字の組み立てを表現できないときには、「●の正字」といった表現を例外的に用いるしかないでしょう。
    記入例

    ※[#「木+(「第−竹」の「コ」に代えて「丿」)、「柿」の正字」、第3水準1-85-57]
    ※[#「女+(「第−竹」の「コ」に代えて「丿」)、「姉」の正字」、U+59CA、ページ数-行数]

テキスト版の注記をどう書くか外字に関する注記からの抜粋

目次に戻る



【特殊な仮名や記号などが使われている際の注記】

#以下はマニュアルに記載済みの、確定した作業方針です。
  1. ひらがなの「く」を縦にのばしたような繰り返し記号(くの字点)だけは、「/\」で入力してください。

  2. 濁点付きのくの字点は、「/″\」と入力してください。

  3. 「〜水準」という呼び名は漢字に限られます。漢字以外の面区点番号を注記するときは、「面-区-点」の書式を用いてください。

#以下はマニュアルに記載のない、作業方針の提案です。
  1. 使える文字の中にない、特殊な仮名や記号は、きわめて高い確率で JIS X 0213 に入っています。
    底本にこれらが用いられている際は、原則として、「#」に続く名称は、JIS X 0213 規格票に示された、「日本語通用名称」と面区点番号を組み合わせて、次のように注記してください。

     ※[#二の字点、1-2-22]
     ※[#ます記号、1-2-23]
     ※[#コト、1-2-24]
     ※[#より、1-2-25]
     ※[#歌記号、1-3-28]
     ※[#濁点付き平仮名う、1-4-84]
     ※[#濁点付き片仮名ヰ、1-7-83]
     ※[#濁点付き片仮名ヱ、1-7-84]
     ※[#濁点付き片仮名ヲ、1-7-85]
     ※[#感嘆符二つ、1-8-75]
     ※[#疑問符二つ、1-8-76]
     ※[#疑問符感嘆符、1-8-77]
     ※[#感嘆符疑問符、1-8-78]
     ※[#ローマ数字1小文字、1-12-21]
     ※[#ローマ数字1、1-13-21]
      ※[#丸1、1-13-1]
     ※[#ファイナルシグマ、1-6-57]

  2. 今まで青空文庫に出現した特殊な仮名や記号は、外字注記辞書に載せていますので外字注記辞書の使い方を参照して下さい。

テキスト版の注記をどう書くか外字に関する注記からの抜粋

目次に戻る


【アクセント符号付きのラテン・アルファベットの注記】

アクサンテギュ、アキュートアクセント(´)、アクサングラーブ、グレーブアクセント(`)、アクサンシルコンフレックス、サーカムフレックスアクセント(^)、ウムラウト、ダイエレシス(¨)などの、アクセント符号の付いたラテン・アルファベットは、使える文字の中にはありません。
工作員マニュアルは、の「■入力の実際」の「(3)外国語」の「【アクセント符号付きのラテン文字】」で、これらに関しては、次のように注記するよう求めていますが、マニュアルに記載したこの注記形式は、今後は用いません。
フランスには raffine[#eはアクサンテギュ(´)付き] という語がある。
これに代えて、アクセント符号付きのラテン・アルファベットは、「アクセント分解」と呼ばれる手法を用いて表記します。#マニュアルの作業方針を変更するよう提案しています。

詳しいいきさつは「青空文庫テキストへの「アクセント分解」の適用」にあります。
  1. 今まで青空文庫に出現したアクセント符号付きのラテン・アルファベットは、外字注記辞書に載せていますので外字注記辞書の使い方を参照して下さい。

  2. 「外字注記辞書」に無い場合は、考案者である山本有二さんの「アクセント付き文字の変換表」を参考に字体を表現してみてその旨を入力ファイルを送付するときにメールにメモしてください。

  3. 「raffine」という語の「e」にアクサンテギュ(´)が付いている場合は、「変換表」で e の小文字をあたります。

  4. 「233」の「アキュートアクセント付きE小文字」の欄に、表記法「e'」が示してあります。

  5. これを用いて、問題の語は「raffine'」と書きます。

アクセント分解を用いる際の約束事

テキスト版の注記をどう書くか外字に関する注記からの抜粋

目次に戻る

【テキスト中に現れる記号について】の基本パターン

以下のブロックを、コピー&ペーストして、テキストの冒頭に置いてください。
(例)を本文中から取って示し、使われていない記号の説明は削除してください。

-------------------------------------------------------
【テキスト中に現れる記号について】

《》:ルビ
(例)

|:ルビの付く文字列の始まりを特定する記号
(例)

[#]:入力者注 主に外字の説明や、傍点の位置の指定
   (数字は、JIS X 0213の面区点番号またはUnicode、底本のページと行数)
(例)

/\:二倍の踊り字(「く」を縦に長くしたような形の繰り返し記号)
(例)
*濁点付きの二倍の踊り字は「/″\」

〔〕:アクセント分解された欧文をかこむ
(例)
アクセント分解についての詳細は下記URLを参照してください
http://www.aozora.gr.jp/accent_separation.html
-------------------------------------------------------


【青空文庫収録ファイルへの記載事項】の基本パターン

以下のブロックを、コピー&ペーストして、テキストの末尾に置いてください。

底本:「書名」出版社名
   YYYY(GGYY)年MM月DD日初版発行
   YYYY(GGYY)年MM月DD日NN刷
底本の親本:「書名」出版社名
   YYYY(GGYY)年MM月DD日初版発行
初出:「雑誌名、新聞紙名」発行所名
   YYYY(GGYY)年MM月DD日
入力:
校正:
YYYY年MM月DD日作成
青空文庫作成ファイル:
このファイルは、インターネットの図書館、青空文庫(http://www.aozora.gr.jp/)で作られました。入力、校正、制作にあたったのは、ボランティアの皆さんです。

目次に戻る