目次 |
青空文庫に登録される作品は、次のような過程でつくられます。
1.入力 底本の文章をそのままにテキスト入力していきます。
2.校正 入力されたテキストに入力ミスなどの誤りがないかチェックしていきます。
3.加工 完成したテキストを青空文庫用のファイル形式に仕上げていきます。
これらの作業には、ふつう、複数の担当者が分担してあたっています。現在のところは、工作員の方々には主に入力と校正をお願いし、内容・形式の最終チェックと基本フォーマット・ファイルへの加工は、点検部屋と名付けた共同作業場のメンバーが行っています。
応募して入力や校正に取りかかったものの、作業を完了できそうにない見通しとなったら、遠慮なくreception@aozora.gr.jpに申し出てください。「入力中の作品」の「進行状態」を「入力中」から「入力取り消し」へ、「校正中」から「校正待ち」へと戻し、新たな作業協力の申し入れを待ちます。
作業着手後、メールアドレスが変わった場合は、必ずreception@aozora.gr.jpに連絡してください。
●1冊の本はさまざまな要素から成り立っています。本文だけを見ても、例えば文章にはルビ(ふりがな)や注釈があります。表組にした文章もあります。写真や挿し絵が使われている本も多数あります。
●そのうち、ここで「入力」と呼ぶのは、ルビや注釈・表組を含めたテキスト(文字)の入力です。青空文庫では、「文字のみを含むファイル」を作業の基本にしています。みなさんに入力していただくのは、この形式のファイルです。
●「文字のみを含むファイル」のことを、一般に「テキスト・ファイル」と呼びます。Windows、Macintosh、UNIX、MS-DOSなど、ほとんど全てのパソコンには、「テキスト・ファイル」を扱うことのできるソフトが組み込まれています。Windowsではメモ帳、MacintoshではSimpleTextが代表的なものです。
●それに対し、ワープロソフト等の独自の形式で保存したファイルは、そのソフトを使って開いたときに文字のみで表されていても、「テキスト・ファイル」ではありません。これらのファイルの多くには、人間が文字として読める情報の他に、そのソフトのみが解読できる情報が書き込まれています。従って、そのソフトがインストールされていないパソコンでは、正しく表示することができません。
●ワープロソフト等の独自形式、画像、音声など、文字以外の情報を含むファイルを総称して、一般に「バイナリ・ファイル」と呼び、「テキスト・ファイル」と区別しています。ここでは詳しい説明は省きますが、「青空文庫では、どのパソコンでも扱えるテキスト・ファイルのみを入力作業の対象とする」ということを覚えておいてください。
●青空文庫では、みなさんに作業していただいたテキスト・ファイルと共に、読みやすく加工したファイルを公開しています。「テキスト・ファイル」という呼び名が、これらのファイルと区別するために使われる場合もありますので、注意してください。
●写真や挿し絵などは、画像ファイルとして扱い、基本的に、入力の対象には含めません。加えて、本文の著作権とは別個に、写真撮影者や画家の著作権が存在する場合があります。
●内容の理解を図っていく上で写真や挿し絵がぜひとも必要という場合には、別途ご連絡ください。その上で、著作権の扱いや入力の処理についてご相談したいと思います。
●さて、入力です。作業にかかる前に1つだけ注意していただきたいことがあります。青空文庫は原則として、「底本のできるだけ忠実な再現」を目標に置き、「勝手な編集はしない」という点です。
●漢字の使い方や送りがなは、「底本どおり」とします。旧かなのテキストであれば旧かなのままに、時代によって変化の激しい送りがなも、底本にならって入力してください。
●ただし旧漢字、旧かなのテキストが、私たちの多くにとって読みにくいこともまた事実です。現代表記にあらためたものがあれば、それを底本とすることで読みやすくできます。けれど、すべての作品で書き換え版が用意されているわけではありません。
●そこで、旧字、旧かなの書きあらために関しては、作業を進める上での目安を定めた上で、例外的にこれを認めることとします。自分自身で書き換えを行おうと考える人は、「旧字、旧仮名で書かれた作品を、現代表記にあらためる際の作業指針」にそって、対処してください。
1 旧仮名づかいは、原則として現代仮名づかいにあらためる。ただし文語文は、底本のままとする。
2 平仮名と片仮名の交ぜ書きは、底本のままとする。 例:ちぇッ、話しッぷり、それにしちゃア、なアに
3 常用漢字表、人名用漢字別表に掲げられている漢字は、新字にあらためる。固有名詞も原則として例外とはしないが、人名は底本のままとする。 例:地名の「澁谷」は、「渋谷」とする。 人名の「澁谷」は、そのままとする。
4 字体の細部が異なっていても、JIS X 0208の包摂規準にあてはまればJISにある漢字を用い、外字扱いとはしない。
5 底本の漢字を、新旧の関係にない別の漢字や仮名に置き換えることは、原則としてしない。 例:「云う」は、「言う」や「いう」とはしない。
6 作者固有の当て字や、現在、漢字で表記されることが例外的な代名詞、副詞、接続詞、助動詞には、必要に応じて振り仮名を付す。
7 6に該当するものが頻出して、読みやすさを損なう場合は、仮名に置き換えてもよい。
8 漢字で表記された外国固有名詞、外来語には、必要に応じて振り仮名を付す。
9 8に該当するものは、片仮名に書き換えてもよい。
10 送り仮名は底本通りとし、読みを損なうおそれのある場合は、振り仮名を付す。
11 読みにくい言葉、読み誤りやすい言葉には、振り仮名を付す。
12 総ルビの底本からは、振り仮名の一部を省いてもよい。
13 繰り返し記号のうち、現在ほとんど使われない平仮名・片仮名繰り返し記号(ヽ、ヾ、ゝ、ゞ)、くの字点()、二の字点()は原則として使用せず、仮名に書き換える。
14 13に該当するものも、特に必要性を認めるときは、底本のままとしてもよい。
15 今日の人権意識と言語感覚に照らして不適切と思われる表現も、原則として書き換えない。
16 15にあたる表現があると判断した際は、入力ファイルの送付にあたって、電子メール本文に必ず当該の箇所を示し、その旨を書き添える。呼びかけ人は、図書カードに以下の文言を記載することを検討する。
この作品には、今日からみれば、不適切と受け取られる可能性のある表現がみられます。その旨をここに記載した上で、そのままの形で作品を公開します。(青空文庫)
17 旧字旧仮名を現代表記にあらためた際は、収録ファイルへの記載事項の注記欄に、作業履歴を記載する。 例: ※「旧字、旧仮名で書かれた作品を、現代表記にあらためる際の作業指針」に基づいて、底本の表記をあらためました。←表記変更を行った際は、必ずこれを入れる。 ただし、話芸の速記を元にした底本の特徴を残すために、繰り返し記号はそのまま用いました。←「指針」が「例外」として認めている処理を行った際は、必ずそのことを明記する。 底本中ではばらばらに用いられている、「其の」と「其」、「此の」と「此」は、それぞれ「其の」と「此の」に統一しました。←「指針」がガイドラインを示していない処理を例外的に行う際は、必ずそのことを明記する。 「恰も」は「あたかも」に、「些か」は「いささか」に、「茲」は「ここ」に 、「悉皆」は「すっかり」に、置き換えました。←「指針」に基づいて行った処理の詳細は、できるだけこれを記載する。」
補遺
1 旧字、旧仮名で書かれた作品を現代表記にあらためるにあたっては、新字、現代仮名づかいへの変更を基本とする。ただし、漢字のみを書き換えた、新字、旧仮名づかいへの変更も拒まない。
2 変体仮名と仮名の合字を、通常の仮名に書き換えることも、行って良い。
●「底本どおり」を目指しても、テキスト・ファイルではレイアウトを忠実に表現することはできません。字下げなどの組みに関する情報は、適宜、入力者注で表します。
●入力には、キーボードをお使いになる方が大半でしょう。その際に利用なさるアプリケーション・ソフトは、テキスト入力に使えるものであれば、どんな種類のものであってもかまいません。シンプルなテキスト・エディターであっても、ワープロ・ソフトであっても、あるいはアウトライン・プロセッサなどの特殊なエディターであっても、ご自分が使い慣れたものをお使いください。
●注意していただきたいのは、ただ1つ、「誰もがファイルを開くことのできる形式で保存する」ことだけです(→WIN版文書の保存、→MAC版文書の保存)。
●入力中は、できるだけこまめに保存してください。パソコンにはエラーがつきものです。また、停電などのトラブルもあります。適度な頻度でファイルを保存し、入力済みのデータが不意の事故で失われないようにすることが大切です。
【OCRの活用】 ●書籍のページなどをスキャナーで読み込み、読み込まれた画像データを解析して文字データに変換し、テキスト・ファイルとして保存するしくみを、OCR(Optical Character Reader)といいます。最近はOCRソフトの精度が向上し、テキスト入力に活用なさる方が増えてきました。OCRの活用は負担の大きい入力作業の軽減につながります。
●ただし、100%の精度で変換できるOCRソフトはありません。ソフト自体が優秀であっても、スキャニングに用いる書籍やコピーの質の問題もあります。OCRによるテキスト入力は必ずエディターなどによる修正作業をともないます。
(田部井注:この部分は、テキストファイル完成編へもっていくつもりです)
●入力にあたり、青空文庫では下記のような独自の書式(ルール)を定めています。
1)一番最初の行には「作品名」を入れる。(底本の表題にルビが付いていたとしても、1行目に入れる作品名には、ルビはいりません。)
2)その次の行に「著者名」を入れる。
3)1行開けて、ルビなどを表す記号の使い方を説明した、【テキスト中に現れる記号について】を入れる。(記号を使わないですむ場合は、入れる必要はありません。)
4)1行開けて、本文を入れる。
5)本文の末尾から3行開けて、「使用した底本の正式名称・出版社・発行年月日、入力者名」等を「青空文庫収録ファイルへの記載事項」の形式に沿って入れる。
6)現代表記に書き改めた場合の作業履歴、その他の注記事項などがある場合は、「青空文庫収録ファイルへの記載事項」の形式に沿って入れる。
●文庫本などではそれ自体に底本(全集など)が存在する場合があります。その場合には、「親本(底本の底本)の正式名称・出版社・発行年月日」もわかる範囲でつけ加えてください。
●テキスト・ファイル(→WIN版文書の保存、→MAC版文書の保存)では、レイアウトに関する形式まで含めて底本をそのまま再現することはできません。そのために生ずる補足事項については、下記のような「入力者注」を活用します。
【入力者注の形式】
●全体を「[]」(区点コード0146・0147、JISコード214E・214F、シフトJISコード816D・816E。キーボードから直接入力できます)でくくり、[]内の最初には井げた記号#(区点コード0184、JISコード2174、シフトJISコード8194。キーボードから直接入力できます)を入れます。(シャープ記号♯区点コード0284、JISコード2274、シフトJISコード81F2と混同しやすいので注意してください。)
●底本の何ページ、何行目にあるかを示す必要がある場合は、「数(ページ)-数(行)」の形式で示します。数字と「-」は、英文モードで入力できる、半角のものを使ってください。 行数を数える際には、行アキはカウントしないでください。右の例では、赤矢印の行は「3」と数えます。