![]() |
|
|
|
青空文庫の工作員を始めて3年が過ぎようとしている。入力にも校正にも、少しだけど関わってきた。最近では、公開前のファイルの点検をすることもある。現在もド素人のようなものだが、始めた頃に比べれば、作業のスタイルが変わってきている。3年前からの作業スタイルの変化を記すことで、青空文庫のために開発された便利なツールの使い方、そして工作員のみなさんの作業のヒントになるかもしれないと思い、少し過去を振り返ってみた。
「青空文庫のマニュアルが精密である」といった意見がよく聞かれる。始めた頃は確かに現在のような精密さは要求されていなかった。その頃から、一応現在の標準スタイルでのファイルの点検が出来るレベルまでは成長(?)した過程であるかもしれない。
さて、始めよう。まず、私のコンピューターはマッキントシュである。ここでかなりの数の方が関係なくなってしまったかもしれない。私が手掛けた青空文庫入力の最初の作品は泉鏡花「夜叉ヶ池」であった。底本はちくま文庫の「泉鏡花集成7」。マニュアルは一通り目を通し、傍らにはおススメの『新版漢語林』(大修館書店)を置き、PowerBook G3でMicrosoft Word 2000を使い、ことえりという日本語入力システムを使って入力を開始した。もちろん、手入力である。1か月くらいかかったと思ったが、記録を調べてみると2週間だった(2001年6月5日に工作員申請、6月23日には入力ファイルを送っている)。実際の作業は、以下のようにすすめた。鏡花の作品は、新字新仮名であってもかなりルビが多い。だから、まず見開き2ページを手入力し、ルビがある所には《》を入れておき、見開きの入力が終わったらもう一度最初にもどってルビだけを入力していった。最後までたどり着いたら、プリンターで印刷し、底本とつきあわせて読む入力者校正を行った(入力の時に2〜3行を飛ばしてしまうことが多かった)。最後に素読みをして、StuffItを使ってsit形式で圧縮し、青空文庫宛にメールで送った。最初に送ったファイルに対して、LUNA CATさんから返事が返ってきた時の感動は今でも忘れられない。
これからしばらくは、このスタイルで作業を進めた。※[#「※」は「のぎへん+尚」、第3水準1-84-33、145-1]などという外字は、新版漢語林を調べて面区点番号を調べていた。泉鏡花「七宝の柱」に出てくる「※[#「瑤のつくり+系」、第3水準1-90-20]糸《ゆるぎいと》」などは、調べてもわからずに、※[#「※」は「瑤のつくり+系」、読み方、「よう」(漢語林、870ページ)、145-7]などとしていた。鏡花の作品をしばらく入力していたが、ワープロでは出て来ない外字が多く新版漢語林を調べていてもわからないことが多かった。そこで、2001年5月9日に公開になっている「新JIS漢字総合索引」(面区点番号付き)を導入した。これでかなり楽になった。現在では、マッキントシュのOSXはUnicode対応なので、第3、第4水準の漢字であるかどうかまで文字パレットでわかるが、当時はそんな文字は出て来なかった。そして、「新JIS漢字総合索引」が便利な点として、正確な部首でない場合にも文字を示してくれることだった。例えば、「鴪」という文字は、正確には鳥の5画に分類されるので、文字パレットや漢字字典では鳥のところにしかない。しかし、「新JIS漢字総合索引」では、穴の11画にグレーでも示してくれている。正確な部首を見つけられず、外字としてしまう可能性が減り、使い勝手もよかった。「新JIS漢字総合索引」を使いはじめた頃から、外字は、「※[#「」、]」を「がいじ」で登録しておき、面区点番号と説明を入力していった。
横道にそれるが、日本語入力システムにいろいろと登録する便利ではあるのだけれど、どんな読みで入れたか忘れてしまう人なので、実はあまり登録していない。るび=《》、ぼうてん=[#「」に傍点]、ぼうせん=[#「」に傍線]、いちじ=[#ここから1字下げ]、にじ=[#ここから2字下げ]、おわり=[#ここで字下げ終わり]、がいじ=※[#「」、]、くらいである。よく出てくる外字は、よみとともに登録しておけばいいのだろうけど、今でも、よく使う外字だけを集めたテキストファイルを作っておいて、そこからコピー&ペーストで入力している。主に鏡花、旧字作品によく出てくる外字である。(以下、参照)
※[#二の字点、1-2-22]
※[#「さんずい+散」、]
※[#いおり(庵)点、1-3-28]
※[#「てへん+劣」、第3水準1-84-77]
※[#「插」でつくりの縦棒が下に突き抜けている、第4水準2-13-28]
※[#「目+爭」、第3水準1-88-85]
※[#「目+句」、第4水準2-81-9]
※[#「彳+尚」、第3水準1-84-33]※[#「彳+羊」、第3水準1-84-32]
※[#「廴+囘」、第4水準2-12-11]
包摂に関しては校正編で記すつもりであるが、この「新JIS漢字総合索引」には現在では包摂基準についての記載もあるので、この点からも便利である。
2001年の10月の終わりまでは、新字の作品の入力ばかりであった。それでも漢字探しに苦労はしていたのだけれど、それも「新JIS漢字総合索引」の威力によってかなり楽になっていた。10月の終わり頃から、旧字の作品の入力を始めた。いつも通りに、手入力をし、漢字を「新JIS漢字総合索引」で探し、入力者校正を終えて、ファイルを送った。実は、校閲くんという旧字の中から新字を見つけるツールがあることに気が付いていた。そして、私は自分を過信していたが為に校閲くんにかけることなく、ファイルを送ってしまった。その後で、校閲くんで調べてみると、短い作品にも関わらず、旧字がある新字が出てくる事、出てくる事、正直、驚いた。ひとつひとつ、新字を検索で見つけては、校閲くんが示してくれた旧字に置き換えていった。ワープロソフトの不便な点の一つとして、一括検索の結果を表示してくれない(MS-Wordだけかもしれないが)点がある。現在では、テキストエディタを使っているので、一括検索、一括変換で処理してしまっている(ワープロで一括変換が出来ない訳ではないが、一覧表示で確認しないと変換するのが恐いのである)。ともかく、旧字作品を扱う際には(入力でも、校正でも、点検でも)、一度は校閲くんにかけるようにしている。校閲くんの示す旧字をかならず使っている訳ではないので、底本をきちんとチェックすることも大事である。そして、校閲くんには引っかからないけれど、旧字の作品にはよく出てくる文字が※[#「插」でつくりの縦棒が下に突き抜けている、第4水準2-13-28]、※[#「廴+囘」、第4水準2-12-11]である。
さて、2002年の2月になると青空文庫では、むしとりあみという誤植訂正掲示板を始めた。その「むしとりあみ」に対する質問を世話役の方に送ったことをきっかけに青空文庫のメーリングリストに加わることにした。半年以上は、メーリングリストも見ないで、コツコツと作業をしていたのである。このメーリングリストに加わった事によって、むしとりあみの行司を引き受けたり、後に点検部屋と呼ばれる点検のための作業グループに加わることになった。
点検部屋に加わることによって、二つの大きな変化が訪れた。一つは、ファイル形式の整備について、そしてもう一つは、ファイルの改行コード、圧縮形式の変化に対応するためのソフトウェア面の変化である。
他人のふり見て我がふり直せ、ではないが、校正前のファイルを点検作業を始めて、ファイル形式の整備の重要性がわかった。もちろん、マニュアルには書いてあるのだけれど見事に見落としていた。具体的には、ファイル冒頭の【テキスト中に現れる記号について】、そしてファイル末尾の形式をきちんと書き込んでいなかったのだ。校正をした時には、これらの形式はきちんとしていたので、「誰かが直すだろう」と甘えていたのであった。マニュアルに従えば、このあたりもきちんと入力しないといけないのである。ということで、現在では、青空文庫マニュアルにあるテキスト中に現れる記号、記載事項のテンプレートを使い、入力終了後に、「《」「|」「#」「/」で検索し、必要な例のみをコピー&ペーストして【テキスト中に現れる記号について】に貼付けている。私が使用しているテンプレートを最後に貼付けておく。余談ながら、【テキスト中に現れる記号について】の前後にある破線の数も正確でないとxhtmlへの自動生成が出来ないので、ここも注意している。ちなみに、点検部屋に加わったのが、2002年5月なので、約一年間、かなりいい加減なファイルを入力ファイルとして送っていたことになる。
もう一つは、マック使い故の問題なのであるが、テキストファイルの改行コードをPC用の「CR+LF」に変えないといけなかった。またマッキントッシュのファイルには、Mac Binaryとして余計な情報が盛込まれているため、これを外す必要もあった。さらに、点検部屋の連絡に使っている場所が、sit形式の圧縮ファイルを認識しないため、圧縮形式も変える必要があった。以上の要求を満たすために、入力に用いるソフトをテキストエディタであるJedit4(シェアウェア2500円)に変えた。圧縮ソフトは、MacLHA 2.24(フリーウェア)にした。このあたりまでは、マッキントシュのOS 9.01を使っていたので、このような選択となった。この後、OSをOS X (10.2.7)まで上げることになるが、入力は変わらずにJedit4を用いている。このエディタは、実に使いやすいのだ。入力、校正だけではなく、点検をする際にも役立っているので、その特徴をざっと記しておく。1)全体の行数が表示され、現在どのあたりかがわかること、2)検索の結果、一括検索の場合には、該当箇所の少し後までを一括で表示してくれること、3)正規表現が使えること、などである。2)について、もう少し記しておくと、例えば、「#」で検索すると、「#」を含む箇所がMark Listとして別ウィンドウに表示される。ここを調べれば、テキスト中の入力者注がざっと調べられるのである。OCRで間違えやすい、「ヘ」と「へ」も、片仮名「ヘ」を一括検索し、平仮名であるべきところだけを直していけば、楽である。この一覧表示があれば、一括変換で一気に直してよいかどうかが、わかるというメリットもある。Jedit4の場合には、複数ファイルの一括検索も可能なので、点検の際にはかなり楽をさせてもらっている。Jedit4は、OSXにも対応してくれたが、MacLHAは対応してくれなかったので、現在では、DropZIPというソフトウェアで、zip形式に圧縮することにしている。
こういった細かい事は、実はマニュアルに書いてはあるのだけれど、実際に扱ってみないとわからないことが多い。実際に、1〜2年の間、私はかなりいい加減なファイルを送っていたと思う。点検部屋に加わって、こういう細かい所を修正出来たのはいいのだが、実は本業が忙しくて、しばらく入力作業が進まなかった。申請した入力希望作品の量から考えて手入力では追い付かない、と思い、その状況を変えるべく、スキャナーとOCRソフトを導入した。2002年12月からは、OCRを使って入力ファイルを作成しだした。スキャナーは、CanoScan LiDE30、OCRソフトは、e.Typist7.0である。
OCRでの入力は、OCRなりの問題があることに気付いてはいても実感しないと直さないのはいつものことで、OCR特有の見落としをかなりしていたと思う。そのあたりも点検部屋で小林さんにいろいろと教えていただいた。テキストエディタは、OCR入力のような単純ミス(それも繰り返し)の場合に大変威力を発揮する。そして、正規表現というコンピュータの文法(?)を勉強するとその威力はさらに増大するのだ。例えば、というか、それくらいしか使っていないが、検索画面で「正規表現」をチェックして、「[ァ-ヶー・]+」を検索することで、カタカナ一覧が検索できる。もっと勉強すればいいのだけれど、まだまだ使いこなすには至っていないのが現状である。
ここまで長々と書いてきたが、現在使っている機材と入力の方法を最後に記載しておく。
機材
OS:Mac OSX (10.2.7)
テキストエディタ:Jedit4
スキャナー:CanoScan LiDE30(名前は“山嵐”)
OCRソフト:e.Typist7.0
圧縮ソフト:DropZIP
実際の方法
1)スキャンする作品の底本、またはコピーを用意する。底本が茶色に変色している、水気を吸ってデコボコしている、などの際にはコピーをとるとスキャナーがうまく認識してくれることがある。
2)スキャンする。ここは時間がかかる上に、スキャン中は、本を押さえているか、ページをめくる以外にやることがない。もう一方の手で本を読むのもつらいので、映画でも見ながらのんびりとスキャンしている。一枚一枚以下の処理をするのは面倒なので、一気にたくさんスキャンしている。
3)スキャンした画像を呼び出し、傾きの処理(見開き傾き調整など)をして、OCRソフトで認識させる。出てきたテキストを、テキストエディタの別のファイルにコピーする。底本の一行ごとに改行する設定ではなく、改行を入れない設定で認識させているので、底本片手に改行をいれてゆく。一作品の最後までOCRでの認識、改行位置のみの手直しを行う。これで素(粗?)入力ファイルの出来上がり。
4)素入力ファイルを、底本片手に手直しする。ここで一括変換で直すことが多い。旧字作品は、この手直しの段階では新字で入力しておく。コンピューターで出て来ない漢字は、ことえりの文字パレットで調べ、「新JIS漢字総合索引」で調べ、見つかったら、しださんと小林さんの作成された「青空文庫・漢字外字注記コレクション」をコピー&ペーストして入力している。
5)旧字作品のみ、手直し終了後、「校閲くん」を使って、新字を旧字に直してゆく。全ての旧字が使われている訳ではないので、やはり底本片手である。
6)手直しが終わったら、印刷して、底本片手に突き合わせ読みをする。底本の状態にもよるが、まだまだ間違いが多い。ここで、片仮名「ヘ」などのOCR特有の間違いを直す。
7)最後に素読みをして、おしまい。
8)圧縮して、receptionアドレスへ送る。
ついでに、私の使っているテンプレートを以下に貼っておく。
入力テンプレート
作品の表題
原作の表題(翻訳作品の場合)
副題(副題がある場合)
原作の副題(副題がある翻訳作品の場合)
著者名
翻訳者名(翻訳の場合)
-------------------------------------------------------
【テキスト中に現れる記号について】
《》:ルビ
(例)
|:ルビの付く文字列の始まりを特定する記号
(例)
[#]:入力者注 主に外字の説明や、傍点の位置の指定
(数字は、JIS X 0213の面区点番号、または底本のページと行数)
(例)
/\:二倍の踊り字(「く」を縦に長くしたような形の繰り返し記号)
(例)
*濁点付きの二倍の踊り字は「/″\」
〔〕:アクセント分解された欧文をかこむ
(例)
アクセント分解についての詳細は下記URLを参照してください
http://aozora.gr.jp/accent_separation.html
-------------------------------------------------------
底本:「書名」出版社名
YYYY(GGYY)年MM月DD日第1刷発行
YYYY(GGYY)年MM月DD日第NN刷発行
底本の親本:「書名」出版社名
YYYY(GGYY)年MM月DD日初版発行
初出:「雑誌名、新聞紙名」発行所名
YYYY(GGYY)年MM月DD日号
※「旧字、旧仮名で書かれた作品を、現代表記にあらためる際の作業指針」に基づいて、底本の表記をあらためました。
※このファイルには、以下の青空文庫のテキストを、上記底本にそって修正し、組み入れました。
「作品名」(入力:入力者名、校正:校正者名)
入力:
校正:
YYYY年MM月DD日作成
青空文庫作成ファイル:
このファイルは、インターネットの図書館、青空文庫(http://www.aozora.gr.jp/)で作られました。入力、校正、制作にあたったのは、ボランティアの皆さんです。
ここまで(最後の改行を忘れずに)。
入力編は、これでおしまいです。次は「校正編」です。
★この文章を書いた人→門田裕志★こんな時間に→2004年05月06日 21:13 ★トラックバックありがとうございます、門田さん。
一人で作業しているとどうしても「これでいいのかな?」という不安がつきまとうので、こうして他の人の作業の仕方がわかると、とても参考になります。
実は、私もあんまり辞書に青空文法(?)を登録していません。るび=《》、げた=[#]、くらいです。最近は、r=《》、になったくらいです。ちなみに、うちのサークルでは、旧字→新字、がほとんどなので、新旧漢字対照表、というのをプリントにしてみんな持っています。これは結構重宝します。
Posted by: 大久保ゆう at 2004年05月07日 23:37私の作業方法が一般的な訳でもないですし、とんでもない間違いをしている可能性もあります。でも、公開することによって、話し合う基盤が出来ると思い、書いてみました。
何か、これは、というコツがあれば、コメント欄に書いていただければ、幸いです。
Posted by: 門田裕志 at 2004年05月08日 00:43kompassです。
【OCRでの入力】
私の入力について、スキャナは、HP psc1210、OCRソフトは「読んde!ココVer8」を使っています。
画像は白黒、300dpiくらい、pngで保存すると2ページで100kb位になります。
OCR特有の誤変換、ばとぱ、へとヘなどは仕方ありませんが、新字新かなの綺麗な画像なら99%以上はうまく変換できるようです。
OCRのメリットは、画像データをテキストに変換しそれを2つのwindowで対比させながら修正できるが一番だと思います。
最初に画像を読み込んで変換したテキストと対比させながら修正し、テキスト形式ではなく一旦中間形式で保存。全画像を中間形式に変換後、再度中間形式のデータを読み込み、画像とテキストを対比させ校正(誤変換、改行、ルビ、注記、レイアウトなどを入念にチェック)し、その後テキストに保存しています。そしてプリントアウトしたテキスト読んで校正します。プリントアウトしたテキストと底本の照合が必要ない位、画面上で画像とテキストを対比校正するようにしています。
【ルビについて】
読んde!!ココはルビの埋め込みができますが、まだまだです。ないよりましくらいの能力です。
【ページ数について】
テキストに保存するときに、ページ数をつけるようにしています。プリントアウトしたテキストを素読みして修正個所が底本の何ページがすぐ分かるためです。校正終了後、一括削除しています。
【形式整備について】
「光の君再興プロジェクト」( http://www5b.biglobe.ne.jp/... )にかかわって、形式整備の重要さが分かりました。形式整備について参考にしてください。( http://www5b.biglobe.ne.jp/... )
門田さん、校正編楽しみにしています。
Posted by: kompass at 2004年05月08日 14:47※[#いおり(庵)点、1-3-28]
ですか? ここはやっぱり「歌記号」としていただかなくては(笑)
さて、私はWindowsユーザー。入力はもっぱら、かな漢字変換による手打ちです。エディタはWindows付属のメモ帳。不満は、改行コードを可視化できないことですかね。行末に余計な空白が入っても見つからない。
変換で出てこない字は、IMEパッド(Windowsの文字入力ツール)で探しますが、IMEパッドの画数検索と部首検索はそれぞれ、画数、部首以外の分類がなくてずらずらとリストが出て来るだけなので使いにくい。画数が少ないときは手書き(マウス書き?)認識を使ってます。それでもだめなら、JIS漢字字典(書籍)で探してJISコード打ち。
Windowsならではの入力ミスと言うと、JIS外字(IBM文字とかNEC文字とか言う)を入れてしまうことがありますね。JIS外字を入れたら化けるフォントがあれば使ってみたいと思いますが。
Posted by: たかし at 2004年05月18日 20:14>JIS外字を入れたら化けるフォントがあれば使ってみたいと思いますが。
T-Timeについている「秀英太明朝」がお奨めかと。
ただ、エディターによっては「秀英太明朝」が使えない場合があるので、入力者校正をT-Timeでしています。
「秀英太明朝」ですと「掴」のへんの部分が「國」と表示されますし(「掻」や「鴎」なども変換されて表示します)、機種依存文字などは違うフォントで表示されるのですぐに分かります。
Posted by: 小林繁雄 at 2004年05月19日 12:41「校閲くん」について、追記です。
一度「校閲くん」にかけて、紛れ込んだ新字を旧字に直しますが、一度かけただけでは、必ず見落としがあります。ですので、一度「校閲くん」をかけてチェックした後で、必ずもう一度「校閲くん」をかけてチェックしています。
Posted by: 門田裕志 at 2004年05月30日 18:51【漢字外字注記コレクション】
http://poorbook.hp.infoseek.co.jp/... で、第三版が公開されています。
Windows98、Meの方はT-Timeで。
Windows2000、XPの方はazurで。
Macintosh OS 9以下の方はT-Timeで。
Macintosh OS Xの方はazurもしくは、T-Timeで。
フォント、T-Time、azur関係の情報は、以下で。
http://sumomo.sakura.ne.jp/...
Posted by: 富田倫生 at 2004年06月04日 14:04富田さん、紹介どうもありがとうございます。先日宮地さんに収集してしただいたデータをもとに「第四版」を用意してるところです。
まもなく公開できると思います。
Posted by: PB'99しだ at 2004年06月04日 14:52しださん、第四版、お世話様です。
CD-ROMからの検索結果を得て、大きめの増補になるのでしょうか? 作業は大変と思いますが、その分、さらにしっかり支えてくれるツールになるのだろうと期待しています。
小林さん、監修のほど、どうぞよろしくお願いいたします。
Posted by: 富田倫生 at 2004年06月05日 17:06> CD-ROMからの検索結果を得て、大きめの増補になるのでしょうか?
CD-ROMがきっかけでしたが、実際には宮地さんが逐次ネットでダウンロードしたデータをもとに検索した結果とのことです。ですから、古いデータも混じっているはずだし、とりこぼしもあるかもしれないとのことです。それでも300件を超えるデータの追加になりました。
小林さん、どうぞおつきあい、よろしくお願いいたします。
Posted by: PB'99しだ at 2004年06月05日 20:47e.Typist8.0にアップグレードして、OSXに対応し、またルビも挿入(青空文庫形式で)も可能になりました。
Posted by: 門田裕志 at 2005年05月26日 22:03e.Typist8.0はe.Typist7.0で作成した画像も使えます。
Posted by: 門田裕志 at 2005年05月26日 22:14