もう一つの著作権の話 〜保護期間70年延長に向きあって〜
アントワーヌ・ド・サン=テグジュペリ「あのときの王子くん」7 大久保ゆう訳

2006年06月28日

 【入力/校正】電子翻刻の落とし穴

青空文庫で底本からのファイル作成を続けていくうちに、「これは意識しないとみつからない」と思われる、難物の存在に気付きました。
「電子翻刻の落とし穴」とでも呼ぶべきそれらを、以下にリストアップします。

なお、こうしたものについては、点検グループが意識してチェックするようにしています。
「ここまでできないと、入力や校正はできない」といった話では、けっしてありません。

ただ、難物情報も、力を合わせて進めてきた青空文庫の作業の成果。
これも共有できればと言う意図で、ここに示します。

▼非漢字グループ

●平仮名「へぺべ」と片仮名「ヘペベ」

上の見出しの平仮名と片仮名、あなたには見分けがつきますか?

形の似た別の字が紛れ込みやすい OCR によるファイルで、最後まで生き残る可能性が高いのが、このパターンです。

片仮名の「ヘ」と「ペ」と「ベ」、平仮名の「へ」と「ぺ」と「べ」をそれぞれ単独で検索していくのが、もっとも単純なチェック法です。

正規表現に対応したエディターを使えば、片仮名の「ヘペベ」、平仮名の「へぺべ」をまとめてチェックできます。
「[]」に片仮名の「ヘペベ」を入れた「[ヘペベ]」で検索すると、このうちのいずれかにヒットしたところで、とまります。
片仮名のチェックが終わったら、数が多くなって大変ですが、平仮名の「[へぺべ]」でもやってみてください。

正規表現では、「[]」の中に複数の文字を入れて、一度の流れで、検索していくことができます。
「[青空文庫]」とすれば、「青」と「空」と「文」と「庫」、それぞれの文字を、同時並行で検索できるわけです。

では、ここに県名リストがあるとして、これを「山[形梨口]県」で検索すると?

▼漢字グループ

●「壼」と「壺」

左右の文字は、同じ形に表示されていませんか?
区別がつかなければ、サイズをあげてみてください。

大きくすると、左側の下は「亞」となっているのがわかるでしょう。
一方右側の下は、「亞」の一画目が欠けています。

左側は、「第2水準1-52-71 」の「コン」。
角川書店「新字源」によれば、その意は「1宮中の道。へやを連絡する通路。2おく(奥)(参考)壺(こ)は別字。」とあります。

一方右側が、「第2水準1-52-68」の「コ/つぼ」です。
底本に出てくる両者に似通った字は、まずこちらと思って間違いがありません。
(青空文庫で作業したものの中では、平野万里「晶子鑑賞」で唯一、底本に「壼(コン)」が使われていました。ただこれも、「壺(つぼ)」にあらためて注記が妥当なのかも知れません。)

点検グループは2005年12月にこの問題に気づき、公開済みファイルを洗い直して、16作品に生じていた誤りを正しました。
それまでは、まったくのフリーパスでした。

●「臈」と「※[#「藹」の「言」に代えて「月」」

「臈」の部首はにくづきで、この字は「臘」の異体字です。
角川書店「新字源」には、「臘」は「1まつりの名。冬至ののち、第三の戌(いぬ)の日に行い、神々や祖先をまつる。2年のくれ。陰暦十二月の別名。3僧侶(そうりょ)が得度してからの年数。」とあります。

一方「※[#「藹」の「言」に代えて「月」」は、くさかんむりで、「臈」と包摂ではありません。

年功を積んだ「じょうろう」、年功の足りない「げろう」などの「ろう」は、「※[#「藹」の「言」に代えて「月」」です。
底本でくさかんむりの形で入っているこの字は、「※[#「藹」の「言」に代えて「月」、第3水準1-91-26]」と外字注記するのが正解です。

このメモを準備している過程で、「じょうろう」「げろう」の「ろう」に関しては、公開済みファイルのいっせい見直しを、行っていないことに気付きました。
時間をつくって、追々修正していきます。

[注意]秀英太明朝は、包摂規準の範囲内で、いわゆる康熙字典体寄りに字体をデザインするという珍しい特徴を備えています。
それゆえ、気にする必要のない底本との微妙な字体差が目につかなくなり、青空文庫の校正には適しています。
ただし、「臈」に関しては、秀英太明朝はこれを、「※[#「藹」の「言」に代えて「月」」につくる、誤りを犯しています。
そのため、秀英太明朝でみると「じょうろう」「げろう」に紛れ込んだ「臈」はチェックできません。

●「挿」と「※[#「插」でつくりの縦棒が下に突き抜けている]」

当用漢字にはなかった「挿」が、この字体で常用漢字表に入りました。
以降は、「挿」が新字で「插」が旧字という関係になりました。

それ以前は、「插」が正字。
加えて、「挿」と、「插」のつくりの縦棒が下に突き抜けた二種類の異体字が、ともに印刷で使われていました。

この「※[#「插」でつくりの縦棒が下に突き抜けている」は、「挿」と包摂ではありません。
底本に問題の形で入っている字は、「※[#「插」でつくりの縦棒が下に突き抜けている、第4水準2-13-28]」と外字注記するのが正解です。

[注意]「※[#「插」でつくりの縦棒が下に突き抜けている」は、常用漢字制定以前の底本で使われている可能性が高く、旧字ファイルをつくる際には特に、意識しておきたいものの一つです。両者は「新旧」の関係にはないけれど、校閲君のチェック対象文字に加えて注意喚起した方が良さそうです。

●「廻」と「※[#「廴+囘」」

「廻」の異体字に、「※[#「廴+囘」」があります。

「回」と「囘」は包摂されませんから、古い底本で使われている「廴+囘」は、「※[#「廴+囘」、第4水準2-12-11]」と外字注記するするのが正解です。

[注意]これも「新旧」ではないけれど、旧字ファイルで入れ替わりが生じやすいので、校閲君のチェック対象文字に加えた方が良さそうです。「落とし穴」と呼ぶほど、見つけにくいものではありませんが、校閲君追加候補繋がりということで、記載しておきます。

★この文章を書いた人→富田倫生★こんな時間に→2006年06月28日 10:56 ★トラックバック


 コメント

思ったのですが、♯と#の混同もあるかもしれませんね

Posted by: まら at 2006年06月29日 17:16

初期青空文庫における、誤りの定番の一つでした。

【テキスト中に現れる記号について】のテンプレートを置くようになったあたりから、減ってきた気がします。

最近は、ほとんどみません。

などといいながら、見逃してしまった作品が二つあるようですね。

要修正っと。

Posted by: 富田倫生 at 2006年06月29日 22:25

●漢数字の「〇」、丸印「○」、大きな丸「◯」

●ラテン大文字「O」、ギリシャ大文字「Ο」、キリール大文字「О」

 大きな丸「◯」(02-94)以外の使い分けはあきらかでしょう。

 青空文庫のテキストで大きな丸「◯」を使うことはほとんどないと思います。たぶんJISにそんな字があるとも御存知ない方が多いのでは。私も校正したファイル内にあると、後から指摘されて初めて知りました。

Posted by: 土屋隆 at 2006年06月30日 07:37

 ちなみに、読み上げソフトでのデフォルト発音は

●「壼」と「壺」

 コ、ト、コ

●「♯」と「#」

 シャープ、ト、イゲタ

●「〇」と「○」と「◯」

 ゼロ、ト、マル、ト、シロマル

●「O」と「Ο」と「О」

 オー、ト、オミクロン、ト、オー

となります。

Posted by: しみづ at 2006年06月30日 14:12

 もちろん、単語登録すれば、

●「壼」と「壺」

 コン、ト、コ

となります。

Posted by: しみづ at 2006年06月30日 14:20

 訂正です。デフォルトでは

●「〇」と「○」と「◯」

 ゼロ、ト、マルジルシ、ト、シロマル

でした。「マル」は単語登録してたためでした。

※ちなみに「一度クリックしたら、気ままにお待ちください。」は「気まま」でいいのかな。「気長」の気がするけど。

Posted by: しみづ at 2006年06月30日 14:34

ひらがなとカタカナの違いもわかりにくいですが、どうも濁点と半濁音の区別もぱっと見た目では、間違いやすいものかもしれませんね。

昨日「読書blogすいへいせん」で私が取り上げました、リルケの「老人」。XHTMLを読んでいて、てっきりべビイbebyだと思っておりました・・・・なんとかわいい名前だろうと、もしくはbabyにひっかけたものかと・・なんとかわいい名前のじいさまだろうかと。することもかわいいからbabyでもいいかと。

それがテキストにコピー・貼り付けをしたら、ぺピイpepyさんでした。まあ。。それも可愛い名前ですが・・・

ベとペ・ビとピ、どうも見た目紛らわしいですね。

Posted by: ten at 2006年06月30日 18:04

●「券」と「劵」

左は下が「刀」、右は下が「力」という違いがあります。親字(標準字体)では、最初の点々が左は「ソ」の字、右は「ハ」の字になっています。

ところが、点々が「ハ」で下が「刀」という字もよく使われます。これは「券」に包摂されます。見た目に騙されてはいけません。

●「祇」と「祗」

これも上と同様に、見た目が遠い方に包摂される例です。

左と右の違いは、「氏」の下の「一」です。

※[#「示+氏」]の字は「祇」に包摂されます。逆に「ネ」へんで「一」がつく字もあるようです。

Posted by: 土屋隆 at 2006年07月03日 00:58

ここのコメントに半角の数字「1」を入れてPostするとエラーになりませんか?

Posted by: 土屋隆 at 2006年07月03日 01:04

http://www.hyuki.com/... にあります「文字チェッカー」の

「誤認しやすい文字」もありますね。

Posted by: 結城浩 at 2006年08月02日 21:22

■「蓑」と「簑」と「簔」

竹かんむりの二つなんて、どこが違うのかしばらく見てもわからなかった……

Posted by: 土屋隆 at 2006年09月16日 00:37

■「裹」と「裏」

取りあえず、メモしておきます。

Posted by: 富田倫生 at 2006年09月18日 09:22

 コメントする
※URLを入力するときは、そのままURLのみを入力してください。自動的にリンクされます。HTMLタグを使用することもできます。
※コメントスパム対応のため、POSTに時間がかかってしまいます。一度クリックしたら、気ままにお待ちください。










名前、アドレスを登録しますか?








 トラックバック
トラックバック用URL: