「あのときの王子くん」連載を終えて
ガーネット色のバラ

2006年10月18日

 新字新かな辞書「シン弐くん」

1.ここまでのあらすじ

 初代の新字新かな辞書「シンちゃん」は、幸田露伴「連環記」の作業後に、不注意から致命的な深手を負って、修復不能の状態となってしまいました。かつかつのハードディスク容量で作業していたのが原因です。セーブするときに見慣れない警告が出て、早まって無理に保存したところ、その瞬間、中身がごっそり消えてしまいました。再度テキストを開いたら案の定……というわけです。サルベージ不能。バックアップを 2006.1.2 付けで残してあったので、やむをえず、そこから再スタートとあいなりましたしだいです。シンちゃん、ごめんなさい。

 
2.内容構成
 
 新字新かな辞書「シン弐くん」
 タブ区切りテキスト形式
 992KB
 64227行
 (2006.10.17 現在)

 うちわけ
  1) かな一字           4行
  2) 漢字一字           2373行(3.7%)
  3) かな(2〜3)文字      264行(0.4%)
  4) ひらがな・カタカナ      9789行(15%)
  5) 漢字かなまじり        47127行(73%)
  6) 固有名詞・人名・地名     1099行(1.7%)
  7) 古典名詞・外来地名・外来語  1659行(2.6%)
  8) 誤変換回避用・その他     1516行(2.4%)

 テキスト変換プログラム「ConvChar 0.8.2」は、(1)一度変換した文字は再度変換しない、(2)行順で辞書の後ろのほうから出現する候補に先にヒットする、という特性があります。そこで辞書の前半のほうには無条件で置き換えてよさそうで文字数の少ない群 1) 〜 3) を配置し、逆に後半のほうには変換させたくなくて文字数の多い群 6) 〜 8) を置き、その中間に 4) 〜 5) を置くという、おおざっぱに三層の内容構成とすることにしました。あまり複雑にしすぎると並びかえや検索の都合上かえって管理しにくそうなので、品詞ごとの分類はおこなっていません。
 
  因た   よった
  因って  よって
  因つた  よった
  因つて  よって
  因て   よって
  因に   ちなみに
  因まづ  ちなまず
  因み   ちなみ
  因り   より
  因れば  よれば
  因ん   ちなん

 これは登録の一例で、因の項です。「5) 漢字かなまじり」部門にひとまとめで登録してあります。行頭の一字が「因」なので、正規表現で「^因」と入力して検索することで容易にたどりつくことができます。品詞ごとの分類となると登録場所が分散してしまうので、そうはいきません。管理が複雑になりそうなことがわかると思います。ソート(並びかえ)は五十音順(正確には文字コード順)ということになります。ソートは表計算ソフトやエディタによって機能を装備しているものがあります。
 ここで、「こんなにみじかい単語の登録で、誤変換が生じないか?」という疑問が出てくるはずです。たとえば因の字で終わる原因・要因・敗因といった語句が、たまたま上の登録と同じ配列でひらがなにつらなることが予期されます。そういうばあいは「8) 誤変換回避用」の部門に「原因 → 原因」という形で登録することで、回避できることになります。いまのところ「因\t」(因のあとにタブがくる、の意の正規表現)で検索してみると原因・来因・來因の三語句があり、来因と來因は「7) 外来地名」部門に「ライン」として登録してあります。おそらくライン川・ライン地方の漢字表現と思われます。
 
 初期の目的としては、旧字や旧かな・送りがなを現代的な表現におきかえるほか、名詞・代名詞・副詞ほかの難読漢字を極力かなに開くことに専念しました。動・植物名もカタカナで開くことにしました。読者としては中学生・高校生が読めるくらいのものを想定。辞書が成長するにつれて初期目標に近づいたものの、するとこんどは、ひらがなばかりでかえって読みにくい文章になってしまいまいた。そこで、変換しないほうがよさそうな候補に関しては、語尾に「///」のような作品上ありえない文字列を付与することで、変換対象からはずしています。読みのわからない文字もとりあえず収録し、同じ方法で変換対象からはずす(そのまま出力する)ことにしています。また、「くる/\」は「クルクル」に、「にたにた」は「ニタニタ」に、というふうにくりかえしの副詞や擬音語など違和感のないものをカタカナに置き換えることにしました。
 句読点やカッコなどの記号をあらたにくわえることは、原則おこなっていません。例外として、読点(、)のかわりにナカグロ(・)へ変換、「二三日」「四五人」を「二、三日」「四、五人」のように読点をくわえました。
 「外」を「そと」と読むか「ほか」と読むか。「今日は」を「こんにちは」と開くか「今日は」のままとするか。手がかりがそれだけでは、さすがに判定は無理です。しかし「以ての外」「今日は一つ」「は今日は」のように直前・直後の文字列のつらなり=直結する文脈をまるごと登録することで置き換えできるばあいもあるので、気がついたときに収録することにしています。
 
 
3.ルビの処理について
 
 ルビを削除してから変換するか、それともルビを残したまま変換するか。作業手順として大きくふた通り考えられます。当初、前者の方法でためしてみました。しかし現在では、後者のほうがよさそうだと思いなおしています。変換の効率という点では前者のほうがきれいに変換可能です。しかし、それでは当然ながら著者の意図した読みまでもが削除されてしまうからです。また当初は、xhtml版からテキストをコピーしてもちいる方法をとっていましたが、ルビ処理の方針変更にともなって、テキスト版をもちいる方法にあらためました。
 ルビの解釈は残念ながらいまのところ人力です。作品中にないルビをあらたに付与することは、積極的にはおこなっていません。かといって狡黠・泣菫・礙碍・纏繞のように、ひらがなで開くわけにもいかず、ルビなしではつらい熟語があるのも事実です。今後の課題となりますが、ルビふりのための辞書は別途用意するのがいいかもしれません。
 
 
4.オーソドックス、もしくはコンテンポラリー
 
 とまあこんなかんじで手探りで作業している段階なので、正直、作業指針といえるほど固まったものがありません。いきあたりばったりで、手法も方針もコロコロためしています。完全自動変換、ということになればうれしいことこのうえありませんが、ちょっとかなりの難がありそうです。辞書の精度としては、ほどほどの変換率が達成できれば上等で、あとは人力におうということで割りきった使い方がよさそうに思います。
 そもそも50年以上前の作品ばかりだから読みにくいものが少なくありません。そのしわよせは、年齢の低い読者の読めるものが少ないところへ行ってしまう。まあ、年齢の低いひとたちへパソコン読書を積極的に推進するのも、良い点・悪い点の双方あるので、そこは強調しません。ふりかえれば14才の冬に、しゃべるパソコンを四万円で買ったのがはじまりです。17才のときにワープロで古事記の入力に挑戦したことなども、なつかしい思い出です。もちろん、学校教育でパソコンをあてがわれていなかったころのこと。四万円ほしさに屋根の雪下ろしをしたことを、ひさびさに思い出しました。
 
 次回は、後作業について。
 
 
 2006.10.18
 しだひろし/PoorBook G3'99
 転載・印刷・朗読・翻訳は自由です。

★この文章を書いた人→PoorBook G3'99★こんな時間に→2006年10月18日 21:21 ★トラックバック




 トラックバック
トラックバック用URL: