秋の慰安旅行記 その1
05:どの作品から読んだらいいのでしょうか。

2005年09月24日

 ヒラ工作員の日常〜入力篇補遺〜旧字旧仮名作品の入力は難しいのか?

青空文庫の対象となりうる作品の内で、何か気になる作品を入力したいと思った時に、旧字旧仮名しかないということが結構多いかと思う。さて、旧字旧仮名の作品を入力するのは新字新仮名の作品を入力するよりも面倒だろうか。正直に言って「面倒である」。しかし、既に開発されているいろいろなツールを利用することによって、それほどには「面倒」でもないのである。そのあたりを具体的に書いてみたい。

さて、「「ヒラ工作員の日常〜入力篇〜」にも書いてあるように、現在はスキャナーとOCRを利用して入力を行っている。以下は、旧字旧仮名作品を扱う際の簡単な手順である。その後に詳しい作業を解説する。

1 スキャンする:旧字旧仮名作品の場合、底本の状態によってスキャンおよびOCRの効率が変ってくる。活字があまりよくない(線が太い、ルビが離れていない、など)と3以下の作業が面倒になる。
2 OCRソフトで認識させる:最近のOCRソフトは第二水準の漢字にも対応してきたので、認識率はかなりよくなった。
3 底本を見ながら手直しをする:ここで、入力する時には旧字ではなく新字で行う。一つには旧字を探すのが面倒だからである。この後のステップで新字は旧字へと置き換えることになるので、新字で入力しておいて問題ない。ここで、新字旧字の関係にない字、俗字には注意する必要がある。「蹈」「囘」などである。
4 「校閲くん」を使って置き換えるべき新字を洗い出す。校閲くんの結果を見ながら、一つ一つ置き換えてもよいし、一括変換で置き換えてもよい。
5 「校閲くん」の結果をもとに置き換えた後、もう一度「校閲くん」にかけ、チェックする。必ず見落としているからである。
6 入力者校正の前に、校閲くんには引っかからないけれど、旧字の作品にはよく出てくる文字をチェックする。※[#「插」でつくりの縦棒が下に突き抜けている、第4水準2-13-28]、※[#「廴+囘」、第4水準2-12-11]などである。
7 入力者校正を行う。「校閲くん」の結果を参考に一括変換をしていると、余計なところ(ファイル冒頭、末尾の記載事項、字下げ、外字注記)の新字を旧字に変換していることがあるので、直しておく。

具体例として、土井晩翠「天地有情」の「序」の作業を挙げておく。底本は「明治文學全集58/筑摩書房」である。

1、2でスキャン、OCRソフトで認識させたところ
「「或は人を天上に揚げ或は天を此土に下す」と詩の理想は即是也。詩は閑人の墜語に非ず、詩は彫虫蒙刻の末技に非ず。既往敏百年間國詩の経歴に關しては余將た何をか日はん。思ふに所謂新躰詩の世に出で、より僅に十餓年、今日共輝態笑ふぺきは自然の数なり。然れども歳月遷り文運進まぱ其不完之を牌來に必すぺからず。詩は國民の精髄なり、大國民にして大詩篇なきもの未だ之あらず。本邦の前途をして多望ならしめば、本邦詩界の前途亦多望ならずんばあらず。本書牧むる所余が新奮の作四十餓篇素より一として詩の名稽を享受するに足るものあらず。只一片の微衷、國詩の襲達に關して繊芥の貢資たるを得ば幸のみ。著者不敏と錐ども自ら暦して詩人と爲すの愚を學ぷものに非ず。東京に於て明治三十二年三月土井林吉」

3で手直しをすると
「「或は人を天上に揚げ或は天を此土に下す」と詩の理想は即是也。詩は閑人の囈語に非ず、詩は彫虫篆刻の末技に非ず。既往数百年間國詩の経歴に關しては余將た何をか曰はん。思ふに所謂新躰詩の世に出でゝより僅に十余年、今日其穉態笑ふべきは自然の数なり。然れども歳月遷り文運進まば其不完之を将來に必すべからず。詩は國民の精髄なり、大國民にして大詩篇なきもの未だ之あらず。本邦の前途をして多望ならしめば、本邦詩界の前途亦多望ならずんばあらず。本書収むる所余が新旧の作四十余篇素より一として詩の名称を享受するに足るものあらず。只一片の微衷、國詩の発達に關して繊芥の貢資たるを得ば幸のみ。著者不敏と雖ども自ら僭して詩人と爲すの愚を學ぷものに非ず。東京に於て明治三十二年三月土井林吉」

4の「校閲くん」のチェック結果は
「「「或は人を天上に揚げ或は天を此土に下す」と詩の理想は即是也。詩は閑人の囈語に非ず、詩は彫▼虫蟲▲篆刻の末技に非ず。既▼往徃▲▼数數▲百年間國詩の▼経經▲歴に關しては▼余餘▲將た何をか曰はん。思ふに所謂新躰詩の世に出でゝより僅に十▼余餘▲年、今日其穉態笑ふべきは自然の▼数數▲なり。然れども歳月遷り文運進まば其不完之を▼将將▲來に必すべからず。詩は國民の精▼髄髓▲なり、大國民にして大詩篇なきもの未だ之あらず。本邦の前途をして多望ならしめば、本邦詩界の前途亦多望ならずんばあらず。本書▼収收▲むる所▼余餘▲が新▼旧舊▲の作四十▼余餘▲篇素より一として詩の名▼称稱▲を享受するに足るものあらず。只一片の微衷、國詩の▼発發▲達に關して▼繊纖纎▲芥の貢資たるを得ば幸のみ。著者不敏と雖ども自ら僭して詩人と爲すの愚を學ぷものに非ず。東京に於て明治三十二年三月土井林吉」」

5で「校閲くん」の結果をもとに直すと
「「或は人を天上に揚げ或は天を此土に下す」と詩の理想は即是也。詩は閑人の囈語に非ず、詩は彫虫篆刻の末技に非ず。既往數百年間國詩の經歴に關しては餘將た何をか曰はん。思ふに所謂新躰詩の世に出でゝより僅に十餘年、今日其穉態笑ふべきは自然の數なり。然れども歳月遷り文運進まば其不完之を将來に必すべからず。詩は國民の精髓なり、大國民にして大詩篇なきもの未だ之あらず。本邦の前途をして多望ならしめば、本邦詩界の前途亦多望ならずんばあらず。本書収むる所餘が新舊の作四十餘篇素より一として詩の名称を享受するに足るものあらず。只一片の微衷、國詩の発達に關して纖芥の貢資たるを得ば幸のみ。著者不敏と雖ども自ら僭して詩人と爲すの愚を學ぷものに非ず。東京に於て明治三十二年三月土井林吉」

さらにもう一度「校閲くん」にかけると
「「或は人を天上に揚げ或は天を此土に下す」と詩の理想は即是也。詩は閑人の囈語に非ず、詩は彫▼虫蟲▲篆刻の末技に非ず。既▼往徃▲數百年間國詩の經歴に關しては餘將た何をか曰はん。思ふに所謂新躰詩の世に出でゝより僅に十餘年、今日其穉態笑ふべきは自然の數なり。然れども歳月遷り文運進まば其不完之を▼将將▲來に必すべからず。詩は國民の精髓なり、大國民にして大詩篇なきもの未だ之あらず。本邦の前途をして多望ならしめば、本邦詩界の前途亦多望ならずんばあらず。本書▼収收▲むる所餘が新舊の作四十餘篇素より一として詩の名▼称稱▲を享受するに足るものあらず。只一片の微衷、國詩の▼発發▲達に關して纖芥の貢資たるを得ば幸のみ。著者不敏と雖ども自ら僭して詩人と爲すの愚を學ぷものに非ず。東京に於て明治三十二年三月土井林吉」

まだ、直すべきところである「将將」「収收」「称稱」「発發」を見落としている。逆に「虫蟲」「往徃」などは底本によって、使ったり使わなかったりする字なので、「校閲くん」でチェックすると残ることになる。さて、以上直すべきところを直すと

「「或は人を天上に揚げ或は天を此土に下す」と詩の理想は即是也。詩は閑人の囈語に非ず、詩は彫虫篆刻の末技に非ず。既往數百年間國詩の經歴に關しては餘將た何をか曰はん。思ふに所謂新躰詩の世に出でゝより僅に十餘年、今日其穉態笑ふべきは自然の數なり。然れども歳月遷り文運進まば其不完之を將來に必すべからず。詩は國民の精髓なり、大國民にして大詩篇なきもの未だ之あらず。本邦の前途をして多望ならしめば、本邦詩界の前途亦多望ならずんばあらず。本書收むる所餘が新舊の作四十餘篇素より一として詩の名稱を享受するに足るものあらず。只一片の微衷、國詩の發達に關して纖芥の貢資たるを得ば幸のみ。著者不敏と雖ども自ら僭して詩人と爲すの愚を學ぷものに非ず。東京に於て明治三十二年三月土井林吉」

となり、これでOKということになる。ここで入力者校正をすると、底本では「余」と「餘」を使い分けているので、修正して

「「或は人を天上に揚げ或は天を此土に下す」と詩の理想は即是也。詩は閑人の囈語に非ず、詩は彫虫篆刻の末技に非ず。既往數百年間國詩の經歴に關しては余將た何をか曰はん。思ふに所謂新躰詩の世に出でゝより僅に十餘年、今日其穉態笑ふべきは自然の數なり。然れども歳月遷り文運進まば其不完之を將來に必すべからず。詩は國民の精髓なり、大國民にして大詩篇なきもの未だ之あらず。本邦の前途をして多望ならしめば、本邦詩界の前途亦多望ならずんばあらず。本書收むる所余が新舊の作四十餘篇素より一として詩の名稱を享受するに足るものあらず。只一片の微衷、國詩の發達に關して纖芥の貢資たるを得ば幸のみ。著者不敏と雖ども自ら僭して詩人と爲すの愚を學ぷものに非ず。東京に於て明治三十二年三月土井林吉」

ということで、ここで入力終了となる(今回は字下げなどの注記は省いた)。新字新仮名の入力の場合には、この「校閲くん」によるチェックの過程がなく、また似て非なる文字に認識されてしまうことも少ないため、直す箇所が少なくて済むところが「面倒でない」と思わせる由縁である。しかし、OCRソフトの認識率もよくなっており、1、2の過程後の素認識ファイルでもかなりの旧字が認識されている。「校閲くん」の利用によって、手間はかかるにしても確実に旧字旧仮名ファイルを作成することは楽になっていると思う。

★この文章を書いた人→門田裕志★こんな時間に→2005年09月24日 05:50 ★トラックバック




 トラックバック
トラックバック用URL: