青空文庫内の「校閲君を使ってみよう」は、やや記載が古くなっています。そこで、あくまで参考で、今回「校閲君」をバージョンアップして気づいた点を中心とした、全くの私案を「続き」に載せています。
【オンライン版校閲君を活用する】
青空文庫内文書の改定試案(というより私案)です。Mac ではなく、Windows での使用を前提にしていますが、Mac OS X でもほとんど当てはまると思います。(相違点などは、後日付け加えるようにします。)Window では、付属の「メモ帳」でも可能ですが、出来れば、Shift JIS 以外のコードを扱える、 秀丸エディタ(シェアウェア)、サクラエディタ(フリー)などのエディタをご用意ください。以下の解説は、Windows XP での使用例で、XP 以前の Windows や、Vista では、図やプログラムは、やや異なってきます。
校閲君は、旧字ファイル中に紛れ込んだ新字・俗字を洗い出すためのツールです。
校閲君のプログラムを書いてくれたのは、大野裕さんです。もともとは手許のパソコンで使う形だった校閲君を、結城浩さんがウェッブブラザーから利用できる形に仕立ててくれました。今回、サイト移転に伴い、いくつかの不具合を修正し、リニューアルしました。
このオンライン版校閲君なら、プログラムを動かすための事前の準備なしに、すぐに使ってみることが可能です。「ここ」をクリックすると、このサイトに用意された、校閲君が開きます。
- 旧字体置換可能チェッカー「校閲君」のページ。
チェックしたい旧字ファイルをエディターかワープロで開き、すべてを選択してコピーしてください。
ここでは、森鴎外「寒山拾得」を使って、チェックの手順を確認していきます。 試しに使ってみる適当なファイルが手許になければ、ここから「寒山拾得」のテキスト版をダウンロードして使ってください。 「寒山拾得」のファイルは、zip形式で圧縮されています。テキストとして開くには、解凍処理が必要です。現在は、Windows であれ、Mac OS X であれ、クリックするだけで、zipが解凍され、中身のファイルが表示されるようになっています。
この「寒山拾得」のファイルは、サンプルとして用いるために、必要な旧字・正字への置き換えを行っていません。(青空文庫に置いている「寒山拾得」は、修正されています。)
校閲君の入力ウインドウにカーソルを立てて、チェックするテキストをペーストします。
- 「リセット」のボタンをクリックすると、入力ウインドウにペーストしたテキストが、クリアーされる。入力ウインドウにペーストしたテキストが、文字化け して表示されることがある。そんなときも、そのままチェックしてしまえばよい。文字化けを理由に、リセットを行う必要はない。
「チェック」のボタンをクリックします。しばらく待つと、校閲君によるチェックの結果が画面に表示されます。
- 校閲君のチェック結果。あやしい文字と代替候補を、「▼▲」で挟んで示してある。
校閲君は、「あやしい」と判定したものに、黒三角のマークを付けてきます。
「▼」の右が、ファイル中に使われている新字もしくは俗字。そのとなりに、代替候補の旧字もしくは正字。冒頭の「▼号號▲」は、「このファイルでは「号」が使われていますが、底本中にあるのは「號」ではないですか?」との問いかけを意味しています。
チェック結果のウインドウの中で青く示しておいた「▼飲飮▲」は、一見したところ、どこが違うのか、見きわめがつかないでしょう。「▼飲飮▲」をコピーして、エディターかワープロのウインドウにペーストし、表示フォントを大きくして確かめてみましょう。
- 先に示されているのが、チェックしたファイルで使われている「飲」。こちらは、新字。後に示されている代替候補の「飮」が、旧字。
「▼台臺▲」や「▼言云▲」など、明らかに形が異なっているものでは、入力ミスは起こりにくいはずです。一方、「▼飲飮▲」のように、小さなサイズではほとんど見分けの付かないものになると、誤りの確率がグンと高くなります。
「▼飲飮▲」のようにマークされた箇所を底本と照合し、置き換えの必要はないのか、確認してみてください。
次の作業としては、校閲君のチェック結果を保存しておき、腰を据えて照合にかかるほうがよいでしょう。
ウェブブラウザーのメニュー「編集」に「すべて選択」という項目があるはずです。お手持ちのエディタに貼り付けて、保存してください。
- 上の図は、「すべて選択」を指定した場合。あとは、コピーをして、好みのエディタへ、貼り付ければよい。(下の図)。
オンライン版校閲君が一度にチェックできる文字数は、およそ10万字です。(テキストファイルにして、約 200K バイト、夏目漱石「坊ちゃん」が少しこの制限を越えます。)「長さチェック」をクリックすると、入力テキストのおおよその文字数が表示されます。限度を超えると、最初の、10万字のみ処理をして、次のような警告メッセージが表示されます。
- 上図が「長さチェック」のメッセージ、下図が、その処理後の警告メッセージです。これらのメッセージが表示されたら、チェックするファイルを分割し、10万字以内を一まとまりとして作業を続けてください。
【補足】 コマンドライン版 replace.cgi の使い方
1) Perl のインストール 実行するには、Perl というプログラムが必要です。Windows では、Activeperl サイトからダウンロードするのが、一番簡単です。(ダウンロードとインストールの詳細は省略します。「Windowsでperlを使おう!」などその方法を説明したサイトを参考にしてください。)
2) スクリプト圧縮ファイルのダウンロード replace.zip という圧縮ファイルがありますので、ダウンロードしてください。解凍してでてきた、replace.cgi と、jcode.pl は同じディレクトリに置いてください。ダウンロードした、replace.cgi スクリプト中では、コマンドライン版としてすぐ使えるように、$cgi = 0; としていますが、CGI 版として使用するときは、$cgi = 1; としてください。
3) コマンドプロンプトを開き、実行 Windows のプログラム、「コマンドプロンプト」を立ち上げ、その中で「perl replace.cgi 入力テキスト名 出力テキスト名」 とすれば、実行できます。Shift JIS、EUC 文字コード双方のテキストファイルが扱え、入力と出力の文字コードは同一になります。UTF8(ユニコード)のテキストファイルは処理できませんので、エディタで、予め、Shift JIS コードに直してください。
- コマンドプロンプトの例、処理能力10万字という制限はありませんが、ファイルが大きくなれば、処理時間が長くなります。
【付記】 このページに使った、スクリーンショットは、highslide というプログラムで処理され、クリックすると浮き上がって表示されます。浮かび上がった画像内、右下の、
をクリックすると、実サイズに拡大します。
.jpg)
.jpg)
.jpg)





コメントする