古本屋さんの想い出
明日を待ちながら。2

2003年11月05日

 明日を待ちながら

0213.jpg

だいたい、こんなイメージです。

ちなみに、Unicode から0213へ向けての青いラインは、「UNICODE2SJIS2000」という希土類元素レアアースさんのフリーウェアで実現済みです。

参照:http://hp.vector.co.jp/authors/VA018305/u2j2.html

★この文章を書いた人→PoorBook G3'99★こんな時間に→2003年11月05日 05:43


 コメント

大野です。

Win機種依存補助漢字から0213への矢印の部分は perl の tr/// 関数などで一行で全部処理できます。(実験ずみ。)

0208に変換する矢印、および0213でも残る注記の部分に関しては、注記を(青空文庫現行のいわゆる推奨形式に合わせて)標準化する必要がありますね。点検部屋の方々などの協力を得て、この部分はしっかり作っておきましょう。文字から注記への対応表さえあれば、実際の置換は簡単です。

機種依存文字の字形が0208でも0213でも包摂の対象となってしまうものについては、

・青空文庫の従来の方針に合わせて、0208(あるいは0213)にある文字で置き換えてしまう(が、そうすると、当然のことながら、違う字形だったという情報が消えてしまう)

・「包摂の対象だが、違う字形で表示されていた」という注記を入れる(字形に関する情報を残す)

のどちらかでしょうか。

今後、JISがさらに拡張される見込みがあるのであれば、情報は残して置いたほうがいいのかな。この範疇に入る文字はUnicodeではどういう扱いになっているのでしょうか。Unicodeにもない、ということなら、しださんの図の範囲では、異字形情報を保持させる意味はないことになりますよね。

Posted by: 大野裕 at 2003年11月07日 01:07

富田です。

【青空文庫のテキスト作成の流れ】

青空文庫は、0208のテキストを公開しています。

Win機種依存文字を含むテキストは、これを作る過程で生じたミスの産物です。

とすれば先ずは、機種依存文字を排除して、0208のテキストを作る。

0213化を行うとすれば、その0208テキストから作るのが、素直な道筋だろうと思います。

【Win機種依存文字から0213へ】

 Win機種依存文字の0213文字への置き換えは多分、対象のテキストの0213化を目指して行われるのだと思います。

 ただ、この置き換えは、0213化に求められる作業の、ごく一部でしかないはずです。

 もし、0208にもWin機種依存文字にもない文字が底本にあれば、ファイル中ではたぶん、外字注記してあるでしょう。注記されたもののうち、0213にあるものはコードに置き換え、ないものは注記として残すステップが必要です。

 加えて、包摂の扱いが変わるものへの対処も求められます。

 Win機種依存文字には、78互換包摂と104字の適用除外で分離される、すべての文字が入っているわけではありません。

 そのために、当然包摂扱いされただろうものに関しては、あらためて、適当なツール(文字チェッカーでOK。)で拾い出し、底本と照合して分離されるA、Bのどちらが使われているかを確認し、用いられている方を割り振る作業が必要です。

 要するに、0208テキストを0213化する際に必要となる作業のほとんどすべてを、ここでも行わなければなりません。

 この道筋の果たす役割は、ほとんどないように思います。

 

【Win機種依存文字から0208へ】

 一方、Win機種依存文字を0208に落とし込むステップには、確実な意義がありそうです。

 ここで、Win機種依存文字を

 1) 包摂される0208のコードに、もしくは

 2) 0213面区点番号付きの外字注記に、もしくは

 3) 0213面区点番号なしの外字注記に、

 変換した上で、その他の注記、形式を整えれば、現行のテキスト版が完成します。

 

 これを公開し、時期が来れば0213化するということではないでしょうか。

※1)に際して、字体情報を保存する必要は、ないように思います。

そも0208/0213は同じ規準にそっているのだから、移行に際して、包摂の扱いが変わることはないはず。

にもかかわらず、残念にも扱いが変わることになったものに関しては、どうせ全部チェックし直さざるを得ないのだから。

【0208/0213とUCS】

0208と0213は、一つの包摂規準にそっています。

一方UCSは、この枠組みにそっていません。

UCSと0213のコードポイントを機械的に変換することは可能であっても、0208/0213の包摂規準をUCSに持ち込むことはできないと思います。

UCSベースの電子化は、UCSの包摂規準体系にそって、一から行うしかないでしょう。

UCSの包摂規準に未定義の要素が多かったり、あいまいな点が多かったりすると、どう入力していいのか判断に迷うケースが増えてくると思います。

Posted by: 富田倫生 at 2003年11月07日 18:09

LUNA CATです。

みなさんに校正のご協力をいただき、Windows機種依存文字一覧を更新しました。

http://www2s.biglobe.ne.jp/... 「明日」まではいかないけれど、今日の夜くらい?

Posted by: LUNA CAT at 2003年11月10日 00:58

富田です。

「Windows機種依存文字一覧」の校正、ほぼ終了と考えて良いと思います。

ここから大野さんの「win_kishuizon.xls」に対して行うべきは、

1 「Windows機種依存文字一覧」に加えた修正内容を反映。

2 外字注記の書き込み。

でしょうか?

2の外字注記の書き込み(ついでに1もやりましょうか?)は私がやって、もし可能なら点検部屋の小林さんにチェックをお願いできないか、頼んでみようかと思うのですが、大野さん、皆さん、そんな感じで良いでしょうか?

Posted by: 富田倫生 at 2003年11月10日 18:37

> もし可能なら点検部屋の小林さんにチェックをお願いできないか、頼んでみようかと思うのですが

小林、OKです。

Posted by: 小林繁雄 at 2003年11月11日 16:30

大野です。お返事が遅れてすみません。1 のほう、業を煮やして富田さんが既に着手している…というのでなければ、私のほうで引き受けます(コピーペーストだけですし)。でも、よく考えたら、LUNA CATさん自身、Excel等で管理していらっしゃるのかな?

Posted by: 大野裕 at 2003年11月12日 10:54

大野さん、富田です。

まだかかっていません。

では、1は大野さんにお任せして、私は2の方へ。(少し、時間がかかると思います。)

小林さん、ありがとう。書き込み後のチェック、どうぞよろしく。

※掲示板などの「場」を、複数常用するようになると、その「場」との連絡機能が欲しくなりますね。

どこかで誰かが、「この件、どうしましょう。●●●●さん」などと書くと、●●●●さんのデスクトップに、用件マークが表示されて、クリックで当該の頁にジャンプと。

固定IPじゃない場合は、「用件あり」のメールかな。

Posted by: 富田倫生 at 2003年11月12日 16:49

富田さん、大野です。

> ※掲示板などの「場」を、複数常用するようになると、その「場」との連絡機能が欲しくなりますね。

同感です。少し前まではメールで一元管理できていたんですけどね。(Al-Mail + namazu プラグイン愛用者の私。自分あてにメールも送っておいたりして。)

Movable Type はメール通知機能もあるみたいですが、それはトピックを立てた人だけに届くのでしょうか。Blogではありませんが、私が参加しているあるプロジェクトで使われている Net Commons ( http://www.net-commons.org/... ) は参加者全員にメールで配信されてくるので便利です。使ったことがないけど、egroupsなんかもそういう感じなのでしょうか?

>どこかで誰かが、「この件、どうしましょう。●●●●さん」などと書くと、●●●●さんのデスクトップに、用件マークが表示されて、クリックで当該の頁にジャンプと。

これは新たなSPAMとして利用され、用件マークがボコボコ立つのが目に見えるので、ワタシ的には却下、かな。

Posted by: 大野裕 at 2003年11月12日 18:18

LUNA CATです。

もとはといえば、Doodleが自動生成するHTMLを少し加工したのが始まりでした。で、Excelでの管理はしていないのですが、ここまで成長してきたら、大野さんのExcelファイルをマスタにしてHTMLを生成するようにしておくと、一元管理ができそうですね。

手元には、むしとりあみ用のAccessプログラムがありますので、マスタに変更があったときにHTMLを作る役目を引き受けましょうか。

Posted by: LUNA CAT at 2003年11月13日 07:48

通知機能なんですが、メールアドレスを誰でも、幾つでも登録できます。

試しに私あてに設定してみましたが、何にも来ませんでした。宿主に聞いてみます。

Posted by: ag at 2003年11月13日 21:30

 コメントする
※URLを入力するときは、そのままURLのみを入力してください。自動的にリンクされます。HTMLタグを使用することもできます。
※コメントスパム対応のため、POSTに時間がかかってしまいます。一度クリックしたら、気ままにお待ちください。










名前、アドレスを登録しますか?








 トラックバック
トラックバック用URL: