![]() |
|
|
|

だいたい、こんなイメージです。
ちなみに、Unicode から0213へ向けての青いラインは、「UNICODE2SJIS2000」という希土類元素レアアースさんのフリーウェアで実現済みです。
参照:http://hp.vector.co.jp/authors/VA018305/u2j2.html
★この文章を書いた人→PoorBook G3'99★こんな時間に→2003年11月05日 05:43大野です。
Win機種依存補助漢字から0213への矢印の部分は perl の tr/// 関数などで一行で全部処理できます。(実験ずみ。)
0208に変換する矢印、および0213でも残る注記の部分に関しては、注記を(青空文庫現行のいわゆる推奨形式に合わせて)標準化する必要がありますね。点検部屋の方々などの協力を得て、この部分はしっかり作っておきましょう。文字から注記への対応表さえあれば、実際の置換は簡単です。
機種依存文字の字形が0208でも0213でも包摂の対象となってしまうものについては、
・青空文庫の従来の方針に合わせて、0208(あるいは0213)にある文字で置き換えてしまう(が、そうすると、当然のことながら、違う字形だったという情報が消えてしまう)
・「包摂の対象だが、違う字形で表示されていた」という注記を入れる(字形に関する情報を残す)
のどちらかでしょうか。
今後、JISがさらに拡張される見込みがあるのであれば、情報は残して置いたほうがいいのかな。この範疇に入る文字はUnicodeではどういう扱いになっているのでしょうか。Unicodeにもない、ということなら、しださんの図の範囲では、異字形情報を保持させる意味はないことになりますよね。
Posted by: 大野裕 at 2003年11月07日 01:07富田です。
【青空文庫のテキスト作成の流れ】
青空文庫は、0208のテキストを公開しています。
Win機種依存文字を含むテキストは、これを作る過程で生じたミスの産物です。
とすれば先ずは、機種依存文字を排除して、0208のテキストを作る。
0213化を行うとすれば、その0208テキストから作るのが、素直な道筋だろうと思います。
【Win機種依存文字から0213へ】
Win機種依存文字の0213文字への置き換えは多分、対象のテキストの0213化を目指して行われるのだと思います。
ただ、この置き換えは、0213化に求められる作業の、ごく一部でしかないはずです。
もし、0208にもWin機種依存文字にもない文字が底本にあれば、ファイル中ではたぶん、外字注記してあるでしょう。注記されたもののうち、0213にあるものはコードに置き換え、ないものは注記として残すステップが必要です。
加えて、包摂の扱いが変わるものへの対処も求められます。
Win機種依存文字には、78互換包摂と104字の適用除外で分離される、すべての文字が入っているわけではありません。
そのために、当然包摂扱いされただろうものに関しては、あらためて、適当なツール(文字チェッカーでOK。)で拾い出し、底本と照合して分離されるA、Bのどちらが使われているかを確認し、用いられている方を割り振る作業が必要です。
要するに、0208テキストを0213化する際に必要となる作業のほとんどすべてを、ここでも行わなければなりません。
この道筋の果たす役割は、ほとんどないように思います。
【Win機種依存文字から0208へ】
一方、Win機種依存文字を0208に落とし込むステップには、確実な意義がありそうです。
ここで、Win機種依存文字を
1) 包摂される0208のコードに、もしくは
2) 0213面区点番号付きの外字注記に、もしくは
3) 0213面区点番号なしの外字注記に、
変換した上で、その他の注記、形式を整えれば、現行のテキスト版が完成します。
これを公開し、時期が来れば0213化するということではないでしょうか。
※1)に際して、字体情報を保存する必要は、ないように思います。
そも0208/0213は同じ規準にそっているのだから、移行に際して、包摂の扱いが変わることはないはず。
にもかかわらず、残念にも扱いが変わることになったものに関しては、どうせ全部チェックし直さざるを得ないのだから。
【0208/0213とUCS】
0208と0213は、一つの包摂規準にそっています。
一方UCSは、この枠組みにそっていません。
UCSと0213のコードポイントを機械的に変換することは可能であっても、0208/0213の包摂規準をUCSに持ち込むことはできないと思います。
UCSベースの電子化は、UCSの包摂規準体系にそって、一から行うしかないでしょう。
UCSの包摂規準に未定義の要素が多かったり、あいまいな点が多かったりすると、どう入力していいのか判断に迷うケースが増えてくると思います。
Posted by: 富田倫生 at 2003年11月07日 18:09LUNA CATです。
みなさんに校正のご協力をいただき、Windows機種依存文字一覧を更新しました。
http://www2s.biglobe.ne.jp/... 「明日」まではいかないけれど、今日の夜くらい?
Posted by: LUNA CAT at 2003年11月10日 00:58富田です。
「Windows機種依存文字一覧」の校正、ほぼ終了と考えて良いと思います。
ここから大野さんの「win_kishuizon.xls」に対して行うべきは、
1 「Windows機種依存文字一覧」に加えた修正内容を反映。
2 外字注記の書き込み。
でしょうか?
2の外字注記の書き込み(ついでに1もやりましょうか?)は私がやって、もし可能なら点検部屋の小林さんにチェックをお願いできないか、頼んでみようかと思うのですが、大野さん、皆さん、そんな感じで良いでしょうか?
Posted by: 富田倫生 at 2003年11月10日 18:37> もし可能なら点検部屋の小林さんにチェックをお願いできないか、頼んでみようかと思うのですが
小林、OKです。
Posted by: 小林繁雄 at 2003年11月11日 16:30大野です。お返事が遅れてすみません。1 のほう、業を煮やして富田さんが既に着手している…というのでなければ、私のほうで引き受けます(コピーペーストだけですし)。でも、よく考えたら、LUNA CATさん自身、Excel等で管理していらっしゃるのかな?
Posted by: 大野裕 at 2003年11月12日 10:54大野さん、富田です。
まだかかっていません。
では、1は大野さんにお任せして、私は2の方へ。(少し、時間がかかると思います。)
小林さん、ありがとう。書き込み後のチェック、どうぞよろしく。
※掲示板などの「場」を、複数常用するようになると、その「場」との連絡機能が欲しくなりますね。
どこかで誰かが、「この件、どうしましょう。●●●●さん」などと書くと、●●●●さんのデスクトップに、用件マークが表示されて、クリックで当該の頁にジャンプと。
固定IPじゃない場合は、「用件あり」のメールかな。
Posted by: 富田倫生 at 2003年11月12日 16:49富田さん、大野です。
> ※掲示板などの「場」を、複数常用するようになると、その「場」との連絡機能が欲しくなりますね。
同感です。少し前まではメールで一元管理できていたんですけどね。(Al-Mail + namazu プラグイン愛用者の私。自分あてにメールも送っておいたりして。)
Movable Type はメール通知機能もあるみたいですが、それはトピックを立てた人だけに届くのでしょうか。Blogではありませんが、私が参加しているあるプロジェクトで使われている Net Commons ( http://www.net-commons.org/... ) は参加者全員にメールで配信されてくるので便利です。使ったことがないけど、egroupsなんかもそういう感じなのでしょうか?
>どこかで誰かが、「この件、どうしましょう。●●●●さん」などと書くと、●●●●さんのデスクトップに、用件マークが表示されて、クリックで当該の頁にジャンプと。
これは新たなSPAMとして利用され、用件マークがボコボコ立つのが目に見えるので、ワタシ的には却下、かな。
Posted by: 大野裕 at 2003年11月12日 18:18LUNA CATです。
もとはといえば、Doodleが自動生成するHTMLを少し加工したのが始まりでした。で、Excelでの管理はしていないのですが、ここまで成長してきたら、大野さんのExcelファイルをマスタにしてHTMLを生成するようにしておくと、一元管理ができそうですね。
手元には、むしとりあみ用のAccessプログラムがありますので、マスタに変更があったときにHTMLを作る役目を引き受けましょうか。
Posted by: LUNA CAT at 2003年11月13日 07:48通知機能なんですが、メールアドレスを誰でも、幾つでも登録できます。
試しに私あてに設定してみましたが、何にも来ませんでした。宿主に聞いてみます。
Posted by: ag at 2003年11月13日 21:30