カレンダー

2012年5月
« 11月    
 12345
6789101112
13141516171819
20212223242526
2728293031  

最近のコメント

テーマの変更

てふてふ君の症例検討会(その 5)

【はじめに】 「青空パッケージ」の作者、psitau さんから、この検討会に何回かコメントをいただきました。頼もしいアドバイザーが付いていただき、心強い限りです。順次、ご助言の部分は訂正してゆきますが、今後ともよろしくおねがいします。さて、前回の検討会いかがでしたか?日頃あまり意識しない紙面サイズの話なので、面白くなかったかもしれませんね。今回からはまた具体的作品を取り上げて行きたいと思いますので、気長にお付き合いください。手始めに、最近、公開された、『「吶喊」原序』など魯迅の作品を取り上げます。

【症例】井上紅梅訳 魯迅「吶喊」原序

【主訴】 作品の最後に、変な数字みたいなのが付く。

【現病歴】 続々と魯迅の作品が公開されて楽しみにしています。紅梅訳は以前読んだ、「岩波版魯迅選集」とは、また違ったおもむきがあるようですね。作品の内容に関わる程のことではないのですが、作品の最後の部分に、6zw とかいう文字が出てきます。また、他の魯迅の作品でも最後の(発表?)年月日の行が、やや空いて見えます。なんとかならないでしょうか?

魯迅「吶喊」原序・修正前

魯迅「吶喊」原序・修正前

解決策(処方箋)は、続きにあります。

てふてふ君の症例検討会(その 5) の続きをどうぞ

WordPress 2.6 にバージョンアップ

なにが、What’s new かを詳細にはみていませんが、このブログの元になっている WordPress を 2.6 (WordPress 日本語ダウンロードページ)にしました。記事の履歴をとれるようになったり、Google Gear を導入すると若干スピードアップが図られたり、アップする画像にきちんとキャプションがついたりするようです。

てふてふ君の症例検討会(その 4)

前回の検討会いかがでしたか?今回は、具体的な作品は取り上げず、前回の補足情報です。「道標」など大きな作品では、直す場所が多くても、そのパターンは数種類なので、コンバートはスムーズでした。そのなかでは、[#ページの左右中央]という注記の実現が比較的困難でしたね。復習の意味で、少し、紙(青空パッケージでは、A5版、二段組みが標準)の上でのレイアウトについて触れておきます。こうしたレイアウトを表現する格好のパッケージが、下記にソースをしめした、layout です。

\documentclass[a5paper]{tbook}
\usepackage{layout}
\begin{document}
\layout
\end{document}

以上のソースの結果の PDF を続きに示します(若干、切り貼りしています)が、どうも縦書きの tbook では、\textwidth と \textheight が縦横逆になっているようです。したがって、[#ページの左右中央]では、\textheight の半分の所に文字をもってくるべきです。

a5paper 縦書きレイアウトは、続きにあります。

てふてふ君の症例検討会(その 4) の続きをどうぞ

てふてふ君の症例検討会(その 3)

【はじめに】 前回の症例検討会、いかがでしたか?「⦅ ⦆」(二重カッコ)が使われている作品は、意外とあり(青空鯰での「始め二重括弧」検索より)これらの作品でも該当部分は、きちんと表示されそうです。「立原道造 優しき歌 ⅠⅡ」は、後日、タイトル部分を変えて、この検討会で取り上げてみたいと思っています。さて、今回は、ファイルサイズは大きく、修正する個所は多いのですが、その種別は、3つくらいのパターンです。

【症例】 宮本百合子「道標」

【主訴】 作品の全部にわたって、「モスク」になって「ヷ」が表示されない

【現病歴】 どこかで話題になっている、「Nippon」か「Nihon」を引合いにだすわけではありませんが、百合子の抱いているイメージとして、「Москва」は「モスクワ」ではなく「モスクヷ」なのでしょう。しかもその出現個所は、1032ヶ所にものぼります。(ロシア語では、「マスクヴァ」と後の音節にイントネーションを置くように発音されるようですが…)さて、困った、解決策はあるのでしょうか?(下図)

宮本百合子「道標」修正前

解決策(処方箋)は、続きにあります。

てふてふ君の症例検討会(その 3) の続きをどうぞ

てふてふ君の症例検討会(その 2)

【はじめに】 前回の症例検討会、いかがでしたか?実は、「え゛」の横並びは、utf パッケージを使うと、うまくいきますが、その拡張版の otf パッケージでは、表示が乱れるというケッタイな現象があります。原因は究明できていませんので、しばらくは、「てふてふ君」は、utf パッケージを使ってゆくようにします。今回は、その機能のごく一部を使っています。

ガルシン「四日間」修正前【症例】 ガルシン 二葉亭四迷訳「四日間」

【主訴】 文中の「⦅ ⦆」(二重カッコ)がうまく表示されない

【現病歴】「⦅ ⦆」(二重カッコ)は、JIS 0213 1-2-54 と 1-2-55 にある文字で、青空文庫 XHTML では、画像で代用されています。ここでは、直接、UTF-8 で表示しています。記事の末尾で、参考に示した Adobe Japan 1-5 グリフ(PDF で使用できる日本語の全文字一覧表です。)にも、12131 と 12132 に載っています。したがって、utf パッケージを使うなら、\CID{12131}、\CID{12132} とすれば、表示されるはずですが、うまくいきません。さて、困った!解決策はあるのでしょうか?(右図)

解決策(処方箋)は、続きにあります。

てふてふ君の症例検討会(その 2) の続きをどうぞ

てふてふ君の症例検討会(その 1)

【はじめに】 今回から、各論に入るにあたり、記事の体裁を少し変えました。毎回、症例検討(ケーススタディ)として、さるギョーカイではおなじみの形とします。また、皆さんに解決策をお考えいただくために「処方箋」は「続き」以下にあり、最初から表示しないようにしました。症例検討会ですので、ここでの解決策がベストとは限りません。お気きの点がありましたら、コメントの形でご参加ください。また、取り上げてほしいケース(青空文庫作品)がありましたら、リクエストをお寄せください。最初のケースを始める前に、当検討会の処方の概略を少々…

各テキストが持っている「癖」をよく見極める事が大事な要点です。それを修正して、いかに「見てくれ」を良くするためには、おおざっぱに言うと以下の三つの分野に分けられます。

  1. JIS 0208 にない文字の表現方法
  2. 圏点など文字の各種装飾の処理
  3. 「下付き」などの文章のレイアウトの再現

どれを取ってみても、ケースが多々あり、課題山積ですが、今回はまずは、1. に関連したケースをとりあげます。

【症例】辻潤「え゛りと・え゛りたす」

【主訴】 題名の「え゛」が、横並びに表現されない

【現病歴】 青空文庫での、JIS 0208 という範囲内で原型をすべて再現できないのは自明の事で、第三水準、第四水準、はたまたユニコードという解決策はあるようですが、今回は、題名からいきなりユニコードにもない「え゛」が使われています。筆者辻潤の作った文字のようですが、横書きでは、なんとか読めますが、縦書き PDF となると、「え」と「゛」が上下行き別れになります。さて困った、解決策はあるのでしょうか?(下図)

修正前の PDF

解決策(処方箋)は、続きにあります。

てふてふ君の症例検討会(その 1) の続きをどうぞ

青空に舞う蝶々のごとく(その 5)

以前の投稿とも重なる故、前回で、総論は最後と思いましたが、あえてもう一つ…

言うまでもありませんが、青空文庫では、テキストは、zip 圧縮されています。ファイルゲットから種々の形式に加工するまで、ほぼ自動的に行うスクリプトを、サーバレベルでは、二三作ったいきさつがあります。同様に、Web でも、PDF 作成できないかと目論んでいました。なんとか、乏しいプログラム経験を駆使して、作ることができました。

目玉は、なんといっても「おまかせコース」下図のように、青空文庫図書カードの「ファイルのダウンロード」から、拡張子 zip のついた、リンクの場所をマウスで引っ張ってきて、「おまかせコース」の「圧縮ファイルのアドレス」に掘り込めば(マウス左ボタン ON のままで引っ張ってきて、OFF で離す事で、ドラッグ&ドロップと言います。)後は、別 Windows かタブの「処理結果」での番号の付いた PDF をクリックするだけで、「縦書き」「第三、第四水準表示」「字下げ OK」「ルビつき」の青空文庫作品が楽しめます。どうぞお試しください。

ドラッグアンドドロップ

出来ないことを書くのも恐縮ですが、あまり大きなサイズのファイルは最後まで処理できません。(テキストが、600 K バイトを超えますと、「処理結果」に「警告」を出すようにしています。「サイズの大きい順ベスト 10」(テキストファイルのサイズとは若干順位が異なります。)のうち、

  1. 長塚節 土 途中までで×
  2. 押川春浪 海島冐檢奇譚 海底軍艦 途中までで×
  3. 宮本百合子 道標 ○

    何とか、処理できるようになりました。そのいきさつは、後日

  4. 森鴎外 伊沢蘭軒 ○
  5. 尾崎紅葉 金色夜叉 ○
  6. 徳冨健次郎 みみずのたはこと ○
  7. 夏目漱石 それから ○
  8. 夢野久作 ドグラ・マグラ ○
  9. 夏目漱石 吾輩は猫である 途中までで×
  10. 横光利一 旅愁 ○

ベスト 10 だけで見ると、7勝3敗で今年の阪神より勝率アップです。(^o^)/ でも、他に、リカードウ「経済学及び課税の諸原理」なども「途中までで×」です。まだいくつかはあると思いますが、ルビが多く文章の構造が複雑な文章は、やはり苦手のようです。飽き足らない方は、ぜひ、「青空に舞う蝶々のごとく(その 2)」などを参考にして、TeX システムを手持ちのコンピュータに導入してください。

最後に、「てふてふ君」を使って自動的にとはいきませんが、少し TeX ソースを手直しすると、以下のような PDF も出来ます。このあたり、TeX の威力ですね。どのように変身したか、一度クリックしてください。次回からは「てふてふ君各論―ケーススタディ」として、この TeX ソースを手始めに触れてみたいと思います。お楽しみに!

青空に舞う蝶々のごとく(その 4)

青空ミセラス君」の開設に伴い、以下のアクセス方法は現在は中止しています。PDF ファイルは、今後は、「青空ミセラス君」をご利用ください。

今回で、総論的な記事は最後にしたいと思います。さて、「てふてふ君」で自動的に作成するようにしたのは良いのですが、出来る事なら、各青空作品にあたって、TeX ソースに磨きをかけて、その作品なりの体裁を整えたいのが人情です。現在は、到底加工する時間とスキルは持ち合わせていませんが、青空作品の PDF ファイルの置き場所だけは作りました。多数の作家の、数多い作品を、わかりやすく簡単に並べるために、Webdav というアクセス方法を採用しました。はじめはちょっと取っ付きにくいかも知れませんが、慣れれば、使っているコンピュータと同じようなフォルダ感覚でアクセスでき、しかも日本語のフォルダとファイル名なので、作者と作品名が分かりやすくなっています。各 OS でのアクセス方法は以下の通りです。

  1. Windows でのアクセス法
    • 一つの方法

      デスクトップで、「マイネットワーク」を選択→

      「ネットワークプレイスの追加」を選択→

      「http://webdav.nishinari.or.jp:80/aozora/dav/」
      (とURL に 必ず :80 を追加してください)→

      「ユーザ名:guest、パスワード:enjoyaozora」で認証する。

      XP でしか、確認していません。また、一部フォルダがループするようです。不具合は検討しておきます。

    • もう一つの方法

      Internetexplorer で「ファイル (F)」→

      「開く (O)」→「Web フォルダとして開く (F)」にチェック →

      「http://webdav.nishinari.or.jp:80/aozora/dav/」(とURL に必ず :80を追加)→

      「ユーザ名:guest、パスワード:enjoyaozora」を入力

    • Vista での方法

      Vista の方は、「Windows VistaでのWebDAV接続」を参考にして、設定してください。

  2. Mac OS X でのアクセス法

    Windows に比べて簡単です。

    「ファインダー」→「移動」→「サーバへ接続」→「http://webdav.nishinari.or.jp/aozora/dav/」(:80はなくてもよい)→「ユーザ名:guest、パスワード:enjoyaozora

PDF ファイルは、「青空文庫ファイル」→「作家別PDFファイル」→「○行の作家」とたどっていけば、該当する作家名のフォルダに到着します。では、青空蝶々PDF ファイルお楽しみください。

青空に舞う蝶々のごとく(その 3)

前回に付き続いて、総論的な記事を続けます。

青空蝶々」のWeb サービスのやや詳しい説明です。

TeX ソースなどを入力すると、TeX 処理し、PDF ファイルを作るページを二つ開設しました。

  1. 「あげは蝶君」 – uptex を使ってユニコード入力可

    まず、内部処理を UTF-8 で行う uptex を使ったページを作ってみました。今度は東京大学西洋古典研究室のぱくりです。これで、テキストエリアで、JIS0213 はじめ、ユニコードでの入力が可能になります。したがって「外」、「百」、「島屋」などの、文字を組み込んだ、PDF が出来ます。ついでに、前回紹介した「青空パッケージ」を uptex に組み込もうとしましたが、パッケージの文字コードの関係か、一部文字化けします。またもや、なかなか思うようにはいかないものです。そこで…

  2. 「てふてふ君」 – 青空文庫を PDF 製本化!

    今回の目玉です!文字コードを、青空文庫と同様の SHIFT_JIS に戻し、platex の方を使い、「青空パッケージ」を通して、Web で、自動的に PDF を生成出来るようになりました。最初の「おまかせコース」を選べば、青空文庫テキスト zip 圧縮ファイルをドラッグ&ドロップすれば、自動的に、PDF が出来るしくみがようやく出来上がりました。従来のような、テキストや TeX ソース入力も可能です。ちょっと戸惑ったのは、サンプルにも使った、夏目漱石「『心』広告文」のように、ルビ表示がなく、「【テキスト中に現れる記号について】」という欄がない場合、TeX ソースが微妙にずれ、タイトルが乱れます。今回は、そのようなテキストファイルは「前処理」としてタイトルと本文の間に二行の改行を挿入するようにしました。これで、何とか完成です。夏目漱石「こころ」あたりは、何とか処理できます。「猫」は、途中までの処理になります。

青空に舞う蝶々のごとく(その 2)

このプロジェクトを「青空蝶々」とでも名付けましょうかね?

前回は、Web ページでの TeX ツールを紹介しましたが、サーバでの負荷軽減のためにサイズの制限をかけているなど制約があります。また、微妙な文字コードからくる「文字化け」も発生するかもしれません。今回は、ローカルなコンピュータに TeX システムを導入し、「青空蝶々」について触れてみます。

  1. Windows 系

    あちこちのサイトに、導入の方法が書かれてあるので詳述はしませんが、今回は、W32TeX のサイトから、手動的にファイルをゲットし、Windows XP マシンへインストールしました。青空蝶々では、フルパッケージの、 uptex-w32.tar.bz2 utf.tar.gzも用意しておいてください。インストール後の PATH の設定などは、該当ページをご覧ください。

    Winshell(日本語化されています) のような「TeX 統合環境」も便利ですが、いっそのこと、Cygwin も導入して、Tera Term で、Cygwin 接続すれば、比較的簡単にコマンドラインを使用できますし、後述の ruby スクリプトも実現できます。

  2. Mac OS X

    Mac でもいろんなパッケージがありそうですが、今回は、パッケージインストールだけで、使えそうだったので、小川版を使用しました。Mac OS X では、ヒラギノ(Pro)フォントが使えそうなので、OTF.sty for MacOSX 安定版 ないし 開発版もインストールします。

  3. Linux

    サーバの TeX 環境をそのまま利用しました。別途、別ディレクトリに、UTF-8 を扱うことのできる、uptex をインストールしました。

  4. 「青空蝶々」パッケージの導入

    テキストフィルを に「青空蝶々」化するためのツール類です。齋藤修三郎さんのオリジナルパッケージ(青空文庫を読もう!)です。今回は、文字コードを SHIFT JIS に統一し、PDF 内に、青空文庫図書カードへのリンクも組み込むためすこし改変しました。(後日公開予定です。)Ruby というスクリプト言語もインストールしてください。( Windowsでの導入法、Mac OS X では、初めから付いています。)ひとつ、藤田眞作さんの作った振り仮名をつけるためのスタイルファイル(furikana.sty)も必須です。スタイルファイルを、たとえば /usr/local/share/texmf/tex/platex/aozora/ ( Mac OS X の場合です、Windows では適当に置き換えてください。)に、スタイルファイルを配置し、mktexlsr コマンドを実行しておきます。

  5. コマンドラインでの PDF 作成

    Windows では、コマンドプロンプト、Mac OS X では、ターミナルから、

    % ruby aozora.rb amentia.txt
    % platex-sjis (ないし platex -kanji=sjis) amentia
    % dvipdfmx amentia

    で、amentia.pdf が出来上がります。

    (例)富ノ沢麟太郎「あめんちあ」の PDF
    左側がヒラギノフォント埋め込み、右側が Adobe の小塚フォントでの表示。

      
  6. 今後の課題
    • OS によって、PDF ファイルサイズが大幅に違う

      Mac OS X では、ヒラギノフォントを埋め込んだため、大きくなるのはわかるにしても、Windows に比べて Linux はサイズが、3倍以上になります。その代わり、Windows では、リンク情報が埋め込めないようです。以下の「PDF ファイルの置き場所」には、リンク情報が必須でないかぎり、なるべく Windows で作成した、PDF ファイルを置くようにします。(Linux で作った宮本百合子「道標」 PDF は、5M バイト以上になります。)

    • PDF ファイルの置き場所

      「こもれび」で共有フォルダを紹介しましたが、日本語ファイル名が使えるので、当面そこに置くようにします。一部、src フォルダに、tex ソースも置いてあります。

    • 個々の作品の細かい修正

      TeX コマンドを習得しながら、今後「ケーススタディ」として本ブログに載せてゆきます。TeX に習熟されておられる方のご教示を期待します。