出版文化史・書誌学・電子出版・(和漢書・準漢籍など)の図書館目録分類法関係の資料、印刷・出版業界の話題など


目次


『たったひとつの冴えたやりかた』の旧版(文庫版)と改訳版(文庫版)の違い

『たったひとつの冴えたやりかた』日本訳出版30周年記念記事です。

比較

カバー絵 川原由美子さんのもの2点

『たったひとつの冴えたやりかた』カバー絵 川原由美子さんのもの
みやふきん @38fukin さん撮影(2017年2月6日投稿)を拝借。
拡大画像で見ると、ちゃんとソバカスまで描かれているのが確認できる。星かと思ったものは金色の種子かも?と後で気づく。

  1. 奥書の表示 昭和六十二年十月十五日発行 昭和六十二年十一月三十日 二刷

    • カバーISBNコード ISBN4-15-010739-4

    • カバーJANコード なし(計算上は)

    • カバーCコード C0197

    • カバー価格 ¥500E

    • ノンブル打ってある最後のページ番号は387

  2. 奥書の表示 一九八七年十月十五日発行 二〇〇二年八月三十一日 十六刷

    • カバー絵 川原由美子

    • カバーISBNコード ISBN4-15-010739-4

    • カバーJANコード 1920197007202

    • カバーCコード C0197

    • カバー価格 ¥720E

    • ノンブル打ってある最後のページ番号は387

カバー絵 片山若子さんのもの

『たったひとつの冴えたやりかた』カバー絵 川原由美子さんのもの

amazonから拝借。

  1. 奥書の表示 一九八七年十月十五日発行 二〇一四年四月十五日 二十四刷

    • カバー絵 片山若子

    • カバーISBNコード ISBN978-4-15-010739-0

    • カバーJANコード 1920197008209

    • カバーCコード C0197

    • カバー価格 ¥820E

    • ノンブル打ってある最後のページ番号は379

ISBN番号がISBN4からISBN978-4に変わっているが、010739は同じ。
なお、末尾の4と0の違いはチェックデジットとして算出される値なので、ここで判断すべきではない。
つまり、早川書房は同じISBN番号を使っている。

ただし、このことを(岩波書店が批判されたように)「使い回している」とまで批判していいのかどうかは不明。
※岩波文庫のアレはいくら何でもひどいが、こちらは微妙な問題だなぁと思った。タダで無尽蔵に数字を持てるわけでもないしなぁ。

わかったこと。

以下、訳の違いを見てみましょう。

旧版 p.26
〝こんにちは、おねえさま。びっくりしないで! あたし、いま連邦基地九〇〇にいます。すてきなとこです。ちょっとこの近所を見物してから、帰りにそちらへ寄ります。父と母に元気だと伝えてください。船は快調だし、すごく感謝してるって。ラブ。コーティー〟

新版 p.26
〝こんにちは、おねえさま。びっくりニュース! あたし、いま連邦基地九〇〇にいます。すてきなとこです。ちょっとこのあたりを見物してから、帰りにそちらへ寄ります。お父さまとお母さまに元気だと伝えてください。船は快調だし、すごく感謝してるって。ラブ。コーティー〟

旧版 p.30
 コーティーが目をさますと、そこは一見おなじ星野のようだが、カプセルを閉め、覚醒注射されたおしりをさすっているうちに、〈リフト〉のながめがちがうのに気づく。

新版 p.29
 コーティーが目をさます。見たところ、おなじ星野のようだが、カプセルを閉め、覚醒注射されたおしりをさすっているうちに、〈リフト〉のながめが変わったのに気づく。

旧版 p.29 川原由美子さんの挿絵あり。ベッド脇のチューナーがカーラジオみたいだ。

『たったひとつの冴えたやりかた』の旧版(文庫版)p.29の挿絵

結論

プロの翻訳家ってすごい…って一瞬思ったけど、文を区切っちゃっている。いいのかこれ?と気になる。若い人に、若い言語センスでリライトというかブラッシュアップを(匿名で)お願いしたんじゃないか…って気も、ちょっとするんだけど、どうなんだろう。世代の持っている言語空間ってやっぱりあると思うんだよね。世代の限界、という意味も含めて。極端な例で言えば、戸田奈津子さんとか。

訳はどっちも味わいがあってそれぞれ良い感じ。ライ麦畑は野崎孝訳バージョンしか認めない!という頑固者でも納得のテイスト。

片山若子さんの表紙もサンテグジュペリの絵が現代的に洗練された暖かみのある画で、若々しい清冽さを持っていて、これはこれでとても良い。というか、表紙に限っていえば、川原由美子さんの絵は『地球(テラ)へ』っぽくてちょっと重いかもなぁ。往年の川原ファン以外は、書店でパッと見て手に取るかどうか…と考えると、うーん。

でもオッサンは、おしりをさするコーティーちゃんの絵がついている方がやっぱりいいな。って思った。'80年代の空気感満載。

ついでに…

Neat って確認してみたら、

4 《通例限定》〈事の〉(性質・表現・やり方などが)巧妙な,手ぎわのよい,器用な;適切な
Progressive English-Japanese Dictionary, Third edition ゥ Shogakukan 1980,1987,1998/プログレッシブ英和中辞典 第3版 小学館 1980,1987,1998

なんだそうです。「手っ取り早い」くらいの感じか。
思慮深さを持った結論の出し方というわけではないわけですね。
なるほどなぁ。

學士院の刊行物のオンライン閲覧環境について

以下、自分用のメモ

東京學士會院雜誌

第1編の第1册第2册第3册第4册(丸屋善七,1879)が国会図書館の近代デジタルライブラリーに掲載されているが、第2編以降は未掲載。

帝國學士院紀事

日本學士院紀要

CiNiiでの目次は、一部、日本語の表記で書いてある部分もあるが、ほとんどの場合は英文タイトルのみである。
例えば、上野善道「日本本土諸方言アクセントの系譜と分布(2)」を、Zendo UWANO“Genealogical Relationships and the Geographical Distribution of the Accents in Mainland Japan (2)”Released 2007/06/22とだけ表記している。

日本學士院紀要については、1954年3月の第12巻1号~だけが、NDL-OPACの「雑誌記事索引」で検索できる。こちらは日本語タイトルも採録している。

帝國學士院紀事は、1942年に第1巻第1号が出て、1947年の第5巻第3号まで続き、1948年の第6巻以降は日本學士院紀要に改称している。つまり、日本學士院紀要には第1巻~第5巻までは存在しない。

1978年03月刊行分は巻号番号ではなく「総目次」とされており、「日本学士院紀要総目次 第一巻第一号~第三十四巻第三号〔含:著者名索引〕」である。これのページ数はp1~112ある。この35巻の刊行の年度は、この「総目次」の他に3号分が刊行されているので、合計4冊である。ただし、J-STAGEには「総目次」の号は掲載されていない。

翌年の1979年03月の刊行分も、巻号番号ではなく「特別号」とされており、内容は「日本学士院創立百年記念講演集」である。この36巻の刊行の年度は、この「特別号」の他に3号分が刊行されているので、合計4冊である(これは掲載されている)。

複数箇所に分かれて掲載されているので、大変わかりづらい。

日本学士院の英文組織名は「The Japan Academy」なのである。
そう。これが「日本のアカデミー」の紀要の公開状況なのである。

たとえば、以下のような、その分野の研究者には必読とされるはずの名論文がオンラインに存在するのに、なかなかたどり着けないという事態は、どうにかした方が良いんじゃないか。

せっかく、最高峰の学者ばかりを集めている団体なのに…。実に奥ゆかしい公開方法である。なぜなのか?

なお、その他に個別の刊行物があり、また、あまり継続しなかった刊行物もあるようだ。例えば以下のようなもの。

大矢透『仮名遣及仮名字体沿革史料』(明治42年)
『帝国学士院第一部論文集 邦文』第1号、穂積陳重「由井正雪事件と徳川幕府の養子法」(大正2(1913)年)
『帝国学士院第一部論文集 邦文』第2号、穂積陳重「諱に関する疑」(大正8(1919)年)

Ver1.0 2008/01/19
Ver1.1  2015/01/02
Ver2.0 2015/12/28

中国・台湾で出版された学術図書の取り扱い注意点

例: 『廣韻』影印本の「索引」と「本文」のそれぞれに不審な点があり、納得できない

Q:藝文印書舘の澤存堂版『廣韻』影印を用いて、「」という字について調べてみると、巻末索引の「廣韻索引」には二箇所で示されている。

 一つは、「廣韻索引」の「一頁」にある「亅」部で、そこには「了 二九五」と示されている。
 これを影印本文で確認すると、その二九五頁上聲で、「了」字は小韻代表字として示され、割註に「慧也。訖也。盧鳥切。十四。」とある。
 この「了」の直後に周祖謨の校訂が入っているが、「了」そのものは関係ないようである。
 反切は「盧鳥切」と掲げられているので、この部分の発音は「リョウ」であろう。

 もう一つは、「廣韻索引」の「二一頁」にある「子」部で、そこでは「了 四七八」と示されている。
 これを影印本文で確認すると、その「四七八頁」は入聲で、小韻代表字「厥」の下に「了」字が入っており、割註は「短也。」とのみ示されている。
 ここには周祖謨の校訂は入っていない。
 小韻代表字「厥」の割註では、その反切を「居月切」と示しているので、「了」を「ケツ」と読むように示されていることになるが、どうも納得がいかない。
 これは一体どう解釈したら良いか?

藝文印書舘の澤存堂版『廣韻』影印 早稲田大学蔵の澤存堂版『廣韻』
藝文印書舘の澤存堂版『廣韻』影印 早稲田大学蔵の澤存堂版『廣韻』

A:実は、驚くべきことに、索引も間違っている上に、影印そのものも間違っている。

 藝文印書舘の影印本文の四七八頁は、「了」ではなく、「孒」とすべき文字である。

 それが、藝文印書舘(台湾)や、更にそれを影印した中文出版社(京都)など、後刷りの影印本では、横棒が取れてしまって「了」という風に写っている。

影印は「孒」とすべき部分の横棒が抜けて「了」となっている!

 また、その索引も、影印の側の間違いを反映してしまっているので、「廣韻索引」の二一頁にある「了 四七八」は「孒 四七八」と訂正すべき所である。

 早稲田大学図書館が澤存堂版『廣韻』(請求記号:ホ04 01757)をカラー画像でインターネット公開している(http://www.wul.waseda.ac.jp/kotenseki/html/ho04/ho04_01757/index.html)。
 該当箇所は、卷第五の十六丁ウである。
 早稲田の画像では19枚目がその部分に当たるので、確認してみると、確かに横棒が存在することが見て取れる。
 『廣韻』は、この他、東京大学東洋文化研究所のWebSiteでも澤存堂版『廣韻』の全部が白黒画像で公開されている。

ついでに一字索引についても書いておく。

※反切索引としては、原田種成著『広韻反切索引』(無窮会東洋文化研究所 1966)がある。

△=索引の出来がイマイチ。○=索引の出来はマトモ。

△中華書局の小型手冊(廉価版)
80年代末~90年代中頃までは、これが一番お手軽に入手できるものだったが、上述のように、索引の精度(主に植字の位置の誤りなどからくる問題)に難あり。

△京都中文出版の小型手冊
中華書局の上記の影印で、再版訂正の手が加わっている。ただし、もう取り扱いをやめてしまった。

○馬淵和夫《韻鏡校本と廣韻索引》初版・新訂版(巖南堂)
初版と新訂版とがあって、訂正が絡むのと、新規入手が困難なので、今から使うというのは、どうか…。
索引だけをコピーして、持っていると良いだろう。

○北京中華書局の大判の灰色表紙のもの
9000円くらいのやつ。「周祖謨校本のもの」としては、今はこれが決定版となる。

○林尹《新校正切宋本廣韻》附〈切韻系韻書反切異文表〉〈檢字索引〉(台灣、黎明文化事業公司)
他の切韻と比較してあり、頭注も音的なものに確実さとシンプルさがあるようだ。
でも、読者の方で、きちんと検証しながら読まねばならないだろう。

○余廼永、聯檢叢書第一種《互註校正宋本廣韻》(乙種)(台灣、聯貫出版社)
○余廼永《新校互註宋本廣韻》(香港、中文大學出版社)
○余廼永《新校互註宋本廣韻―定稿本》(上海、上海人民出版社、2册、2008.8)
中国では、これが現在のスタンダードになっているようだ。
最新の「定稿本」を選択すべきなのだろう。読者の方でも、きちんと検証しながら読まねばならないだろう。

あと、索引の附いていない周祖謨校本附校勘記には、台灣の世界書局のものがある。
奇麗な影印であるが、北京中華書局の大判のものと比較すると、本文の署名や日付部分などが、それぞれ(互いに)塗改された跡らしい異同があるので、両方見ないと危ない。

その他。

*白滌洲《廣韻通檢》(天一出版社, 1975.10)
これは手書きの影印本で、横書き、縱三行×各三行(字、反切、注音字母)。
大学図書館でも持っている所が少ない。それそのものが入手困難。

*莊惠芬《廣韻切語今讀表》(台灣廣文書局)
廣韻通檢が一列になったようなので、反切の末に「切」の字が附き、次に中古音價とその調値が西洋風の書き方で入れてある。

*林濤編著・唐作藩校訂《广韵四用手册》(中國國際廣播出版社)
反切の頭のピンインから引ける。
漢字での用語による音價・ピンイン今讀・所屬字が分かる。
常用字ピンイン索引と古今音對應状況。
附録四種あり。
變化の對應趨勢(广韵>詩韵>詞韵)を圖示したもの。
反切の僻字のピンイン。
「广韵未収的常用字」。
反切との對應からする少數例外の原因列舉八項目)。

 一般に、中国や台湾の出版物の場合は、影印本ですら加筆・修正などをして出版されることがある。
 たとえば、四部叢刊に収録されている『白氏文集』は、日本で江戸時代に刊行された「那波本」の影印のはずであるが、実際には、その那波本に手を加えて収録されていることが研究者によって明らかにされている。
 可能な限り、原本の閲覧か、原本により一層近いと思われる資料を探し求め、複数の資料に当たる態度が望ましい。

また、出版年が新しいから、という観点だけでは判断できない
なぜならば、それは単に昔の他社の出版物を、別の出版社が影印しただけのリプリント版であることも多い
例えば、『宋元以來俗字譜』のような、手頃な分量で、工具書的なもの需要が多いから、リプリント版が何度も出される。
この手のものは、(まともな)古本屋や(まともな)中文書の輸入書店の目録では「(RP)」とか「(R.P.)」と注記されている。

国立国会図書館デジタルコレクションの画像ファイルを連続ダウンロードする方法

近代デジタルライブラリー」や、「古典籍資料(貴重書等)」(旧:貴重書画像データベース)から、1コマずつの画像をダウンロードしたい。

ダウンロードしたいのは、PDFではない(PDFよりも1コマずつの画像の方が画質が良い場合があるため)。

しかし、30秒ずつ間隔を空けなければ、拒否されてエラーになるような設計になっている。

同時平行での複数ダウンロードは、拒否されてエラーになるような設計になっている。

しかも、国会図書館サーバ側では、画像ファイルそのものには連番が付いていない。
保存する時に、ユーザが各自でファイル名を指定する方式である。

1コずつ落とせ+30秒ずつ間隔を空けろ+保存する時には自分でファイル名を付けろ。

このような複数の制限があると、ブラウザのアドオンなどで連続的にダウンロードするのは大変である。

Irvineなどでも難しいかもしれない。

仕方ないのでwgetだ。

※以下、wgetやここに掲載するバッチについて、サポートはしません。責任も取りません。各自で解決してください。

下準備

  1. GnuWin32のWget for WindowsからBinariesのZip(wget-1.11.4-1-bin.zip)と、DependenciesのZip(wget-1.11.4-1-dep.zip)をダウンロードする。

  2. 2つのzipをディレクトリ付き、上書き許可で解凍する。

  3. おすすめの設置場所はC:\TOOLS\WGET\であるが、まぁ、どこでもよろしい。

  4. 解凍して出てきたlibeay32.dll、libiconv2.dll、libintl3.dll、libssl32.dll、wget.exeが同一のディレクトリに置かれていることを確認する。
    たぶん、\wget\bin\にあるはず。なければ同一ディレクトリに移動させる。

  5. パスとかは通さないでも構わない。通したければどうぞ。

  6. 以下のバッチをwget.exeと同じフォルダに設置する。
    保存時の文字コードはShift_JISである。
    UnicodeやUTF-8では上手く動かない場合がある。
    保存ファイル名は何でも良いが、NDLDL.CMDとしたことにして話を進める。
    でも、拡張子はCMDかBATでないと当たり前だけど動きません。

@ECHO OFF
SET /P ID=書誌番号を半角数字で指定してください:
ECHO 書誌番号………………………………………………………%ID%
SET /P s=開始コマ番号を半角数字で指定してください:
ECHO 開始コマ番号…………………………………………………%s%
SET /P e=終了コマ番号を半角数字で指定してください:
ECHO 終了コマ番号…………………………………………………%e%
IF "%ID%"=="" GOTO end
IF "%s%"=="" GOTO end
IF "%e%"=="" GOTO end
ECHO ダウンロードを開始します。中断は[CTRL]+Cキーです。
PAUSE
FOR /L %%i IN (%s%,1,%e%) DO (
wget -t 10 -O %ID%-%%i.jpg "http://dl.ndl.go.jp/view/jpegOutput?itemId=info%%3Andljp%%2Fpid%%2F%ID%&contentNo=%%i&outputScale=1" --referer="http://dl.ndl.go.jp/view/jpegOutput?itemId=info%%3Andljp%%2Fpid%%2F%ID%&contentNo=%%i&outputScale=1" --user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko"
TIMEOUT /T 30 /NOBREAK
)
:end
  1. [スタート]→[すべてのプログラム]→[アクセサリ]→[コマンドプロンプト]を起動する。
    Windows8ではどうするのかはよくわからんので各自で調べられたし。

  2. wget.exeやNDLDL.CMDを設置したフォルダに移動する。
    例えば、CD C:\TOOLS\WGET\と入力して[ENTER]キー。

  3. 動作確認をしてみましょう。真っ黒画面の中に、wget --helpと入力して[ENTER]キー。
    これでwgetの使用法が表示されたら準備は整っているはずです。
    wget --help > whelp.txtと入力して[ENTER]キーを押すと、helpの内容を同じフォルダのwhelp.txtに保存できるので、必要に応じて参考にしてください。

  4. では、バッチを動かしてみましょう。
    NDLDL.CMDと入力して[ENTER]キー。

  5. メニューに出てくる質問に対して、指定したい数値を半角数字で入力して[ENTER]キー。
    ここで指定する数値は、例えば、元和4(1618)年刊 那波本 白氏文集(古活字版) 71卷の第2冊目を入手したい場合なら、ここの画面左で第二冊の総コマ数(第二冊は132コマである)を確認する。
    また、そのリンクアドレスの中の「pid」の直後にある数字から、書誌番号を確認する(第二冊は「2543993」である)。

  6. 成功した場合、こんな風な画面になります。
    NDLDL.CMDの実行画面

  7. 一晩、放っておけば、起きる頃には完了していると思います(たぶん)。
    この場合、各巻ごとに指定し直さねばなりません。
    でも、15巻ある場合は半月でダウンロードを完了できます。気長にやりましょう。

  8. 上では、プログラムを簡素にするためと、岡崎市立中央図書館事件のように、私やあなたが逮捕されてしまうのを避けるために、全巻分をまとめて指定することはできません。
    もし、以下のような用途がある場合は、1行目~PAUSEの行までと、最後の:endの行を削除し、以下のようにSET IDの行~)の行までを反復させます。
    後に掲げる例を参考に各自で設定して使用します。

    • wifiの調子が悪くて同じ巻の中で特定のコマだけを飛び飛びに取得漏れが出た場合。
      例:書誌IDが2544003の書籍の25コマ目~28コマ目を取得し直す。

    • 複数の巻をまとめて指定したい場合。
      例:書誌IDが2544004の書籍を1コマ目~105コマ目まで全部を取得し、続いて書誌IDが2544005の書籍を1コマ目~126コマ目まで全部取得する。

SET ID=2544003
SET s=25
SET e=28
FOR /L %%i IN (%s%,1,%e%) DO (
wget -t 10 -O %ID%-%%i.jpg "http://dl.ndl.go.jp/view/jpegOutput?itemId=info%%3Andljp%%2Fpid%%2F%ID%&contentNo=%%i&outputScale=1" --referer="http://dl.ndl.go.jp/view/jpegOutput?itemId=info%%3Andljp%%2Fpid%%2F%ID%&contentNo=%%i&outputScale=1" --user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko"
TIMEOUT /T 30 /NOBREAK
)

SET ID=2544004
SET s=1
SET e=105
FOR /L %%i IN (%s%,1,%e%) DO (
wget -t 10 -O %ID%-%%i.jpg "http://dl.ndl.go.jp/view/jpegOutput?itemId=info%%3Andljp%%2Fpid%%2F%ID%&contentNo=%%i&outputScale=1" --referer="http://dl.ndl.go.jp/view/jpegOutput?itemId=info%%3Andljp%%2Fpid%%2F%ID%&contentNo=%%i&outputScale=1" --user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko"
TIMEOUT /T 30 /NOBREAK
)

SET ID=2544005
SET s=1
SET e=126
FOR /L %%i IN (%s%,1,%e%) DO (
wget -t 10 -O %ID%-%%i.jpg "http://dl.ndl.go.jp/view/jpegOutput?itemId=info%%3Andljp%%2Fpid%%2F%ID%&contentNo=%%i&outputScale=1" --referer="http://dl.ndl.go.jp/view/jpegOutput?itemId=info%%3Andljp%%2Fpid%%2F%ID%&contentNo=%%i&outputScale=1" --user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko"
TIMEOUT /T 30 /NOBREAK
)
  1. 以上、すべてについて、サポートはしません。責任も取りません。各自で解決してください。

  2. ファイル名の連番は、プログラム上、手抜きをしているので、固定桁数で保存しません。
    2544003-1.jpg~2544003-9.jpg
    2544003-10.jpg~2544003-99.jpg
    2544003-100.jpg~2544003-999.jpg
    となります。
    これらを固定桁数
    2544003-001.jpg~2544003-009.jpg
    2544003-010.jpg~2544003-099.jpg
    2544003-100.jpg~2544003-999.jpg
    のようにしたい場合は、フリーソフトとして流通している各種の連番リネームソフトをご利用ください。
    例えば、FlexRenaというソフトがUnicode対応の上、機能も盛り沢山で素晴らしいです。
    私の使用例はここに掲載しておきました。

白黒印刷で写真図版が入っている学術雑誌の自炊の最適設定を探す

古典籍・古文書・文化財系の図版が入っているものを自炊するとき、どうしたら良いのかを実験。

具体的には、『訓点語と訓点資料』をどうしたものか…というのを検討したかった。

※CINIIで公開されているのは全部ではなく、権利関係の処理ができている一部の論文だけである。
影印が絡む場合は、論文の著者だけでなく所蔵者との関係もあるので色々と難しいのだろう。

※それと、CINIIのPDFってパスワードつけられちゃっているから、何かと取り回しが悪い。
おまけに、有料(会員は無料設定とかになっているものも含む)のものは、PDFのプロパティにユーザIDと取得元のIPアドレスまで勝手に記入されてしまう。

…ということは、PDFに付与されるパスワードはワンタイム・パスワードなのでしょうね。

CINIIのPDFに付与されるユーザIDと取得元のIPアドレス

※それにしても、IPアドレスまで書き込むのはやり過ぎではないか?
自宅からアクセスした場合、自宅の契約回線が思わぬ所に記録されてしまう。
大学からアクセスするか、(安全な)プロクシを通すとかしないと危ない。
そういえば、有料プロクシサービスってあるんかいな?

図1 コピー機についているADFスキャナ(白黒、「文字・写真」、600dpi、濃さ自動)

##

感想:文字部分が嫌。図版も粗い。

図2 コピー機についているADFスキャナ(「白黒、「写真」、600dpi、濃さ自動

##

感想:文字部分が嫌。図版は妥協しても良ければこれでも良い場合もあるかも…。

図3 コピー機についているADFスキャナ(白黒、「文字(OCR用)」600dpi、濃さ自動)

##

感想:文字部分はこれで良い。図版は少しメリハリが付きすぎている感じがする。

図4 コピー機についているADFスキャナ(白黒、「文字(印刷用)」、600dpi、濃さ自動)

##

感想:文字部分に「活字」っぽさが残っているのが良いが、少し「かすれた感じ」になる。
その代わり、図版で男性の表情が図3よりも綺麗に出ているようだ。

図5 コピー機についているADFスキャナ(白黒、「グレースケール」、400dpi、濃さ自動)

##

感想:コピー機本体のメモリ容量が足りず(パソコン本体ではない)、600dpi設定が選択できなかったので、400dpiでしか撮れなかった。
しかし、図版は図1~図4に比して、飛び抜けて良い。文字はモンヤリした感じが出てしまうが、許容範囲であろう。

但し、紙のサイズは元の書籍がA4版ピッタリなのを裁断しているため、裁断部分がどこかが分かるスジがハッキリと出てしまう。
スジが出る位置は、紙の挿入方向を縦方向として読み込ませた場合はページの上下に横線が出る。
紙の挿入方向を横方向として読み込ませた場合はページの左右に縦線が出る。
比較してみると、ページの左右に縦線が出るのはどうにも耐えがたい!紙は縦長なので、線も非常に長いのだ。

濃度を手動で一段階ずつ薄めてみたが、最大限に薄くしても出る。
従って、このスジのことは、あきらめるしかない。

線がなるべく短くなり、縦書き・横書きを問わず、文章を読むときに邪魔にならないようにするには、紙の上下に線が出るようにするのがマスなようである。紙の挿入方向を縦方向として読み込ませる(ScanSnapと同じ方向)で読み取るのが良い、ということになる。

こうやって、あれこれ試してみると、ScanSnapを開発している側が、どのように試行錯誤して製品として練り上げて行っているのかが段々わかってくる。やっぱり、手を動かすのって大切ですね。

図6 ScanSnap(旧機種)(カラー、「エクセレント」、600dpi)

##

感想:白黒のものでも、カラーで撮ることによってビット数を大幅に増加できるのでこの設定でやってみた。
ただ、ScanSnapは色合わせが下手なようで、歴代どの機種でもRGBのうち、Bが強い(青っぽくなる)というクセがある
これは、実際に使っている皆さんはご存じだと思いますけど、かなり気になるんですよね…。

そして、紙の挿入送出はA4版の縦方向に行われるため、後の方のページになればなるほど、ジャム気味になる。
そのため、ページ下部に横のスジがハッキリと出てしまう。そこも、青っぽくなる
10ページ分くらいずつ小分けして入れて「継続」ボタンでスキャンすれば多少はマシになるんだろうけど、そんなのやってられないよ!

こんな感じ。これを「ScanSnapのデスラー現象」と呼ぶことにした。今決めた。

##

私は1枚ずつJPEG出力してRalphaで処理とかは、面倒なのでやりたくありません。一気にPDFでポン!で終わりにしたい。

画像の品質面では、600倍に拡大して見た場合でも、実質上はグレースケール400dpiと差違はないようである。

そして、ここ10年ほどの歴代ScanSnapは、皆、エクセレントモードはA4で5枚/分程度~7枚/分(白黒でもカラーでも同じ)である。
つまり、猛烈に遅い。

小括

以上の実験の結果から、 白黒図版入りの書籍は、コピー機についているADFスキャナで、白黒、「グレースケール」、400dpi、濃さ自動に設定して読み取り、そのとき紙の方向は縦方向で読み取らせるのが、速度面・品質面のバランスで良さそうであることがわかりました。

ScanSnapを使う場合は、時間効率を考えると「スーパーファイン」の「白黒」か、もし、機器に「グレー」の設定があるなら、「スーパーファイン」の「グレー」にするくらいが適切なのでしょう。

PDFファイル中の画像の解像度を調べる方法

スキャンしてそのままPDFにした画像の解像度(DPIとかPPIとか呼ばれるそれ)って、どうやって調べるか、案外知られていないようなので以下に書いておく。

Acrobat X Proでの画面メニュー構成で説明。

画面右端で「ツール」パネルウィンドウを出す。

「印刷工程」を選択。

「プリフライト」を開く。

「▼PDF解析」の分類の中の、「ページオブジェクトを一覧表示(オブジェクトのタイプ別)」を選択。

ウィンドウ右下の「解析」ボタンで実行する。

ツリー状に詳細が出てくるのでそれを見る。

pre-fright 600dpi

pre-fright 599dpi

600dpiで読み込んでも、600.0458ppiのページと、599.999ppiのページとがあるらしい。

換算誤差なのか、Adobeがものすごく厳密なのかは、よくわからない。

dpiとppiは概念が違うとか言われても、ここではスキャナの話題なのだから、同じ物と見なして差し支えないと思う。

コピー機のスキャナ機能を用いた自炊について

ハードウェア環境

RICOH ImageoNeoシリーズのコピー機、両面ADF対応スキャナ付き。
スペック値:35枚/分、600dpi、「文字(OCR用)」の設定で白黒2値。

マルチページPDF自動生成→イーサネットケーブルでWindows7環境のHDD上に作成した共有フォルダへ自動転送するように設定。

ソフトウェア環境

Adobe Acrobat X Proで読み込み、表表紙+本文+裏表紙の3ファイルを1つに合成、ゆがみ補正(行が斜めになっているページなどが自動補正される)、圧縮は「カラー/グレースケール」はJPEG、「白黒」はJBIG2(劣化なし)とし、「言語」を「日本語」に指定してOCRを行う。

サンプルとした雑誌(最終形態のファイル名)

ISSN1349-5119_『日本語の研究』08巻03号_日本語学会_2012-07_『国語学』通巻250号OCR.pdf

操作手順

『日本語の研究』は、A5サイズ。表紙が深緑に文字が黒で印刷されているので、表表紙・裏表紙だけは「濃度」を別に指定してスキャンせねばならない。

従って、濃度の設定を「最も薄い」に変更→表表紙をスキャン→裏表紙をスキャン→濃度の設定を「自動」に変更→本文をスキャンという手順となる。

ADFからのスキャンの場合、紙切れになるとそこで1つのPDFとして送信されるので、この操作で、3つのファイルとしてHDD上に受信されることとなる。これらの合成は、Adobe Acrobat X Proで行う。

HDDで受信したファイルのタイムスタンプとファイル名

2013/09/09 14:49 4,367,170 20130909142427805.pdf
2013/09/09 14:49 4,367,170 20130909142430268.pdf
2013/09/09 14:59 375,552,106 20130909143200892.pdf

受信したPDFデータの状態では、表紙(それぞれウラオモテの2ページ分、計4ページ)がそれぞれ4MB、2ファイルで8MB、本文は172ページで358MB、合計で366MBである。

スキャンに要する時間は、物理的なスキャンの後、イーサネットケーブル経由でHDDに保存が完了するまでの時間も含めて考えるとして、2+2+172=176ページについて概算で10分。

そうすると18ページ/分といった所のようである。
どうもコピー時のスペックを大幅に下回るのである。
これは、PDFの生成と送受信で時間がかかっているため。

RICOH ImageoNeoシリーズでのマルチページPDFの生成は、一度、コピー機内部のHDDに保存する形で行われてから、Windows7側のファイル受信用HDDに転送される。こちらは1000BaseTケーブルで接続しているが、体感的な実効速度は初期のADSL、つまりADSL8MB並みである。

総じての体感速度は、手元の旧式ScanSnapよりも高速である。
しかし、2013年秋現在最新のScanSnap iX500/FI-IX500(2012年11月30日発売)のスペックは、

である。

ScanSnap iX500fだと、白黒2値で600dpiの場合、両面25枚/分なのだから、50ページ/分となる。
グレースケール(8ビット256階調)で600dpiの場合、両面7枚/分なのだから、14ページ/分となる。

しかも、ScanSnapの場合は、OCRもほぼ同時に処理できるのである。
コピー機のADFを使った場合、OCRは後で別途、手動でやらねばならない。その分、手間と時間がかかる。
お金に余裕があるならば、やはりScanSnap iX500を購入すべきかもしれない。

手元の旧式ScanSnapよりもコピー機のスキャナ機能の方が優れている点は、フィード中に後の方の紙がナナメにずれて行く現象や、ジャムが、ほとんど起こらないという点と、A3やB4も、特殊なシートを使って合成しないでもスイスイスキャンできる点ですね。

この辺は、コピー機が巨大であるため、ローラーも巨大であり、ADFもほぼ水平に設定されていること、それら機構には「コピー機」としてのノウハウが最大限活かされているところでしょう。

あとですね…実は、女性ファッション誌や月刊雑誌などはA4サイズを超える物が多い。
一般には「A4変形版」の中で、特に横幅を広くした「A4ワイド」と呼ばれるやつ。

実は、これらファッション雑誌、女性誌、アニメ雑誌などの取り込みには、ScanSnapでは対応できない。
2012年秋発売の現行機種「ScanSnap iX500」の最大幅は360mm×216mmである。
ブラザー工業のADS-2500Wも、355.6mm×215.9mmが最大。

個人向けドキュメントスキャナは、歴代、どの機種でも、対応する横幅を増やしてこなかった。
ということは、つまり、出版社に遠慮しているんじゃないかな…

ScanSnapで頑張る人はこんなことしているみたいです。

ScanSnap SV600 FI-SV600 なら取り込めます。でも、ノドの処理がまだアレだしねぇ…。
PFUがもう少しノウハウを蓄積して、あと2世代くらい後の機種が出たら買っても良いかな、と思っています。

例えばご家庭が自営業(会計事務所とか建築事務所とか)で、既にコピー機があるのにスキャン機能を試したことがない人は「とりあえず、試しにやってみる」価値があると思う。

これから導入するかどうか…の検討の目安としては、

これらの条件を満たす場合は、中古のコピー機を検討してみるのも良いかと思う。

さて、手動で合成した176ページ分のPDFファイルについて、文書のプロパティをいじくる。

PDFの文書のプロパティ→詳細設定

PDFの文書のプロパティ→開き方

更に「スキャンされた PDF を最適化」で、ゆがみ補正とOCRをAcrobat X Proでかけた。

スキャンされた PDF を最適化の設定

環境はCore i5 3.80GHZ、メモリ32GB、OSはWindows7 64bit版。但しAcrobat X Proは32bit版のソフトウェアである。
これに要する時間は5分ほどであった。

最終的なファイルサイズは16,468,739、つまり15.7MBとなった。

実際の見た目は以下のような感じである。

表紙の中の目次もOCRに成功しているので、文字列の範囲選択ができている。

表紙の中の目次もOCRできた。

iPadのRetinaディスプレイとかで、どのようになるかはわからないが、文字情報として読むだけなら、まぁ、こんなもんであろう。

「検索可能な画像」としてOCRをかけた場合、画像そのままが表される。

200%表示。

200%表示

2400%表示。

2400%表示

これで実用に耐えられなくなった場合は、Adobe AcrobatのClearScreenでOCRしなおしてしまえば良い。

ClearScreenでOCRをかけた場合の200%表示。

ClearScreenでOCRをかけた場合の200%表示

ClearScreenでOCRをかけた場合の2400%表示。

ClearScreenでOCRをかけた場合の2400%表示

冊子裁断とページ捌きに1分。
約180ページ、A5版冊子のスキャン開始から加工前のPDF生成まで10分。
PDFを合成し、文書のプロパティをいじくるのに1分。
ページのゆがみ補正とOCR完了まで5分。
pdfにファイル名を付けるなど、最終仕上げに1分。

なんだかんだでA5版、約180ページの冊子1冊に18分かかる。つまり、10ページ/分

2013年秋時点での最新版ScanSnap iX500fだと、白黒2値で600dpiの場合、両面25枚/分なのだから、50ページ/分となる。
グレースケール(8ビット256階調)で600dpiの場合、両面7枚/分なのだから、14ページ/分となる。

白黒2値の勝負では完全な負け。
グレースケールだと、
テキパキやるのとノンビリやるのとで誤差の範囲に収まる感じかな?
いやいや、今挙げたのはA5での作業結果で10ページ/分なんだから、ScanSnap iX500fで挙げているA4での時間とそのまま比較するのは不公平ですね…。

やっぱり、A4までのスキャンについては、ScanSnap iX500fを買った方が良い…のか?

ところが、OCRの精度、「エクセレント」モードでの実用に足る実質的な最大読み取り枚数の問題などについて、ここに重要な指摘があるのを発見。う~ん…HDD容量なんてドンドン増えているんだから、未来を見据えてスキャンするなら「エクセレント」モードで行けないんじゃダメですよねぇ。更に、色の再現性に問題がある?という指摘がここに…。こりゃひどい。

それと、Amazonでは様々な問題点指摘されている。

こりゃ、ちょっと考え込んでしまいますね。

一方、コピー機のスキャナ機能の場合だと、以下のような感じです。

TWAINドライバ介してAcrobat側からコピー機のスキャナを動かした場合は、読み込み指令一発で、ゆがみ補正~OCRまで一気にできます。保存の時に、ファイル名を指定する手間がかかるけど。

ただし、64bit版Windowsでは、RICOHのTWAINドライバ(Ver3.x系列)とAcrobatX(正確にはAcrobat9の特定のリビジョン以降)の組み合わせは、WOW64で動かないんだよね…。

32bit版Windowsの環境でも、ブート当初からドライバの署名チェックを解除してあるOSでないとダメ。

そういうわけで、ドライバの署名チェックを解除した32bit版のWindowsVISTA+Acrobat8環境をスキャン専用に用意してある。
この環境は、セキュリティ上危険なので、普段は使わない。
でも、今更Acrobat8っていうのもどうかなぁ。OCRの性能が違ったりしないかな…と気になる所。

ドライバの署名チェックを解除するには、SetupReadyDriverPlusを使うのは危なっかしいので、管理者権限で立ち上げたコマンドプロンプトから
bcdedit /set {current} testsigning off
で再起動。

※Adobe製品のライセンスも、バージョンアップではない買い方(CSをバージョン一つ飛ばしで買って、間はAcrobatだけを単品で買って…というローテーション)をしておくと、案外、便利な時がありますね。

※XP環境も2014年4月一杯までは残しておく方針でいるから、XPでRICOHのTWAINドライバ(Ver3.x系列)を使えばちゃんと動くはずだけど、メモリ上限の問題があるので、きっと遅いだろう。

自炊作業の費用対効果を、ザックリ計算

以上を敷衍して単純に言えば、作業効率は1分10ページくらいですよ、ということになろうか…。
1時間で600ページ。一日8時間ぶっ通しで4800ページ。平日5日間ぶっ通しで2万4000ページ。

業者が1ページ単価1円、その他の送料・納品・原本廃棄などの手数料は別途…として、アルバイトを雇うとします。
週に5日で2万円がアルバイトの取り分で4000円が会社の取り分とでもしておきましょうか。

バイト君が一箇月間、フルタイムで働いたとして、5日で2万円×4週なので月収8万円ですねぇ…。

週に5日(40時間)で2万円なので、時給換算だと500円。
1時間で600ページやって100ページ分が会社の取り分ということになります。

時給500円って、2013年9月現在、一番低い県でも最低賃金は653円なので、労働基準法違反になってしまいますね。こりゃダメだ。

つまり、1ページ単価が1円では、自炊業者はどう逆立ちしても儲けが出ない、ということが明らかになりました。

単価が1ページ1.5円だと、1時間で600ページやって900円。300円分を会社が取って、バイト君は時給600円とすれば、これも労働基準法違反になってしまいますが、月収9万6000円。

単価が1ページ2円だと、1時間で600ページやって1200円。300円分を会社が取って、バイト君は時給900円とすれば月収14万4000円。

大都市ではなく、地方の都市部・市街区でもなく、本当に田んぼや畑だらけの田舎でフリーターを雇うなら、このくらいで、どうにか生活できそうです。将来は不安ですが。月給14万4000円だと、年収で172万8000円ですね。

これでは扶養控除の範囲を超えてしまいます。扶養の範囲内で働きたいパート労働者を複数雇うのが良いようです。

以上によって、

白黒2値600dpiでOCR付き(自動処理のみ。OCRミス修正非対応)で単価は最低でも2円/1ページ。

但し、送料、DVD納品、廃棄料金、グレースケールや800dpi以上の高解像度対応、カラー対応、タグ付け、その他諸費用は別途ですよ。

…という程度で、かつ、田舎に立地していて、被雇用者が非正規労働者で回すような状況でないと、自炊業者は事業として成立しないことがわかりました。

なんでこんな計算をしたのかって?

我々が自炊するということは、自分自身を時給換算すると幾らで労働させていることになるのか?を確認したかったのですよ。

上記の計算の結果、かなり効率良くやっても、自炊作業をしている作業者自身の時給は600円相当である、ということが確認できました。

富田メモの翻刻に疑義

書庫の整理をしていたら2007年5月1日『日本経済新聞』朝刊が出てきた。
これは「富田メモ」の検証結果を掲載したもの。

2007年5月1日『日本経済新聞』朝刊、21面(第14版)よりトリミングして抜粋。

##

以下、翻刻する。


5.20

山本未言及だ&

藤尾奧の―、中国

徳川とはした&

靖国 明治天皇のお決になっ

お気持ちを逸脱するのは

困る。松岡

いとして

靖国に干し

藤尾、奥野が

しらぬとは、

松岡、白取

松平宮司になって

参拝をやめた

ツクバ

山階藤麿は

-----------

靖国 中国 藤尾 奥の

明治天皇のお決め

になったのは(^趣旨が異るので)困る

松岡


私の翻刻で赤字にした部分を、日経では、それぞれ「て〔た〕」、「」、「は□いとして」としている。

」と「」とか、「」はまぁ、良いとして、問題は日経が「」としている部分である。これは「」であろう。

そうすると、「松岡<改行>白はよとして」と記載されていることとなる。

ありゃ?

この翻刻が「」になっている部分の「翻字」について、疑義を指摘した人がいるのかはよく調べていないので、私は知らない。

また、日経が挙げる他の傍証や、記事で紹介された“全体の文脈”からすると、たしかに日経が主張したように、先帝は何かしらについてご不快の念をお持ちだったのであろう。この問答が徳川義寛元侍従長(侍従職参与として4/28に初出仕)と、宮内庁長官との間での問答の可能性もあるにせよ、これは間違いないだろうと思う。

しかし、「この文面そのもの」では、“特定個人名”の直後に「よいとして」と記載されているようである。

ここの意味が、「白鳥はよいとして松岡は…」という意味なのか、「白鳥・松岡はよいとして」という意味なのか、「白鳥や松岡のような個別のことはさておき、」という意味なのかは慎重な検討を要するけれども。

ともあれ、「明治天皇がお決になったお気持ちを逸脱する」というのは、比重としては、A級合祀の問題よりも、現代の政治家が(当時の奥野国土庁長官の発言のように)政治的な発言でワサワサと騒ぎになるようなことを「困る」と重視してのことではないのか? A級合祀のことも色々あるけど、それはさておき、その他の多くの御霊に静かに安らかにして頂きたい、という点に重みがあるのではないか。そんな気もする。

そもそも帝意を忖度するようなことは僭越であるので、これ以上はあれこれ書かないが、とりあえず、「翻刻がおかしいのではないか?」、「改行位置も含めて考えると、多様な読み方があり得るかもしれない」ということだけ、指摘しておく。

CSSの優先順位でハマル

親切な説明なのでメモ。

CSSの優先順位 http://www.stylish-style.com/csstec/base/order.html

>*(全称セレクタ) 0ポイント
>p,h1 などのタグ 1ポイント
>.sample(classの場合)10ポイント
>#sample(IDの場合) 100ポイント

これ10年前の記事だもんなぁ。

加算点方式で、わけわかんなくなるという話。

その都度、Google大先生に聞くことにしていると、自分が全然進歩しないのがよくわかる。

でもさ。やっぱ、CSSって筋悪いよ。頭の中でHTMLとCSSとJavaScriptのレイヤーを作って組み立てて行くって人間的な仕事じゃないと思うの。

あと、CSSには関係ないけど、JavaScriptとかのフォームタグの中で、

のスコープとか全部グローバルとか、深く考え始めると急激に眠くなるので、昔から念のためIDとCLASSを両方とも同名で同一タグの中で作っておいて深追いしないことにしている。DOMのプロパティとかね、もうね…。

尊経閣文庫本土左日記@かづらき®

尊経閣文庫本『土左日記』を「かづらき®」フォントでやってみた。

改行位置とか字母とかは尊経閣文庫本の通りには再現させていない。

筆で書いた文字は左右にぶれさせて文字のフトコロに次の文字を埋め込むようにして、一行当たりに収まる文字数を圧縮して増やすのですが、それを上手く再現しているように思われます。この辺りは流石です。

ただ、個人的には、結果はどうもイマイチな感じ。
この違和感は何だろう?って考えたんですが、縦のベースラインが一直線だからのようです。
普通、筆で書いた文字は運筆の関係上、全体で行が右下に流れるようになります。

illustratorなどで、徹底的にいじくれば、それっぽさは出せると思うけど。

PDF版はこちら

をとこもすといふ日記といふ物を、ゝむなもして心みむとてするなり。

補色―赤と緑―

Ubuntu (9.10当時)で試した、Linux文化に於けるカラーユニバーサルデザインの実際。

「ディスク使用量の解析」の表示だが、色使いがAccessibility的な観点ではかなりマズイかも…と気になってチェックしてみた。

Giacomoさんの"Accessibility Color Wheel"を日本語訳した時に勉強したんだけど、

この両方とも、赤と緑の区別が困難なのよね…。

補色については日本の服の歴史(By ZIPANGU Co.,Ltd.)より「補色とグラデーション の色々」、「続 補色とグラデーション の色々」などを参照。

Ubuntu 9.10でのHDDの利用統計カラー版

以下は、元々IBMで開発され、今はEclipse Accessibility Tools Framework (ACTF)ProjectでやっているaDesigner Version: 2.0.0(=0.5.0相当)を使って第1色覚異常(1型色覚;Protanopia)で、視力0.5、水晶体透過率を40歳代に設定してロービジョン(Low Vision)をシミュレートした結果。

第1色覚異常(1型色覚;Protanopia)のシミュレーション結果

なお、第2色覚異常(2型色覚;Deuteranopia)で、視力0.5、水晶体透過率を40歳代に設定してロービジョン(Low Vision)をシミュレートした結果もほぼ同様の見た目だった。

「赤と緑の色合わせでは、同じような色で塗りつぶされているように見えるはず。」と思ったが、果たしてその通り。

そこで、各色毎に枠を黒で付けて、「違いが存在するのがチャンと判るように処理」しているわけですね…。

なるほど、そうか。

時刻表が見づらいと言う苦情は、「その色そのもの」に意味を持たせたこと。」が問題だったわけだけど、例えば特急はで囲み、準急はで囲んで、それらには色だけでなく枠線も付ける…という風にすれば回避できたわけですな…。

教材用にチャンとPDF化して取って置いた京都新聞2008年4月11日付けニュース。

京都新聞2008年4月11日付けニュース

教材用にチャンとPDF化して取って置いた朝日新聞2008年4月12日付けニュース。

朝日新聞2008年4月12日付けニュース

この報道を見て、「カラーユニバーサルデザインを持たせつつ、良い色使いを…って考え出すとキリがないなぁ、難しいなぁ…」って思っていたけど、チョットしたポイントさえ押さえておけば、キチンと判別可能になるわけですね。

とても勉強になった。

下は、カスペルスキーラボ、マルウェアマンスリーレポート2010年10月分より、Exploit.Win32.CVE-2010-2883.a の拡散の様子を示す地図。

カスペルスキーラボでの、赤と緑の使用

この図、なんか統計的に使えるかなぁと一瞬思ったんだけど、よく考えたらカスペルスキーそのものが普及している国と、そうでない国があるわけで、大前提の時点で偏りがあるデータということになります。

例えば、中国で感染している個体マシン数は、相当多いはずですが、中国にカスペルスキーのユーザがどのくらいいるのか?ということはわかりません。

更に、図で見るとロシアは真っ赤ですが、永久凍土の辺りにどのくらいユーザがいるのかと小一時間ry)。

ということで、各国の面積と人口も考えねばなりません。

でも、北朝鮮が真っ白とか、北方領土の色は緑だから日本に含められているらしいという芸の細かさは、興味深いですね。

リトアニアは真っ赤だけど、ラトビアとエストニアは緑ですな。バルト三国のうちでも、ロシア企業の食い込み具合には差があるようです。

あと、グリーンランドの面積って、地図(これはメルカトル図法かな?)で視覚的に把握しようとすると、かなりの誤差というか、誤解が生じそうですね。

ドキュメントトーカ 日本語音声合成エンジン Windows 7対応版を入手

「ドキュメントトーカ」はクリエートシステム開発株式会社の商標で、合成エンジンは、富士通株式会社の日本語合成技術を使用している。

財団法人日本障害者リハビリテーション協会 情報センター内 DAISY研究センターを介して、MSからの無償供与を受けた。

同封されてきた案内文では「ドキュメントトーカ Plus」はインストールするな、と書かれていた。
つまり、マイクロソフト社 Windows SAPI(SAPI4,SAPI5)に対応した日本語音声合成エンジンのみについて使用許可を出すのであって、その操作用アプリケーション(要するに読み上げソフト=スクリーンリーダー)「ドキュメントトーカ Plus」は使っちゃダメということのようである。

SAPI用日本語音声合成エンジンで、Windows 7対応版を入手できたというのが大きい。
SAPIはVista以降とXPとで大幅に仕様が異なるからである。

同封されてきた案内文には、用途はマルチメディア DAISY のファイル作成するために限るぞ、と書いてあった。
DAISYファイルとはマルチメディア用のxml形式フォーマットのファイルらしい。

ネット上で無償配布されている「DAISY Translator日本語版」というWord用アドインソフトで作成できるようだ。
直接mp3とかflvとかに落とし込むような使い方はダメよ、と縛りを受けていることになる。
今回の無償配布は、DAISY形式ファイルの普及促進が狙いなのかもしれない。
(※これが現在、業界提唱規格の段階なのか、JIS-TRとかになっているのか、ISO規格で定義されているのか…などのファイルフォーマット形式の概要や、作成ソフトと再生ソフトの相互関係の全体像をよく理解できていないので、誤解があるかもしれない。要研究。)

が、スクリーンリーダーを入れてはいけないという制限を付けられて、再生の状況や再現性の確認はできるのだろうか…。
まだ試していないので、ちと、不安である。
でもMS純正のTTSAPPもSAPI入れれば自動で入るし、別に問題ない…の…か…なぁ?

CD-ROMに点字の付いた透明ラベルが貼られている。この透明シール、どうやって作るのだろう?

DocumentTalker Windows7対応版のCD-ROM

現物の大切さ

国文屋は資料を重んずる。歴史屋は、さらに史料を重んずる。

異分野の人が混ざる研究会などに参加して痛感することは、国文学屋と歴史屋とのスタンスの大きな違いである。

歴史屋は、とにかくモノに徹して見る。
国文屋から見ると、悪い言い方かも知れないが、即物的すぎるんじゃないの?とも思えるほどの視線。

国文屋は、資料を出発点として、羽ばたく。
ひょっとすると、歴史屋は国文屋を、「良いところまで行っているんだけど、都合の良いように脳内補完するんだよね、アイツラ…」と思っているかも知れない。

そういうわけで、歴史屋にツッコミを入れられるのは、大変勉強になる。

ただ、現物の持つ「迫力」を重視する点では、一致していますね。
この二つの学問は、日本国内の学の枠組の中では「頭の固い連中」の双璧かもしれません。

たとえば、下は、1986年6月4日の天安門事件の関連記事。

神奈川新聞、1986年6月7日水曜日 朝刊1面。25年前の新聞である。

モノをため込む高校生の俺。こういうのは、性格ですねぇ…。

関連記事の多さで、当時どれだけ社会的に注目された衝撃的な事件であったかがわかる。

神奈川新聞、1986年6月7日水曜日 朝刊1面の上半分

神奈川新聞、1986年6月7日水曜日 朝刊1面の下半分

私個人は、今から考えると、当時の中国の立ち位置から考えると、やむを得なかった措置ではないか、という風に感じる面もあります。
ゴルビー後のCISがバラバラで、地域によってはいまだに紛争が続いているところから逆算すると、あのとき、性急に民主化運動に譲歩していたとしたら、今の飛ぶ鳥を落とす勢いの中国は存在しなかったのではないか、ということです。

いくつか、興味深い点を見ておきましょう。


ミッド式魔法陣に色を付けてみた。背景透明化のPNG形式、壁紙1920*1200に使えるだろう。

一応、デジタル編集の講義用教材(初歩のレイヤー操作、色域での範囲指定、選択範囲の逆転)の仕込みである。

他に一文字も講義ノートができていない科目もあるが、ボチボチやって行くしかない。憂鬱である。

ミッドチルダ式召喚魔法陣

Thanks for 晨弥響氏「停滞前線異常無し!」,竜飛翔氏 "Dragonflier".

死番虫との闘い

6月上旬、シバンムシ大発生。どうもジンサンシバンムシ(人参死番虫)ではなく、タバコシバンムシのようだ。

いまだかつて、和本管理でこのような失態はしたことが無かったので、恐慌状態に陥る。

書庫の、樟脳山盛り&木炭で湿度管理している和本収納ボックスを総ざらえ。

こちらは被害一切なし。どうやら、壊滅的な被害ではないようだ。一安心。

真夏日よりの続く部屋の中で、デスク脇に一時的に置いていた和本の密閉袋が空いていたため、そこから出たのか?

ところがそれを樟脳山盛りで密閉してもダメ。既に他に移っている模様。発生源を特定できず。

二週間後に、ようやく台所脇に放置していた、廃棄予定の冬物スーツ3着の固まりに巣作りしているのを発見。

ウールだもんなぁ。そりゃ住みやすいでしょうよ。

これはマズイと。すぐに捨て、(喉を痛めるのであまり好きでない)ピレスロイド系薬剤で部屋を丸ごと燻蒸したが、まだ出る。

巣を突き止められないと、撲滅は不可能だ。どうする?

寝室でも見かけるようになったので、畳でないことをドキドキしながら祈るばかり。

大王様から「パソコンのディスプレイに飛びついてムカツクのよっ!」と不満が出た(それ以外の「気味が悪い」とか「不衛生」とかの言い方をしない所がどうもオトメゴコロを失っていないかぁ?という気もするが……まぁ、「慣れ」なんでしょう。)ので、差しあたり、7月はフマキラーの「コバエ激取れ」でお茶を濁す。

「コバエ激取れ」は結構、引っかかるようだ。時々、木酢液を足してやると良い。
なお、アース製薬の「コバエがホイホイ」はゲルがすぐに乾燥してしまって吸着しなくなるのでダメだった。

次いで、「ごきぶりホイホイ」と、桐灰の「ハエ取りリボン」、「コバエ激取れ」で、トラップモニタリング調査を開始。

ハエ取り紙

「タバコシバンムシ用フェロモントラップ」と「コバエ激取れ」

蠅採りリボンは、台所の蛍光灯直下に横に渡して誘因捕捉するのがコツ。なんだか羽アリもくっついていますな…。

物事は徹底してやるタイプなので、実は、電撃殺虫器を買おうか?と悩んだ。
屋内配線図から案配すると、部屋当たりの電圧が足りないことに気づいて断念。電子レンジがあるからなぁ…。

ハエ取り紙拡大

念のため楽天で「タバコシバンムシ用フェロモントラップ」も調達。

左側の丸いの(本当は上蓋の両面テープに貼り付ける)が女性フェロモンで、右の差し込み型のゴム材が男性フェロモンなんだそうな。

タバコシバンムシ用フェロモントラップ内部構造

徐々に捕捉中心位置を詰めて行き、8月頭に入って、ようやく巣を見つけた。

パン粉の袋と乾燥椎茸だった…。

両方とも、丸ごとビニールで密封して破棄。

国立国会図書館での、トラップモニタリング調査の講演会を聞きに行ったのが、まさか自宅で役に立つとは思わなかった。

どうやらひとまず勝利したようだが、来年の6月の様子で、更に詰めが必要かもしれない。

タバコシバンムシ拡大図

印刷技術と国力の話―紙幣を例として―

ここに書いた。

ColorIQ Test

自分自身の色彩感覚をチェックするオンラインツール

下手に数万円~数十万円の金出さないでも、素人的にはこの程度でカラー調整できれば、それで良いような気もします。

(Windowsのコンパネに出るAdobe Gamma―下図参照―は、CRT用ツールであり、液晶ディスプレイは本来的には想定外らしいですし…)

Windowsのコンパネ

もちろん、テスト前に自分のモニタ環境をある程度、整備してから行わないと、色の違いが判断できない。

逆に言えば、完全正解=0点を出せるようにするには、「自分のモニタ環境の調整」をして、微妙な色の違いがわかるように手動調整すれば良い。

つまり、「無料で、自分のモニタ環境の調整をするツール」としても使えるはず。

がんばって調整して0点を出した結果。

モニタはMDT242WG。

調整は

こんな感じの設定。

以下、WinXP Pro SP3 + Opera9.63でクリップボード取得し、そのままPhotoshopCS2へ貼り付け。

プロファイルをAdobe RGB(1998)を埋め込みしてtifで保存(zip圧縮あり)、レイヤーは統合し、チャンネル保存もナシにしたが、それだとOperaでもIE7でも画像が表示されない。仕方なく可逆圧縮であるPNGでインターレスをONにして保存したのを以下に貼った()。

(以下のl掲示画像は、クリックすると、別タグまたは別ウィンドウで拡大画像が表示できます。)

ColorIQ Test作業前

上のように、一番左の色枠~一番右の色枠の間を、綺麗なグラデーションになると自分で判断して、マウスでドラッグ&ドロップで移動し、それが完了したら「Score Test」ボタンを押す。

(以下のl掲示画像は、クリックすると、別タグまたは別ウィンドウで拡大画像が表示できます。)

ColorIQ Test作業後

並べ替えミスがあると、その位置が縦棒グラフで表示され、得点が出ます。
縦棒グラフが出ずに、0点扱いだと、Perfectと表示され、最高得点になります。
Perfectにならなかった場合は、戻るボタンで戻って、ダメな所だけを修正してから、もう一度「Score Test」ボタンを押してチャレンジしてみましょう。

いろんなColorプロファイル 嘆息

これまた色彩関係の件。

マイクロソフトの「Microsoft Color Control Panel Applet for Windows XP」を試してみた結果

色の一致、ってかなり難しいことなんですね…。

つーか、ミヤハン氏の言うところのMSが取る「sRGB帝国」政策って、どうにかならんもんかね。

この事実を知って、「Windowsダメ過ぎ」と嘆息。

カラープロファイルに対応していないウェブブラウザ

現在、

などで勉強中。

以下の画像はミヤハン氏の「いま見えてる色が本当に正しいかどうか考えたことはありますか?」をWinXP Pro SP3で見たところ。

IE7で見た場合。

IE7で見た場合。中央花は色が薄く見え、右端の花が紫に見える。

FF2で見た場合。

FF2で見た場合。中央花は色が薄く見え、右端の花が紫に見える。

Opera9.63で見た場合。

Opera9.63で見た場合。中央花は色が薄く見え、右端の花が紫に見える。

Safari3.2.2で見た場合。

Safari3.2.2で見た場合。3つとも同じ色に見える。

やばいよ。やばすぎる…。恐るべし。カラープロファイル。

おっぱい研究で有名なhirax.netでも、色彩関係の記事がいっぱいあった。
まぁ、仕事に直結したネタだから、存在する場合は徹底的だろうし、書かないなから一切書かないかのどっちかになるんだろうけど。
変人具合も詳細な考証も、伊達に旧帝大出ているわけじゃないな…。

本田雅一氏執筆(2007/03/06 01:46)の記事「Windows Vistaの新色管理システム「WCS」とは」 をザックリまとめると、

Windows XPでは、どうあがいてもOSそのものはICMを通してICCプロファイルを読み込んで、sRGBの色空間に展開する仕組み(つまり、ICMがタコってことなのかな?)で、対応した各ソフトウェアレベルでの対応をするしかないようです。

んで、Windows VistaではICMの代わりにWCS(Windows Color System)というのをOSに組み込んで、それがOSそのものの機能として実装されたようです。
ところが、Windows VistaのOSに添付されている一部のソフトウェア以外は、まだWCSに対応させたバージョンを出していない。
というか、カラープロファイルはバイナリファイルであるICCプロファイルとはフォーマットが異なるWCS独自のXMLファイルとして記述されている。
だから、Adobe RGBのICCをOSシステムがそのまま読み込んで利用できるようにすれば良いじゃん、という風にはならないみたい。
で、結局、既に普及しているICCプロファイルとは別に、MS様独自のWCSにも対応するようにソフトウェアを各ソフトハウスが作り込んできてくれないと、やはりsRGBの色空間で表現される。

ということみたい。

この「MS様独自のWCS」ってのは、やっぱ、特許権紛争を避けるための、政治的な理由での事前防衛なんでしょうかねぇ…。
ユーザがこういうのに振り回されるのはすげ~イヤなんだけどなぁ。

でも、動画や音楽コンテンツで、色んなコーデック、色んなコンテナが乱立しているようなものと考えれば、まぁ、似たような話と言えなくもないのかもしれない(←否定辞の多用で、自分でも何言っているのかわからん)。

昨日、ジュンク堂でカラーマネジメント関係の本をGet。
これからもう少し突っ込んで勉強するつもり。

いろんな色覚の疑似体験ツール類

色彩とウェブアクセシビリティ "Accessibility Color Wheel"の日本語版

2008年10月30日、イタリアのGiacomo Mazzocatoさんと連絡を取り合って、"Accessibility Color Wheel"の日本語版がVer.Upされました。

"Accessibility Color Wheel"日本語版はGiacomoさんのページに掲載してあります。

これはWCAG 2(Web Content Accessibility Guidelines 2.0)→日本語訳と、WCAG 1(Web Content Accessibility Guidelines 1.0)→日本語訳の掲げる規準に対応した全く新しいバージョンです。

日本語版の初版は2008年9月27日ですが、今回のバージョンアップに対応した日本語訳も、Giacomoさんからの連絡で、私が行いました。

なお、日本語訳の明かな間違いや、より分かり易い翻訳の案をお持ちの方は、私宛にメールでご連絡下さい。

特に、"brightness"の訳出は、私自身、かなり困惑しています。
液晶ディスプレイなどの画面の明るさを言う場合、専門用語的には「輝度」とすべきなのでしょうが、生活語彙としては「明度」の方が理解しやすかろうと思うのです。
「輝度」と言うと、どちらかと言えば"luminance"のイメージではないでしょうか…。

ところがGiacomoさんからはW3Cの用語定義に忠実にしろという事前の注文があり、INSTACによるWCAG 2.0 ラストコール・ワーキングドラフトの訳出案では「輝度コントラスト比(luminosity contrast ratio)」とあります。

で、当のWCAG 2では"relative luminance"(相対輝度)を"the relative brightness of any point in a colorspace"云々と説明しており、"brightness"そのものは"luminance"を支える概念用語として位置づけられているようです。

でも、Giacomoさんは"Contrast / brightness difference"って書いているし…。

う~ん…現状の日本語訳でホントに良いのかなぁ…。困っています。

ブラウザによる画像レンダリングの違い

元画像はこのpngファイル(約2.6MB)。ソースコードは以下の通り。実際に試してみる

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN"
"http://www.w3.org/TR/html4/strict.dtd">
<html lang="ja">
<head>
<meta http-equiv="content-type" content="text/html; charset=utf-8">
<meta http-equiv="content-language" content="ja">
<meta http-equiv="content-style-type" content="text/css">
<meta http-equiv="content-script-type" content="text/javascript">
<title>DOMによる、オプション付きimgタグの生成と埋め込み by 古籏DOM本</title>
<!-- http://www.amazon.co.jp/exec/obidos/ASIN/4774133264
古籏一浩著『Web標準テキスト(1) DOM Scripting』(技術評論社 2008/1/12)
単行本(ソフトカバー): 448ページ
ISBN-10: 4774133264
ISBN-13: 978-4774133263 -->
<script type="text/javascript">
<!--
function EmbedTag(){
// 以前の操作で付け加えられていたTagを事前にお掃除。
var DelTag = document.getElementById("BookPage");
while (DelTag.childNodes.length > 0){
DelTag.removeChild(DelTag.firstChild);
}

// 以下がここで新規にTagを生成するメイン部分。
var imgTag = document.createElement("img");
imgTag.setAttribute("src", "KokutainoHongi00.png");
imgTag.setAttribute("width", "800");
imgTag.setAttribute("height", "600");
imgTag.setAttribute("alt", "表紙alt");
imgTag.setAttribute("title", "表紙title");
document.getElementById("BookPage").appendChild(imgTag);
}
// -->
</script>
</head>

<body onload="EmbedTag();">
<div id="BookPage" class="Leaf001"></div>
</body>
</html>

IE7(7.0.5730.11)の場合

FireFox2.0.0.20の場合

IE7(7.0.5730.11)の場合 汚くて何が何だか読めない。

FireFox2.0.0.20の場合 汚くて何が何だか読めない。

Safari3.1.2(525.27.1)の場合

Opera9.63(10476)の場合

Safari3.1.2(525.27.1)の場合 きれいに縮小して表示される。

Opera9.63(10476)の場合 きれいに縮小して表示される。

WindowsでのUnicode合成文字の処理とUnicode script processor(USP10.dll)について

USP10.dllが、デバナガリやアラビア語などの合成文字を操作しているみたいです。その動作試験。

印刷工場の現場(平河工業社)

以前、工場見学をさせて頂いたときのデジカメ写真。

辻善之助 『大日本年表』の解体による書籍造本の観察

名著、辻善之助 『大日本年表』をバラして、昔の職人魂とその誇りを、造本に観察する。

なお、『大日本年表』の全スキャン結果はpdfファイルとしてftpエリア(ftp://www.tanimoto.to/)に置いてあります。

レッツゴー、国立公文書館

国立公文書館の想い出。利用法など。

『漢語大詞典』光碟繁體單機3.0版をなるべく便利に使う方法

『漢語大詞典』Ver3.0を、CD-ROM挿入なしで使う方法を模索しました。

図書用のCコードを合成するExcelファイル

プルダウンメニューの連動のお勉強として作った。(Book_C_code_Excel.zip

大抵は、ビジネスマン向けの説明になっていて、商品名と商品コードが例になるんだよね・・・。

でも、文学部の教員としては、学生にまだ実感がわかない例だと、学生の食いつきが悪くなるから困るわけです。

ということで、司書課程を履修している学生向け。

技術メモ:PDF出力時にフォントエンベッド指定で出力時エラーが出る場合

OffendingCommandは、テキスト部分に制御コードと見なされるデータが入っている場合に出るエラーのようである。以下のlogでbegincidrangeが出ているのは、この文書がたまたま縦書きだったから。

「制御コードと見なされるデータ」と言えば、半角カタカナ、一見するとスペースに見えるコントロールコードなどが思い浮かぶところだが、UnicodeのExt.B領域の文字列も、これに引っかかる場合がある。

しかし、UnicodeのExt.B領域であっても、引っかからないものもあるので、エラーの原因を探るときにやりづらい面がある。

要するに、SJISデータの変換で、2バイト文字のバイト列中で、2バイト目が0x00~0x7fが混じっていたりすると一文字の途中で分断されて文字化けすることがある()のと同じような問題みたい。

%%[ ProductName: Distiller ]%%
%%[Page: 1]%%
%%[Page: 2]%%
%%[Page: 3]%%
%%[ Error: rangecheck; OffendingCommand: begincidrange ]%%

Stack:
3


%%[ Flushing: rest of job (to end-of-file) will be ignored ]%%
%%[ Warning: PostScript error. No PDF file produced. ] %%

特にSJIS日本で円記号と定義されている"\"(0x5c)が2バイト目に来る文字のことが、よく話題になる。その、いわゆる「ダメ文字」は以下の通り。

ソЫⅨ噂浬欺圭構蚕十申曾箪貼能表暴予禄兔喀媾彌拿杤歃濬畚秉綵臀藹觸軆鐔饅鷭

この他にも、2バイト目が0x7cの文字も注意が必要。

国書基本データベースの出力をCSV形式に整形するPerlスクリプト

2006年末に、「日本古典籍総合目録」に統合・拡張され、「国書基本データベース」はサービスが停止されました。下記スクリプトは、2007年以降の「日本古典籍総合目録」には対応していません。

拙稿「「国書基本データベース」の標題要素文字列」
(相田満編『標題文芸(参)』 日本学術振興会科研費 平成14-16年度 萌芽研究[文学](課題番号14651078)、「和漢古典籍における「標題文芸」の基礎的研究」報告書 国文学研究資料館 2005/03 pp.1-77(左))を書くときに使用したスクリプト。

以下のようなフィールド数が不定のデータで、なおかつ巨大なファイル(合計約80MB)を、項目数の整ったCSVに整形するのはとても面倒です。

WORK[172623]
【書名】源氏物語抄(げんじものがたりしょう) K 5
【巻冊】五四冊?
【分類】注釈
【著者】
[1] 中院/通村(なかのいん/みちむら)
【著作種別】J
WORK[172601]
【書名】源氏物語抄(げんじものがたりしょう) K 3
【巻冊】二冊
【別書名】
[1] 一滴抄(いってきしょう)
[2] 一滴集(いってきしゅう)
[3] 源氏一滴抄(げんじいってきしょう)
【分類】注釈
【著者】
[1] 正徹(しょうてつ)
【成立】永享一二
【著作種別】J
WORK[172598]
【書名】源氏物語抄(げんじものがたりしょう) K 2
【巻冊】二〇巻二〇冊
【別書名】
[1] 源氏抄(げんじしょう)
[2] 源氏二十巻抄(げんじにじっかんしょう)
[3] 源氏物語称名院抄(げんじものがたりしょうみょういんしょう)
[4] 源流臨江抄(げんりゅうりんこうしょう)
[5] 紹巴抄(じょうはしょう)
[6] 源氏物語紹巴抄(げんじものがたりじょうはしょう)
[7] 水源紫明抄(すいげんしめいしょう)
【分類】注釈
【著者】
[1] 里村/紹巴(さとむら/じょうは)[紹巴(じょうは)
【成立】永禄六頃
【著作種別】J
WORK[172587]
【書名】源氏物語抄(げんじものがたりしょう) K 1
【巻冊】一冊
【別書名】
[1] 夕顔(ゆうがお)
【分類】注釈
【著者】
[1] 荒木田/守武(あらきだ/もりたけ)
【著作注記】〈般〉神都沿革史料目録による。
【著作種別】J

そこで、以下のようなスクリプト。
※別書名はその個数だけ知りたかったので、最後のものだけを取得する設計になっている。

出力結果は以下の通り。

WORK,【書名】,【巻冊】,【別書名】,【分類】,【成立】,【著作種別】,【著作注記】,【著者】,【角書】,【旧書名】,【親著作】,【叢書】,【子著作】,【叢書巻号】
(中略)
[172623],源氏物語抄(げんじものがたりしょう) K 5,五四冊?,,注釈,,J,, [1] 中院/通村(なかのいん/みちむら)
[172601],源氏物語抄(げんじものがたりしょう) K 3,二冊, [3] 源氏一滴抄(げんじいってきしょう),注釈,永享一二,J,, [1] 正徹(しょうてつ)
[172598],源氏物語抄(げんじものがたりしょう) K 2,二〇巻二〇冊, [7] 水源紫明抄(すいげんしめいしょう),注釈,永禄六頃,J,, [1] 里村/紹巴(さとむら/じょうは)[紹巴(じょうは)
[172587],源氏物語抄(げんじものがたりしょう) K 1,一冊, [1] 夕顔(ゆうがお),注釈,,J,〈般〉神都沿革史料目録による。, [1] 荒木田/守武(あらきだ/もりたけ)

補足:文字コードをSJISに変換するのはnkf32(いつの間にかUnicode対応していたのね)を使って、batで

nkf32 -s 歌学.html >> g.txt
nkf32 -s 歌合.html >> g.txt
nkf32 -s 歌集.html >> g.txt

などとすれば良い。

nkf32 -s *.html >> g.txt

でも行けるかもしれない。

あと、タグなどの剥ぎ取りはHTML2txt Converterでもある程度はできるが、sed(色々あるけど例えばBruce.版)を使って

s/作者へ//g
/Integrated KOTENSEKI catalog database/d
/【ホームページ】/d
/【他のデータベース】/d
/【国書基本DB】/d
/意見収集/d
/【検索結果】/d
/件」見つかりました。/d
# cut html tag & xml end tag
s/<[^>]*>//g

などとすれば良いはず。

XMLを用いた『土左日記』字母データベース

TOSANEWが縦書き対応版、TOSAOLDは横書き版。

両方をローカル閲覧用にアーカイヴしたもののダウンロードはこれ(TOSAXML.LZH)112kb。

=============================================================================
【ソフト名】XMLを用いた『土左日記』字母データベース
【登 録 名】TOSAXML.LZH
【著作権者】谷本玲大
【動作確認】Win98/2000+IE5.01,IE5.5
【作成月日】2000/09/10
【扱 い】フリーソフトウェア
【再 配 布】ファイル名を含むアーカイヴ原態維持が条件。著作権保持、無保証。
=============================================================================
【補足説明】

■概要
『土左日記』の字母区分データベース。
本文データは渋谷栄一氏(http://www.takachiho.ac.jp/~eshibuya/)の公開している
「定家本『土左日記』字母テキストデータベース」を元に、影印と読み合わせつつ修正
を加えたもの。
表示用に、Nowral氏(http://homepage3.nifty.com/Nowral/)作成のルーチンを一部、
使用させて頂いた。

■目的と仕様
コンピュータを国文学研究の道具として使うためには、変体仮名を含めた様々な字形
を表現し、かつ、ある程度は原本の改行や字の割り付け組版を含む表示をする機能が
用意される事が望ましい。

そこで、XML文書による変体仮名本文作成と、JavaScriptによってXML文書検索ツール
作成を行なった。

この『土左日記』データベースの特徴は以下の通りである。

●字母・よみがな・変体仮名字形の三種のレベルで検索できる。
●XML文書の表示は漢字・かな・変体仮名のすべてを文字鏡フォントで行なう。
(文字鏡フォントをインストールしていないと本データベースは閲覧できない)。
●検索結果を、(横書きではあるが、)原本の体裁に比較的近い「字配りの位置」
で表示可能である。
●これによって、一字索引の機能を超えて定家本『土左日記』における定家仮名
遣い使用の実態調査が可能である。小松英雄氏、大野晋氏らによって研究が深め
られてきた「定家仮名遣い」の実態を検討するためのツールとして有用であろう。

■ファイル内容

+-- TOSANEW\
| +-- index.html 600 00-09-05 1:00 メニュー
| +-- search.html 3,111 00-09-05 1:00 検索用ページ
| +-- TOSA.XML 731,667 00-09-05 1:00 本文ファイル
| +-- TOSA.XSL 14,843 00-09-05 1:00 整形ファイル
| +-- TOSA.CSS 43 00-09-05 1:00 縦書き設定
|
+-- TOSAOLD\
+-- index.html 600 00-07-03 1:00 メニュー
+-- search.html 7,723 00-07-03 1:00 検索用ページ
+-- tosa.dtd 818,348 00-07-03 1:00 文書構造設定
+-- tosa.xml 1,589 00-07-03 1:00 本文ファイル
+-- tosa.xsl 493 00-07-03 1:00 整形ファイル

■必要システム
検索にはJavaScriptが有効になっている必要がある。
TOSAOLDディレクトリのものはIE5.01以上で動作確認済み。
TOSANEWディレクトリのものはIE5.5以上でないと動作しない。
両方ともNetscapeでは動作しない。
閲覧には別途、文字鏡フォントが必須である。

■来歴
本データベースは、1999年度・東京外国語大学アジア・アフリカ言語文化研究所
短期共同研究員として、同研究所・芝野耕司教授の指導のもとで行った「(共同
研究)XMLによるタグ付けを用いた『新撰萬葉集』伝本の数量的比較研究」と、
国立国語研究所情報資料研究部電子計算機システム開発研究室において行なった、
特別推進研究サブテーマ(3)「新聞のJIS外字に関する数量的研究」の成果を元に
しており、概略については既に「XMLによるタグ付けを用いた古典籍の字彙DBに
ついて~伝本の性質を把握する補助手段として~」として情報知識学会人文・社
会科学系部会主催 第13回 歴史研究と電算機利用ワークショップ(2000/05/13)
にて口頭発表を行なっている。
拙著(漢字文献情報処理研究会編・共著)『電脳国文学』(好文出版)での紹介
では紙幅の関係上、簡単な内容紹介に留めたが、技術的側面と国語・国文学的な
側面での詳細な報告は、それぞれ別稿を用意したいと考えている(2000/09記)。
…と書いてから放っておいて既に4年経つわけで…(2004/08記)

■補足
なお、XMLについては他に、拙著(文字鏡研究会編・共著)『パソコン悠悠漢字
術2001』(紀伊國屋書店)にも簡単なサンプルを掲げた。併せて参照されたい。
=============================================================================
:End Of Readme


[Go to top page]

copyright 2009~ 谷本玲大
http://www.tanimoto.to/