目次へ移動

自然言語処理関係

もくじ

目次おわり。

「接続」の諺文(訓民正音)表記について

翻訳エンジンによって、「接続」は「접속」と「연결」の表記が出てくる。
逆変換をかけると、翻訳エンジンによっては、どちらも「連結」と出てくる場合もある。興味深い。
翻訳エンジンが、中間言語として英語を挟んでいるせいなのかもなぁ。

「접속」は以前作ったHangul Romanizerで試してみると、jeob sogと読むらしい(たぶん)。
ko.wikipedia.orgの記事では3ページ分あり、「互いに突き合わせてあること」という意味を持つ言葉だそうである。

「연결」はyeon gyeorと読むらしい(たぶん)。
ko.wikipedia.orgで18,158件ヒット。インターネット関連用語では、圧倒的に、こちらが優勢なようだ。

※学生に対しては「レポートはWikipediaは使用不可。使ったらその時点で単位不可。」で統一しているが、どのような場面で、どのような使い方をすれば良いのかをわかっている限りに於いては、役に立つのであるナ。

これはコネクション(connections)とアクセス(access)の差なんだろうか。
HTTP persistent connectionやHTTPS connectionと言うが、HTTP basic access authenticationという言い方もある。
持続的な接続はコネクションなのかな…。
コネクションは4層目で、セッションは5層目とな。OSI 7階層モデルってなにそれおいしいの?
Windowsには「Remote Access Auto Connection Manager サービス」ってのがあって、何が何だかわからん。

故実訓みと百姓読み

厚生労働省のサイトに「疾病、傷害及び死因の統計分類」というのがある。
そこのアドレスは「http://www.mhlw.go.jp/toukei/sippei/」である。
「sippei」とあるのだから「シッペイ」である。

ところが、そのHTMLの中程の見出し「3.疾病分類表」に置かれている
Excelファイル「二 疾病分類表」のアドレスは「http://www.mhlw.go.jp/toukei/sippei/xls/situbyou.xls」である。
「situbyou」とあるのだから「シツビョウ」である。

厚労省の行政の現場では、どちらで訓むのがスタンダードなのだろう?
あるいは、両方に訓むから、わざと違う表記にして(官僚的な対応として)バランスをとったのかもしれない。
国会議事録や省内の有識者会議の議事録では、漢字で表記されてしまっているだろうから、ヨミを知りたい場合はインターネット中継などで国会の答弁を見つけ出して確認するしかないなぁ。

臨床の現場では、また違ったりするのだろうか…。
お医者さんに聞いてみれば良いのかな。

ちなみに「有職故実」という単語の故実訓みは「ユウショクコジツ」なんだそうだ。
「ユウソクコジツ」ではないんだって。宮崎和廣先生に教えて貰った。

あと、中国の正史などの文中にある「百姓」を訓むときには「ヒャクセイ」であって「ヒャクショウ」ではない。
その場合、意味も、「農業従事者」に限定的した意味ではなく、「人民・国民たち」という程度の意味として解釈せねばならない。

発音付きの文例一覧

busuuというサービスらしい。登録ユーザ同士で相互に教え合う仕組み。

そのサイトに文例一覧があって、音声読み上げもする。

http://www.busuu.com/ja/d/dictionary

単漢字への自動ピンイン付与ツール

学生から

センセーにWordでピンインを振り仮名として付ける方法を授業で教えて貰ったので、後輩に教えたら「できない」と言われた。

という相談への対応で、「ピンイン付与ツール」を作った。→Add Pīnyīn Tool(Ver1.00 2014-02-14)。

「どうして大学ではできるのに、自宅のパソコンではきないのか?」を学生に口頭で説明して理解させるのはとても大変だから、下に書いた。知りたければ、読んでみて下さい。

目次へ戻る

Windowsの多言語処理機能についての説明

Windowsの多言語処理機能は、MUIとLIPとAppLocale UtilityとOffice Language Packの4つに分かれる。

マイクロソフトの公式見解では、MUIとLIPとOffice Language Packの3つである。

以下、説明はとても長い。各三行で、最初にまとめ。

【MUI】Windows全体を外国語メニューにする(無料だが、上位バージョンのOSのみ導入可。)

【LIP】MicrosoftOfficeを(マイナー言語だけだが)外国語対応にする(無料。OSのエディションは何でも良い。)

【アプロケール】日本語Windowsで外国語メニューのソフトを文字化けさせずに使う(無料。OSのエディションは何でも良い。)

【中文IME】ピンインで中国語入力をしたい場合は、中文IMEを入れる(無料。OSのエディションは何でも良い。)

【Office Language Pack】WordやExcelでの外国語入力・校正支援を充実させる(有料。OSのエディションは何でも良い。)

MUIについて

MUIとは、Multilingual User Interface Pack (MUI)のことで、「ランゲージパック」である。

通称「言語パック」とか、「Ultimate Extra Language Packs」とか呼ぶ場合もある。

但し、OSそのものがUltimate エディションとか EnterpriseエディションとかProfessionalエディションとかの上位バージョンのOSでなければ使用できない。OSがこれらに相当する場合は、Windows Updateや、Microsoft ローカル言語プログラム の Web サイトから無料でダウンロードできる。

StandardやBusinessやHome EditionやStarterやHomePremiumなどの廉価なエディションではインストールできないので注意。

なお、家電量販店で売っているパソコンの標準的なOSはHomePremiumである。

これは、どんな機能か?

例えばWindows 7 Multilingual User Interface Pack (MUI)を入れると、「Windowsのユーザー・インターフェイス」の「大部分」(例えば、メニュー項目やヘルプ)が、外国語版のWindowsであるかのように表示できる。

外国語モードでWindowsを起動する…というようなイメージです。

日本語版Windows上で、Windowsのメニューが外国語版のWindowsであるかのような表示になる。

つまり、メモ帳などのメニューが「開く」が、英語メニューの「Open」になったりするワケ。

但し、外国語版ソフトを、一々その場で「翻訳」して表示してくれるわけではない

何を言いたいのかというと、アメリカが作った英語メニューのフリーソフトのメニュー表示が「Open」→「オープン」のように日本語に翻訳されて表示されるわけではない。

LIPについて

LIPとは、Office Language Interface Pack(LIP)のことで、「ランゲージ・インタフェース・パック」である。

Office Language Interface Pack (LIP) は Microsoft Office 2003、2007、2010、2013のメニューを「翻訳済みのユーザー インターフェイス」に置き換える。(その都度、翻訳してくれるわけではない。

Language Interface Pack (LIP)はLanguage Interface Pack (LIP)はWindows Vista , Windows 7 , Windows8.1の、どのエディションでもインストールできる。

これは、Windows全体ではなく、Microsoft Officeのユーザー インターフェイスの領域を「外国語」で表示できるようにするもの。

つまり、MUIよりも一段、格下の位置づけである。

ベンガル語とかタミール語とかベトナム語とかのややマイナーな言語について提供されている。

しかし、簡体字中国語、繁体字中国語、ハングル、英語、ドイツ語、ロシア語などは入っていない。

なお、「Microsoft Office製品ではないアプリケーションのメニュー」などは変更されない

つまり、LIPを入れても、中国のソフト会社が、中国人向けに作った、中国語メニューのソフトを「文字化けせずに中国語で表示」できるわけではない。

アプロケール ユーティリティについて

日本語メニューのWindows上で動かしたとき、メニューが外国語(例えばハングルや簡体字中国語)で書かれている場合、文字化けしてしまってソフトそのものは動くのに、実際には使い物にならない可能性が高いが、それを解決する方法はあるのか?

日本語メニューのWindows上で、「中国語メニューで作成されている特定のソフト」を文字化けさせずに起動したい場合は、Windows XPになってから無償で配布開始されたMicrosoft AppLocale Utility(2003/06/18版ではなく2004/06/14版が最新)というのを(正式には対応していないのだが、)自己責任で、無理矢理インストールする。

そして、特定の外国語メニューのソフトをMicrosoft AppLocale Utilityに登録し、AppLocale Utilityからそのソフトを起動すると、それらの文字化けが無くなり、日本語Windows上で、その外国語メニューのソフトだけは、その言語のメニューで表示されるようになる。

これも、「翻訳」ではない点に注意。

実は、Microsoft AppLocale Utilityは、Windows VistaやWindows 7にもCMD(コマンドプロンプト)を右クリックして「管理者として実行」で開き、そのDOS窓からインストーラをコマンドラインで起動すれば(正式には対応していないのだが、)無理矢理インストールできる(はず)。

64bit版のWindows7でもOK。でも、自己責任です。パソコンが壊れても私は知りません。詳しくは、色々と検索して下さい。

【中文IME】ピンインで中国語入力をしたい

その場合は、中文IMEを入れる。

Windowsのエディションは何でも良い。無料。

WindowsVISTAやWindows7標準のMicrosoft Pinyin IMEとか、Windows8やWindows8.1標準のMicrosoft Pinyin IME 2012を設定する。

あるいは、「Microsoft Office IME 2010の中国語版」をダウンロードしてインストールする。

中国語では「Microsoft Office 輸入法」とか「微软拼音输入法 2010」と呼ぶ。こことか、ここでダウンロードできる。

留意点→「簡体字版」の「ピンインIME」をインストールすること(それでも繁体字も入力できるから)。

間違っても王碼五筆輸入法とか鄭碼輸入法とか倉頡輸入法とかは選ばないこと。

設定方法や入力方法は、授業でやった通りなので詳細はテキストを参照し、あとはインターネットで検索。

微軟拼音輸入法擴展詞典」から単語登録辞書の増強ができる。「成語詞典」、「歷史詞典」、「佛教常用語詞典」、「中國各省市縣市區名稱詞典」、「浙江省縣市區名稱詞典」、「江蘇省縣市區名稱詞典などの辞書が提供されている。

「QQ輸入法」とか「百度手機輸入法」とかは、あなたが入力した色々な文字列(恋愛関係の文章も含む)を、サーバに送ってしまったりする可能性があるので、あまりお薦めしない。

あと、「微软拼音输入法2013正式版」と銘打ってダウンロードさせている中国サイトがあるようが、2013は、MSからは出ていないはず。つまり、ニセモノのソフトでしょう。ウイルスとか入っているかもしれません。公式サイト以外から、変なソフトをダウンロードして入れるのは、やめた方が良いですよ?全部、自己責任です。

Office Language Packについて

はい。これが本命です。

「有償のライセンス」で販売されているOffice Language Packを入れていると、例えば、Wordの校正機能が大幅に拡張されて、ルビをピンインで振ったりできる。

その他に、ハングルと漢字(ハンジャ)の相互変換とか、簡体字と繁体字を単語として認識した上で(単純な単漢字変換ではなく!)相互変換できるようになるとか、そういう風にWordなどの機能が拡張されたりする。

中国語だと「文書校正/スタイル・チェック」、「オートコレクト・リスト」、「翻訳辞書」など。

ドイツ語などの場合は更に「スペル・チェック」、「ハイフネーション」、「類義語辞典」などが付け加わる。

とても便利である。

というわけで、ルビとしてピンインを付けたり、単語単位で認識して適切な繁体字と簡体字の変換を行いたい場合は、有償のOffice Language Packが必要。

マイクロソフト直営サイトでダウンロード販売のみ。各言語毎に単品購入できる。1言語当たり3000円くらい。

Word2007の場合はOffice Multi-Language Pack 2007を購入する。
→「Multi」とは「マルチ」なのであって、それは、「30言語分くらいを1つにまとめて売っていますよ」ということ。

Word2010の場合は1言語単位で購入できるようになって、商品名から「Multi」がなくなった。
Language Pack for Office 2010(Office 2010 用言語パック)(日本語サイト英語サイト)を購入する。

Word2013の場合、まずはここから「校正ツール」や「ポップ ヒント」を無料で入手して試してみる。
それで満足が行かなかったらここを参照して、Office Multi-Language Pack 2013(言語パック)をダウンロード販売で購入する。
あるいは、ここの画面で「言語を選択して下さい」で欲しい言語を選ぶか、ここで個別に言語を選択する。
商品名に「Multi」が入っているが、1言語単位で購入できる。

一般ユーザにはあまり関係ないが、Enterprise エディションを使用している場合は、MicrosoftのSiteから無料でオンライン入手できる。
でも、Enterprise エディションそのものが、大規模導入向けに販売されているものなので、個人購入が大変困難です。

結局、個人や小さな事務所でやっている翻訳業とか、語学の先生とか、大学院博士課程の学生とかならば、メニューも外国語版にしたい場合があるだろうから、Windowsは最高ランクのUltimateエディションやProfessionalエディションを導入して、それから無料のMUIを必要な言語の分だけ追加でインストールする。その上で、必要な言語のOffice Multi-Language Packを購入して入れれば良い。

そうでない普通の大学生は、家電量販店で普通に売っているパソコンに入っている、ちょっとランク下のWindowsで構わないから、そこに必要な言語のOffice Multi-Language Packを購入して入れれば良い。

ザッとまとめると、こんな感じです。

目次へ戻る

中文OCRソフトCOCR2

Jean Léonardさん作の中文OCRソフト(単漢字)「COCR2」

Windows 9X, ME, 2000 and XP.と書いてあるけど、Windows7 x64でも動作しました。

Original:http://users.belgacom.net/chardic/cocr2.html(ベルギー)から取得できます。
高速にダウンロードしたい場合は、このサイトにミラーしたので、COCR2_100.zipをダウンロードしてください。

# If you experience some problems to download COCR2 on the Jean Léonard's Original Site(BE) link, please try to download it on Silas S. Brown's mirror(UK), or TANIMOTO's mirror(JP) what now you reading site.

インストール不要。レジストリも使わない。設定項目は"COCR2.ini"に保存される。
画像形式はBMPのみに対応なので、JPEGなどは一度ペイントなどで開いてBMPに変換してからソフトで読み込む必要あり。

COCR2Sample1

ちょっと試した感じだと、活字は宋体をメインに学習させてあるようです。まぁ、当然か。

練習用画像「琴操第三十二」kinsou32_p142.jpgをデスクトップにダウンロードして、各自で試してみましょう。

まず、下作業として、ペイント(やフォトショップなど)でJPEGを開き、必要部分だけを範囲選択して「トリミング」(不要な余白部分を削除)します。このとき、一般的なOCRソフトと違って、返り点や振り仮名を消しゴムで消す必要はありません(理由は後述)。

更にそれを「形式を指定して保存」からBMP形式(24ビット~16ビットくらい)を選択して保存し、それをCOCR2で読み込みます。

COCR2ではBMP形式のみが処理対象です。BMPであれば、必ずしも白黒2値でなくても良いようです。

但し、JPEGやPINGやTIFFやGIF形式の画像は処理できないようですから、必ずBMPで保存します。

拡張子を変えるだけではダメ。キチンと、BMP形式に変換して保存!

次に、COCR2に読み込みます。

画像ファイルは、メニューの[File]→[LoadImage]で画面に読み込みます。

ここで、画像を画面側にドラッグ&ドロップで放り込むのは不可! それでは文字認識できないので注意

次に、カーソルを文字のところへ持って行ってポコッとやると、候補が出るのでその中から選択する。

操作のコツですが、枠の大きさを、文字に見合った大きさに変更すると、うまく行きます。

枠の大きさは[+]キーと[-]キーで調整します。

また、メニューのCharacterSetには、簡体字認識と繁体字認識の切り替えがある。

そこでTraditionalを選択すれば繁体字認識モードになります。

自動認識ではないので、自分で一文字ずつポコポコやる。

範囲を自動認識するタイプのソフトだと、事前にゴミ情報を自分で消しゴムで消しておかないといけないが、返り点や振り仮名がゴチャゴチャ付いている文書の場合、実は一文字ずつ選択して行くこちらのやり方の方が効率が良い。

カーソルを置く微妙な位置によって、認識される候補文字が異なるようです。

どうも違うなぁ…と思ったら、ちょっと位置をずらしてポコッとやる。

以下のように、国訳漢文大成(著作権切れで、国立国会図書館で全面公開されています)の活字もちゃんと認識できました。

COCR2Sample2

目次へ戻る

簡体字/繁体字 相互変換

新同文堂のJavaScriptを載せただけ。
目新しいことは何もしていないが、日本国内のサイトには無いみたいなのでここに置いてみる。

目次へ戻る

オンライン中文入力IME(ピンイン方式)

どうやら、マレーシアのサイトが発信源らしい。

HTMLのコーディングが、あまりにも大陸的というか、熱帯的というか…例えば、aタグのhref=の直後を"で括っていないとか。

まぁ、ひどいものだったので、ちょっと改修してここに載せた。文字飾りがウザイ感じのコードだけど、一応、TIDYである。

GPLだそうだから、問題ない。

目次へ戻る

改定常用漢字の普及開始

2010年(平成22年)11月30日平成22年内閣告示第2号の常用漢字表」が出ましたね。

んで、同日付の内閣訓令第1号「公用文における漢字使用等について」では「法令における漢字使用等については,別途,内閣法制局からの通知による。」とされています。

んで、平成22年11月30日付の内閣法制局長官決定「法令における漢字使用等について」(PDFの付則では法律、政令、条約についてにのみ移行措置を規定しています。行政機関の「規則」(施行規則とか)の場合は、どうなんでしょうね。

ま、いずれにせよ、既に使用開始されてきたようです。

以下、平成23年2月9日付『官報』(本紙 第5492号)2頁より。

常用漢字の拡張による「汎」字の法令中での使用開始の例。

さて、そこで、2011年2月10日発売で、届いたばかりの「一太郎2011創」です。

「汎用性、はん用性」と入れて校正をデフォルト公用文を厳密版に手動変更して試してみました。

この辺、メニューがかなり変更されて、マニュアルを探さないと画面右のパレットの切り替え方法わからなかった。
このUIは今ひとつ。どうしてパレット内だけで完結できるような設計をしなかったのか…。

さて、試験結果。問題なし扱いでスルーされちゃいました。交ぜ書きチェック機構が甘いみたい…。

小中学校の学習漢字範囲チェックも、たぶん、変更されていないんじゃないかと思います。

これらは、後からパッチで対応してくれるのを期待して待ちましょう。

目次へ戻る

MLTP

金明哲氏からテキスト計量分析セミナーのご案内を頂きました。ありがとうございます。

「金明哲」とはハングル表記だと「김명철」ならん。さればgim myeong cheolとすべきにや、と…。
金先生のメアドではJin MingZheと表記されていた。ふむ。
で、一晩置いて考えたら、ピンイン表記ならば jīn míng zhé ですね。
更に御著書の奥書をよくよく確認したら「中国より来日」と明記されていました。

「研究者や大学院生などを対象とし」とあったので、学生には案内しないこととしましたが、学部3~4年生でも、以下の条件を満たせる人であれば、受け入れて下さるはずです。

というか、ここまで自分でできる学部生なら、むしろウェルカムだろうと思います。
申し込んでみてはどうでしょうか?

さて、金明哲著『テキストデータの統計科学入門』(岩波書店 2009/05)の紹介です。

「これは良い本だ。」と2009年の秋に購入。
ただ、MLTPをちょっといじっただけで、手になじむまで使い込むところまでは至らず。
「Rの勉強しなきゃだわ」と思ったまま新学期に突入してしまい、例によって日々のザッヘに紛れて積ん読になっていた。

今回のお誘いは良いチャンスだったので、ぜひとも伺いたい…のだが、既に予定が詰まっている。orz

上記の本で詳しく使い方を紹介されているMLTPは金氏のページSourceForgeで入手可能。
強力ツールなのに、私は迂闊にも、このページで紹介し損ねていました。

工夫されたGUIで感激モノですわよ。
但し、メニューが英語なので、ちと(気持ちの面での)慣れが必要かも。
あと、JAVAソフトなのでメモリが足りない教室環境ではゴリゴリ重いかも。
そういう時にはメモリをたくさんご供養してください。

メインメモリ4GB積んで、認識外になる1GB分をBUFFALOのRAM DISK ユーティリティでRAM DISK化し、そこをWindowsの標準TMPフォルダに指定している私のWinXP環境では、何の問題も感じませんでしたが、何か?

2010/07/14記、2010/07/16追補

目次へ戻る

国立国語研究所のURI

日々、ウオッチしているわけではないので、お気に入りが古いURIのままだった。

事項「平成13年4月1日をもって,独立行政法人」に移行。
URI http://www.kokken.go.jp/
トップページフッタの英文表示 (c)2009 The National Institute for Japanese Language

事項「2009年10月1日 大学共同利用機関法人 人間文化研究機構 国立国語研究所」に移行。
URI http://www.ninjal.ac.jp/
トップページフッタの英文表示 Copyright (c) 2009 National Institute for Japanese Language and Linguistics

一瞬、NINJA(忍者)かと思ったよ…。

実態に即して、「言語学」を明示するように正したのですね。

「ninjal」はおそらくは「National Institute for Japanese Language and Linguistics」。
それで、Lは二重だから1つにしたのかな、と思いました。

組織名称を構成する文字列について、言語対照の非対称性を網羅的に調べるというのも、レポートのネタになるかも知れません。

そういえば、URIという言葉って、普及しませんでしたね。今でもみんな、URLです。

URI (Uniform Resource Identifier)  = URN (Uniform Resource Name) + URL (Uniform Resource Locator) という、概念の上位/下位が絡んでくるからわかりづらい、というのが大きな事情のように思います。

また、名前の識別子については、大手銀行や国立機関の組織名ですら非安定的であることや、その位置づけが母体企業がいつの間にかホールディングスの下位に位置づけられていたりするので、実際には、URNというのはかなり便宜的な運用をせざるを得ないでしょう。

尤も、そんなのは何もURNに限ったことではなく、URLとIPアドレスとの名前解決でも日々刻々とメンテナンスを続けねばならない状況なわけですから、これはシステム設計側の問題ではないことは明らかです。
むしろ、人間というイキモノの持つ性質という意味で興味深いですね。

まぁ、そこから、1980年代にハイ・カルチャーであったテツガクの先生たちがユリイカなどで喧伝した「ハイパーテクスト論」のような方向に話を進めて、ソシュールがどう言っているとかの、あまり難しい議論に展開するつもりはありませんけれども。

ところで上記のUについては、菅井学氏によると「Uniform (統一的)か Universal (普遍的)かは異説があり、公式文書にも両方が見られます。」ということだそうです。

なんだか壮大なネタの仕込みのようで、ニヤニヤ笑ってしまいました。
WGの皆さんは、手弁当で、大真面目にテクニカルな議論を展開しているわけですよね。
URN の名前を定義するところは、大人の事情でペンディングしているのかもしれません。
大人の事情が存在するとしたら、人類が、所詮は不安定きわまりない「言葉」というものに縋り、頼るしかない存在であるということを証明していることになりますし、また、URN の名前を定義できずに、その上でなお、世界のあらゆるモノにURN を定義づけしようとするその様は、人類って、存在そのものが喜劇的で、面白いなぁ、愛しくも哀しいイキモノなんだなぁ、と思うのでありました。

テクニカルな話に戻ると、イマドキであれば、複数の形態素的な要素によるベクトルとその距離で、絞り込んでゆくアプローチと、URNとを併用するような議論になるのではないかと思います。そんな抽象的なRFCを読むのは難儀だろうけど。

2010/05/02記

目次へ戻る

Breakfastと関連ファイルの転載 2010/03/31

Breakfastは、富士通研究所で颯々野学氏が中心になって開発した日本語形態素解析システムである。

Breakfastについては富士通研究所サイト※では配布停止となっている。

※http://www.labs.fujitsu.com/jp/freesoft/breakfast/
※http://jp.fujitsu.com/group/labs/techinfo/freeware/

2010年3月現在(少なくとも2005年9月以降は)、どうやら、ネット上で入手できる所は存在しないようである。

ところが実は、Breakfastで、「IFS 汎用日本語形態素解析規則(注)」を文法規則として使えば、自分で文法ルールを定義しないでも古文、現代文両方の形態素解析ができる(らしい)。

つまり、古典文学作品の品詞分解などに(未知語の再定義が必要なのは当然だが、)結構便利に利用できる(らしい)のである。
詳しくは記事「形態素解析の古文対応について」を参照。

許諾条件では再配布可能なので、以下に転載しておく。

それと、Breakfast用のGUIメニューは、かくかい(黒川孝広氏)で、現在も公開されている。

以下に転載しているBreakfastは、2005年1月1日時点で取得したもの(4.0.4f)である。
おそらく、この 4.0.4f が富士通研究所サイトで公開されていた最終の版であると思われる。

注:「IFS 汎用日本語形態素解析規則」は、東京外大の佐野洋氏らが、第五世代コンピュータ研究プロジェクトの一環として開発した「形態素解析システムLAX」の解析規則部分である。ICOT第2研究室 自然言語処理グループでは「汎用日本語処理系LTB(Language Tool Box)」の開発が行われたが、この「汎用日本語処理系LTB」文解析・文生成などのモジュール群の一つとして「形態素解析システムLAX」が開発された。LAXでの処理の後、「構文意味解析システム SAX」にデータが渡される。


Breakfastのダウンロード
必ず使用許諾条件動作環境をよくご確認下さい。
Breakfast を実行するには bfw404f.tgz と辞書 (bfdjn20.tgz wjpmph15.tgz bfdcs14.tgz のいずれか) をダウンロードして下さい。

いずれのファイルも tar と gzip で圧縮されています。
展開後は bfw404f.tgz に含まれる README.txt を読んでインストールして下さい。


以下に、取得時点(2005年1月1日)での富士通サイトに於ける掲示を4枚、画像として載せておきます。

なお、颯々野学氏の2010年3月現在の連絡先はhttp://tfidf.netのようです。

以下、2010/04/29追記:
私個人の印象ですが、富士通という会社は、最近のニュースからも推し量れるように、清廉さを大事にする企業風土のように見受けられます。また、一応は相手の言い分を受け止め、官僚主義的ではない姿勢で対応しよう、意識的に風通しの良さを作ろうとする雰囲気を感じています。この二つは、パソ通時代のNIFTY Serveの運営からも経験的・体験的に感ぜられたことです。

もう一つ、大企業の社会的責任に対する姿勢が、どうも他の日本企業とはひと味違うような印象です。
一言で言えば、ハードウェア部門を売却する前のIBMに似ている印象。
現在も、富士通が、アクセシビリティ関連のソフトウェアの公開を行っている辺りなどから、この姿勢が維持されていることが汲み取れると思います。

これらの特色は、ひょっとすると、かつて、IBMと汎用機の特許でハードネゴシエーションを繰り広げた時に、得た知恵なのかも知れません。

さて、第5世代コンピュータ研究時代の(幾ばくかは、公金の入ったであろう)成果物の公開継続を社会的責任の分担ということで続けていた所に、当時の開発担当者が他社に移籍したという事態が重なると、どうなるか? 清廉さを大事にするためには、裁判へのリスクを考えて、富士通としては公開を中止せざるを得ない、ということになるでしょう。
富士通研究所が公開を取りやめたのは、そういう事情があったのではないか、と推察していま(した|す)。

で、富士通研究所または颯々野氏または颯々野氏の現所属先から「大人の事情もあるから、ちょっと遠慮してくれ。」と連絡が来たら、その場合は残念だが、仕方ない、引っ込めよう…と思っていましたが、今のところは三者のいずれからもそういう連絡はありません。
なお、Access Logで気づきましたが、颯々野氏サイトからは逆リンクが設定されたようです。
一応は、青春の思い出として(?)好意的に受け止めてくださったのかな…と、勝手に理解することにしました。
実は、ちょっとホッとしています。
以上、追記終了。

Fig.1 取得時の富士通研究所による掲示

Fig.1 取得時の富士通研究所による掲示

Fig.2 取得時の富士通研究所による掲示

Fig.2 取得時の富士通研究所による掲示

Fig.3 取得時の富士通研究所による掲示

Fig.3 取得時の富士通研究所による掲示

Fig.4 取得時の富士通研究所による掲示

Fig.4 取得時の富士通研究所による掲示

目次へ戻る

授業用にChasenへのWeb窓口を設置してみた。

私の契約しているサーバにはChaSenとKakashiと、どうやらMeCabもインストールされているらしい。

ずいぶん前に気づいたのだけど、Perlで試験的に動作確認しただけで、それ以後、時間がとれなかった。

で、今月、あらゆるものからの逃避を兼ねて、國學院と大東文化での講義用に作った。

とりあえずWebChaと名付ける。

注:なお、東京工科大学からのアクセスがやたら多いので気づきましたが、東京工科大学のシラバスに掲載されているのは、おそらく先生か、助手さんが、WinChaと書こうとして、タイピングミスしたのではないか、と思います(たぶん)。WinChaはこのリンク先のメニューの一番下から入手できます。

始めてPHPをいじったのだが、わかりやすい言語で便利。感激。

Windowsでも(Apacheなど入れずに、)PHPだけ入れて、コマンドラインから使うスクリプト言語として使うのに良さそう。

國語国文系の大学院生は、これからは入門がHTML+JavaScriptで、次にはPerlでなくてPHPが良いんじゃないかなぁ。

PHPのメインルーチンは、あいねこの館のコードを拝借(< 感謝)。
環境によっては1行目しか取ってくれないようで、組み込むのにかなり悩んだが、どうにか動かせた。
fgetsのところだろう…と、そこばかり見て悩み抜いたが、結局、popenで渡す時のカッコの処理だった。orz
クラック対策の他、細かいところもチューニング。

ToDo:
Kakashiと、MeCabは未着手。更にその後には、Yahoo!の形態素解析APIも試してみたいな、と思っています。

目次へ戻る

N-gram Extraction Tool

 『アジア遊学』130号(2010年2月刊)に「『義経記』重出文字列に見るキャラクター像型」というのを書きました。

 その中で紹介したのが、张乐(Zhang Le)先生作成のプログラム“N-gram Extraction Tool”です。

 これは、それ以前に書いた「「国書基本データベース」の標題要素文字列」(相田満編『標題文芸(参)』国文学研究資料館、二〇〇五年三月)でも紹介済みのものです。

 このプログラムは、「「国書基本データベース」の標題要素文字列」を執筆した当時、エジンバラ大学音声研究所(The Centre for Speech Technology Research; The University of Edinburgh)にある張氏のWebSite(http://homepages.inf.ed.ac.uk/s0450736/)より取得可能でしたが、2010年1月現在、既にサイトは閉鎖されているためオリジナルサイトからは入手不可のようです。

→気になって再調査したら、URLが変更になって、http://homepages.inf.ed.ac.uk/lzhang10/ngram.html に存在しました。Download可です。

なお、その他に最大エントロピー法についての情報源(http://homepages.inf.ed.ac.uk/lzhang10/maxent.html)も発見。

 原稿で再配布を予告してしまったし、同梱の“LICENSE”ファイルの記述によれば再配布可能である由なので、一応、こちらにも転載しておきます。→ngramtool-20040527-mingw32-static.zip

 あと、おまけとして出力結果に文字列長を付加したもの。
 ダウンロードしてからメモ帳で開き、Excelに貼り付ければそのまま使用できます。→ 20100128_GIKEIKI_N-gram_UTF-8N.txt
 元データは、KOKINルールのタグを削除した以外にも、かなりの整形処理を経ています(そのデータは権利関係の処理も絡むので、公開しません)。
 もっと精魂込めて校正・表記統一処理をしてから出力すれば、また違う結果が出るはずです。

 “N-gram Extraction Tool”は、Windows上で容易に使用可能であり、また、UTF-8でエンコードされたUnicode文書を扱えるので、簡体字中国語や繁体字中国語に日本語が混在しても動作します。

 中国文学作品や日本漢文学作品等、幅広い文史哲研究に利用できる貴重なSoftwareです。

“LICENSE”は以下の通り。(Mail Address部分だけ、SPAM防止の為に@を改変しました。)


* Copyright (C) 2002 - 2004 by Zhang Le <ejoy(AT-MARK)xinhuanet.com>
*
* Permission is hereby granted, free of charge, to any person obtaining a
* copy of this software and associated documentation files (the "Software"),
* to deal in the Software without restriction, including without limitation
* the rights to use, copy, modify, merge, publish, distribute, sublicense,
* and/or sell copies of the Software, and to permit persons to whom the
* Software is furnished to do so, subject to the following conditions:
*
* The above copyright notice and this permission notice shall be included in
* all copies or substantial portions of the Software.
*
* THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
* IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
* FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL
* THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
* LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING
* FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER
* DEALINGS IN THE SOFTWARE.

目次へ戻る

ATOK2009で出ない単語と、HDD内文書の検索

以下、Ver22.0.1.0の場合。

新語の吸収は速いようだけど、案外、昔からある言葉が入っていない。

大人は登録するなら接尾語なんだろうけど、実際の用例は「鈴の舎の大人」のように、「~の」に続く例も多いはず。

従って、妥協して名詞に放り込むべきか?

ところで、Vistaで右クリメニューに、半角カタカナ表示で「JSファイル検索ツール」が登録された。
更にその「HELP」を見ようとすると、VistaからはHLP形式ファイルの(32bit版の方は)標準サポートが打ち切られているので、MSサイトからadd-onを持ってきてインストールしないと閲覧できない。

ショートカット名や本体メニュー中で半角文字を使っているところとか、HLP形式ファイルを採用したまま改修していないで惰性で放り込んでいるだけなんだろうなぁ。CHM形式に変換するのは難しいことなのかな?

本体も7Z,ACE,ARC,ARJ,BIN,BZ2,BZIP2,CAB,CHM,CHW,CPIO,CUE,DEB,DLL,GZ,GZIP,HLP,HXS,IMF,IMG,ISO,JAR,KGB,KGE,
LHA,LIT,LZH,LZO,MHT,MSI,ODF,RAR,RPM,TAR,TAR.BZ2,TAR.GZ,TAR.Z,TAZ,TBZ,TBZ2,TGZ,TZ,UHA,UUE,WZ,XPI,Z,ZIP…と、
その自己解凍形式。

その中に入っている旧来の一太郎ファイル全部、Office 2003までのファイル形式、PDF、EML、GIB5やSJIS、JIS、UEC、Unicode16、UTF-8などの各種文字コードのテキストファイル、Office (2007) Open XML、当然ODF形式もバッチリ検索。

なんていう「万能GREP」状態だと、素晴らしいのだか…。ジャストシステムは、コンセプトサーチの技術も持っているわけだし。

そういえば、KWIC Finder探三郎よりももっと前、ビレッジセンター(解散)のサーチクロスよりももっと前、市販ソフトでそういうのがあったような気が…。

アンテナハウスだったような気がするんだけど…。テキストポーターじゃないよね。あ、そうそう。自在眼だ。

この辺に一覧が載っていますね。

ちなみに私はXPではDesktopHEを使っています。

Vistaの検索機能は何だかゴリゴリ重いし、内容までインデックス化しているや否や、全文N-gramなのか、とかの詳細仕様がわからないので、今のところは全フォルダを対象外に指定しています。

目次へ戻る

한글(ハングル;Hangeul)をローマ字表記に変換する

川崎有亮氏のRomanization of Korean language Version: 0.12はPerlで動作します。

それをJavascriptだけで動くように移植したものです。

このHTMLファイルをデスクトップにダウンロードしておけば、単独で動きます。

終声の子音処理とか、漢字もローマナイズするとか、カタカナにも変換するとか、色々拡張のやりがいはあると思います。

目次へ戻る

Word VBAのおべんきょう。資料が少ないので困る。

Sub 簡→繁()
' 簡体字→繁体字変換 (Proofing Toolsが必要かも?)
' 但し、文字列の言語設定が中国語(中国)になっていないと動かない。
Selection.Range.TCSCConverter _
wdTCSCConverterDirectionSCTC, True, True
End Sub


Sub 繁→簡()
' 繁体字/簡体字変換 (Proofing Toolsが必要かも?)
' 但し、文字列の言語設定が中国語(中国)になっていないと動かない。
Selection.Range.TCSCConverter _
wdTCSCConverterDirectionTCSC, True
End Sub


Sub 選択範囲のリバース()
Dim revtxt As String
Dim nyuryoku As String
nyuryoku = Selection.Range.Text
revtxt = StrReverse(nyuryoku)
Selection.Range.Text = revtxt
End Sub
' ★ Selection.Range と Selection.Range.Text と  Selection.Range.Characters の使い分けって、悩むかも。


Sub 欧文同義語検索()
' 練習なので、MSのSampleそのまま
Set synInfo = Selection.Range.SynonymInfo
If synInfo.MeaningCount >= 2 Then
synList = synInfo.SynonymList(2)
For i = 1 To UBound(synList)
MsgBox "選択範囲の単語または語句の同義語は " & synList(i) & " です。"
Next i
Else
MsgBox "選択範囲の単語または語句には、同義語はありません。単語を正確に範囲指定しないと答えませんよ。"
End If
End Sub

目次へ戻る

本文校合にDiffを使う

普通、diffは行単位で比較出力しますが、本文校合は文字単位で比較してくれないと意味がありません。

そこで、google-diff-match-patch が便利なわけです。Apache License 2.0 なので使っても問題ないでしょう。

使用例をここに載せました。使用したバージョンは、diff_match_patch_20080624.zipです。

目次へ戻る

たつを氏のmecapiで形態素解析

オンラインで文章の単語分割と品詞付けができる、という素敵なお話。

JSON(JavaScript Object Notation)形式の受信実験を兼ねて、たつを氏の所にデータをぶん投げるcall_mecapi.htmlとして設置しました。あんまり長い文章はダメみたいです。使用したprototype.js はVer1.6です。節度を持って利用して下さいね。

その後、たつを氏サーバが一時的に不具合があっようで、その間に、くどうたく氏の所にデータをぶん投げるcall_YetAnotherMECAPI.htmlを設置してみました(が、2010年3月末現在、動いていないようです)。

目次へ戻る

情報収集にはここが便利です

コーパス日本語学のための情報館 大変分かりやすく情報が分類されています。

目次へ戻る

日本語形態素解析システム(形態素解析器/形態素解析ツール)一覧

フリーなものだけ。

目次へ戻る

国語学・日本語学に関係しそうなWebサービスやWebAPI

まとめてメモ。

ひらがなゲートウェイRomaji GatewayKakasi web frontendCycMapスペルチェッカーWebAPI
 

下の図はCycMapで「形態素」をキーワードにした場合。

#

どうでも良いことだけど、スペルチェックのしくみ(JSON)のにある「Lucence」は「Lucene」のtypoだよね。…って、もしかして釣りですか?

目次へ戻る

自然と一区切りになる文節とは何かを明らかにするために…。

工藤さんの「IMEにおける「文節」とは何ぞや」で思いついた。…はずだが、何を思いついたか忘れた。

目次へ戻る

形態素解析ツールに思うこと

IPA品詞体系は単語の粒度が揃っていません。

Jumanの品詞体系は益岡・窪田文法を拡張したもので、JUMAN5.0の搭載辞書は京都コーパス4.0 と対応しています。

で、IPA辞書を拡張したものを用いているのはChaSenとMeCab。

Jumanの品詞体系とIPA辞書との品詞体系の比較は[こちら]

機能的にはMeCabの方が超高速。アルゴリズムの差は、体感的にはよくわからん。

変形生成文法による説明はこちら

因みに、チョムスキー理論の日本語への適用については、長谷川信子著『生成日本語学入門』(大修館書店 1999/03 ISBN-13:978-4469212334)辺りが初歩的部分から説明されている。

国立国語研究所が、ChaSen用に短単位辞書を開発している。これで単語の粒度が揃うはず。
(実際の実験はまだやっていない。)

すると、結果的には、ChaSenのユーザ数が伸びるだろう。

MeCab側で、この短単位辞書をインポートできるようにすることが、ユーザ数を増やすに当たっては重要。

目次へ戻る

形態素解析の古文対応について

伝統的古典文法によって、古文を分割できるようにする解析ツールがあれば、かなりのユーザを発掘できるはず。

実は、かつて、JUMANではそのような実装があった。

Ken Lunde氏の"CJKV Information Processing"の附録として版元のoreillyサイトで公開された/cjkvinfo/Ch9ディレクトリにある、kojuman.tar.gzがまさにそれ。

Chasenでもかつては、そのような構想があった。

「茶筌 version 2.0」の正式版を公開した時の案内文(2005年7月15日 13:06:06 GMTに保存された http://www.pluto.ai.kyutech.ac.jp/NLP/data/307.txt のGoogleキャッシュによる。)

・古文辞書の公開:
  古典対照語い表(宮島達夫他)、源氏物語等から得られた語彙とコストを利用
  した辞書を作成している。準備ができ次第公開する。

これは、今は立ち消えになっているらしい。

富士通のBreakfast(配布終了→本サイトで再配布することにした)では、以下のような複数の辞書が配布されていた。

黒川孝広氏によると、古文、現代文両方に通用する(らしい)。

「IFS 汎用日本語形態素解析規則」は、東京外国語大学で開発された日本語形態素解析規則。
元々は、ICOT(Institute for New Generation Computer Technology: ICOT,いわゆる第五世代コンピュータ技術開発機構)フリーソフトウェアの一つである形態素解析システム LAX の解析規則部分であったもの。
それを JUMAN 2.0(奈良先端科学技術大学院大学・松本研究室からリリースされている形態素解析システム)の形態素解析エンジン用に移植し改良したもので、辞書データは新たに作成された。

ちなみにBreakfastをコマンドプロンプトから使うのが面倒な場合は、黒川孝広氏(っていうか、「かくかい」の中の人って言った方が有名かも)によって作られたGUIシェル「Breakfastの実行」を使えばよい。

その他の関連論文。

目次へ戻る

日本語KWICソフトウェアKWIC

作者は阪大(旧大阪外大)の田野村忠温教授。たしか、「のだ」の研究のセンセですよね…。

ここからダウンロード可能。

Readmeに

○コマンドライン引数の解釈
 これはRubyの解釈に任せており、特殊な指定をするとエラーで異常終了
することがあるようです。

という不思議な記述があったので、exeのプロパティで確認してみると、Exerb 4.2.0.0でビルドされたもののようです。

※Exerbは、rubyスクリプトをWindowsのexeに変換するツールだそうで、ラッパーみたいなもののようです。古くはBATCPとかもありましたし、PerlでのPARとかPythonでのpy2exeもそれに当たるのでしょう。

基本はコマンドラインツールだけどHTAを付けてGUIしている。親切設計。

便利そうなので、新年度の授業で使ってみようと思っています。

ただ、現時点ではS-JISしか通らない仕様になっているようで、そこはちょっと残念。

また、基本的には正規表現で指定なんだけど、親切設計の故か、特殊な指定もできるようになっている。この特殊な指定方法に馴染めるかどうか…。

目次へ戻る

SlothLib 自然言語処理関連のDll

SlothLibというのを見つけた。

京大、田中研で開発されているようです。

「ソフト試作時のコスト軽減を目的とするプログラミング初級者のためのお手軽ライブラリ」と紹介されています。

配布条件は修正BSDライセンスです。

こんな一連の流れをするソフトの開発ができるようになります。

○検証対象文書の取得

○形態素解析器からのデータ取り込み

○形態素解析結果の加工

○言語統計

う~ん。すばらしい…。

これにグラフプロット機能を持つ何かとの連動まで持って行けば、俺様専用言語統計システムのできあがり。

言語工学系学生の卒論作成はみんなこれを使う、みたいな状況になるかも。

「プログラミング初級者」の位置づけはVisual Studio 2005 のC#を想定しているみたい。

今、Visual Studio はタダで入手できるし。

Visual Studio 2008 Express Edition 無償ダウンロード提供開始

実践解説で独習」とかもかなり親切。

でも、C#かぁ…。VB .NETだと、もっと敷居が低くなるんだけどなぁ。

目次へ戻る

形態素解析ツールMeCabコントローラ

MeCabは標準入力からのリダイレクトは受け付けてくれないようだ。

かといって、C:\Program Files\MeCab\bin\ まで入っていって、そこにテキストを設置してコマンドプロンプトで起動とか、mecab.exeにパスを通して置いて…というのも、しょっちゅう大量ファイルを処理するような使い方をしていない人には面倒くさい。

ということで、簡易版のGUIシェルを作ってみた。できあがりは、こんな画面。

#

現物は MeCab_Controller.hta です。右クリックで保存。

mecab.exeと同じディレクトリに置かないと動きません。
ショートカットをデスクトップに作るなどして使うと良いと思います。

因みに上の例文は、昭和23年12月23日、参議院懲罰委員会に於ける某議員の弁明演説。

吉田首相のは、昭和28年2月28日の発言ですが、それよりも古い例、ということで…。

目次へ戻る

茶筌とMeCabの比較

形態素解析ツールってのは、要するに単語区切りをして、品詞も自動で判別して付けてくれるツールの事。

今のスタンダードは茶筌であろう。普通の現代文なら相当に正確な解析結果を出してくる。

以下の例は『侏儒の言葉』より。

神秘主義は文明の為に衰退し去るものではない。寧ろ文明は神秘主義に長足の進歩を与えるものである。
神秘 シンピ 神秘 名詞-一般
主義 シュギ 主義 名詞-一般
は ハ は 助詞-係助詞
文明 ブンメイ 文明 名詞-一般
の ノ の 助詞-連体化
為 タメ 為 名詞-非自立-副詞可能
に ニ に 助詞-格助詞-一般
衰退 スイタイ 衰退 名詞-サ変接続
し シ する 動詞-自立 サ変・スル 連用形
去る サル 去る 動詞-自立 五段・ラ行 基本形
もの モノ もの 名詞-非自立-一般
で デ だ 助動詞 特殊・ダ 連用形
は ハ は 助詞-係助詞
ない ナイ ない 助動詞 特殊・ナイ 基本形
。 。 。 記号-句点
寧ろ ムシロ 寧ろ 副詞-一般
文明 ブンメイ 文明 名詞-一般
は ハ は 助詞-係助詞
神秘 シンピ 神秘 名詞-一般
主義 シュギ 主義 名詞-一般
に ニ に 助詞-格助詞-一般
長足 チョウソク 長足 名詞-一般
の ノ の 助詞-連体化
進歩 シンポ 進歩 名詞-サ変接続
を ヲ を 助詞-格助詞-一般
与える アタエル 与える 動詞-自立 一段 基本形
もの モノ もの 名詞-非自立-一般
で デ だ 助動詞 特殊・ダ 連用形
ある アル ある 助動詞 五段・ラ行アル 基本形
。 。 。 記号-句点
EOS

こういったツールの一つ、MeCabを試してみた。茶筌の速度だって十分と思っていたけど、確かにこれは速 い!! 普通文では、両方ともIPA辞書を使っているので、あんまり結果は変わらないですが、今回試した感じだと、記号類の処理は茶筌の方が正確に出てきました。

両方とも、俳句で試すと、送り仮名の省略があったり、切れ字の扱いなどがあるので、デフォルトのルール設定だけでは解析が難しいようですね。以下が出力例。

chasen ver.233 031208の出力結果
閑さや岩にしみ入蝉の聲
閑 未知語
さや サヤ さや 名詞-一般
岩 イワ 岩 名詞-一般
に ニ に 助詞-格助詞-一般
しみ シミ しみる 動詞-自立 一段 連用形
入 ニュウ 入 接頭詞-名詞接続
蝉 セミ 蝉 名詞-一般
の ノ の 助詞-連体化
聲 未知語
EOS


mecab ver0.91の出力結果
閑さや岩にしみ入蝉の聲
閑 名詞,固有名詞,組織,*,*,*,*
さ 名詞,接尾,特殊,*,*,*,さ,サ,サ
や 助詞,並立助詞,*,*,*,*,や,ヤ,ヤ
岩 名詞,一般,*,*,*,*,岩,イワ,イワ
に 助詞,格助詞,一般,*,*,*,に,ニ,ニ
しみ 動詞,自立,*,*,一段,連用形,しみる,シミ,シミ
入 接頭詞,名詞接続,*,*,*,*,入,ニュウ,ニュー
蝉 名詞,一般,*,*,*,*,蝉,セミ,セミ
の 助詞,連体化,*,*,*,*,の,ノ,ノ
聲 名詞,固有名詞,組織,*,*,*,*
EOS

さてみなさん、嵯峨天皇が小野篁に出題した謎々に「子子子子子子子子子子子子」というのがありますが「すももももももももももももももものうち」を単語区切りできますかな?

目次へ戻る

国立国語研究所の『日本語話し言葉コーパス』サンプルデータを見る方法

「ひまわり」用の『日本語話し言葉コーパス』サンプルデータは、現在、国立 国語研究所から発信されている情報だと、「ひまわり」をインストールして見るようになっています。

ですが、XMLデータなので、ちゃんと設定すれば、(ひまわりをインストールしなくても)ブラウザだけで転記テキストの閲覧」の図と同じ見た目で閲覧可能です。

以下、その作業手順の説明。

但し、国研の提示する使用条件を良く読んだ上で、自己責任でどうぞ。

  1. 配布されているファイルをディレクトリ付きで解凍する。

  2. 解凍された“Himawari_CSJ_sample\Corpora\CSJ\SAMPLE”ディレクトリにあるcorpus.xmlをテキストエディタで開く。
    このファイルはUnicode形式(BOM付きのUTF-16LE)で保存されているが、Unicodeでないと表現できない文字は使用されていないようである。

  3. corpus.xmlの先頭に<kdb i="A01M0074">とあるが、その前(つまり文書の先頭)に以下の3行を挿入する。

<?xml version="1.0" encoding="euc-jp"?>
<?xml-stylesheet href="xslt/csj_kdb.xsl" type="text/xsl"?>
<root>

  1. corpus.xmlの末尾に</kdb>とあるが、その後(つまり文書の末尾)に以下の1行を挿入する。

</root>

  1. corpus.xmlを保存する。このとき、ファイルの文字コードをEUC-JP形式に指定して保存すること。(他の文字コードを使いたいときは、csj_kdb.xslとcorpus.xmlの両方の行頭のエンコード宣言、並びにファイル保存の文字コードを統一する。詳細は以下の枠内参照。)

  • これは、“Himawari_CSJ_sample\Corpora\CSJ\SAMPLE\xslt”にあるcsj_kdb.xslEUC-JPで保存されているため、そちらに合わせるということ。国研が、なぜ、このような不統一な形にしているのかは、よくわからない。

  • この形式で保存すると、1,123KBあったcorpus.xmlのファイルサイズが680KBに節約できる。
    Unicodeが如何に漢字を用いたデータにとって不利なエンコーディング形式か、よくわかる。

  • csj_kdb.xslcorpus.xmlの文字コード宣言(上記3行の内の、先頭のencodingの所)を両方ともUTF-8にして、両ファイルともUTF-8で保存するというのでも構わない。
    なお、メモ帳でUTF-16を選ぶとBOMが勝手に付いてしまうので、UTF-16に設定するのは、あまりオススメしない。

  • なお、メモ帳でANSIを指定して保存すると、EUC-JPではなくSHIFT-JISになってしまうので、メモ帳で作業する場合はUTF-8に統一しないとダメなようだ。

以上の作業の後で、corpus.xmlをブラウザで開けば、国研の掲示する「転記テキストの閲覧」の図と同じ見た目で表示される(はず)である。 検索はできないけど。
マウスオーバーすると、長単位の内容や短単位の内容がツールチップで表示されるようになる。

ちなみに、拡張子(ファイル名の末尾)がaix,cix,eixになっているファイルはさしあたりは不要。
削除しても構わない。


更に、国立国語研究所の『日本語話し言葉コーパス』サンプルデータを形態素解析システムの解析結果のような見た目で見るためのXSLというのも作ってみた。

これは、corpus.xmlの中身を、CSV形式で表示するためのもの。

corpus2csv_xslt.zipをダウンロードして解凍。
詳しい使い方説明はzipファイルの中に入れたreadme.txtを参照のこと。

長単位用のXSLファイルは、各レコードが長単位での一形態素となり、フィールド値として

出現形,品詞,活用の種類,活用形,代表表記,代表系,その他情報1

の情報を表する。

短単位用のXSLファイルは、各レコードが短単位での一形態素となり、フィールド値として

出現形,品詞,活用の種類,活用形,代表表記,代表系,その他情報1,発音形,節境界

の情報を表する。

Bugs:
Firefoxで開くと、猛烈に時間がかかる。
また、各行の末尾に文字列として<br>が入る。これは、Firefoxのレンダリングが正しいのだが、Internet Explorerが変な解釈をするから、それ用に強制的にbrタグを入れるようにしたため、このようになる。


ついでに、タグ内容をザッと見て気づいたことを書き留めておく。

その1 “Himawari_CSJ_sample”ディレクトリにあるconfig_csj_sample.xmlにはタグの定義内容説明が記述されているので、実データのタグの意味はおおよそ理解できる。
但し、実データの定義とは一部、食い違いがある。
例えば、element "s" の attribute "c" を「活用型」としている。これは「活用の種類」のことを「活用型」と称しているらしい。
それはわかるが、「活用形名」であるところのelement "s" の attribute "f" は実データでは定義されているのに、config_csj_sample.xmlには明示がない。
実データでの定義を見るには、config_csj_sample.xmlを参考にしながらcsj_kdb.xslの構造を解読する方が良いようだ。

その2 講演データの中でオヤジギャグはないのだろうか?
以前、口頭発表で「XMLによるタグ付けを用いた古典籍の字彙DBについて~伝本の性質を把握する補助手段として~」(情報知識学会 人文・社会科学系部会主催 第13回 歴史研究と電算機利用ワークショップ 於:法政大学 2000/05/13)というのをしたことがある。
そのときは、XMLで土佐日記データに様々なプロパティを持たせてブラウザを介して言語情報をハンドリングする方法を紹介しつつ、考察としては、XMLの限界点を(どちらかというと)強調気味に述べたことがある。
それで、質疑応答時に、XMLを積極評価する日仏会館の家辺さんと、ちょっとした論争になったのだが、「じゃ、掛詞はどうやってタグ付けしましょうかね?」と申し上げたら、論客でならす流石の家辺さんも、一瞬、絶句なさった。家辺さんとの議論で、私が打ち負かされなかったのは、これが最初で最後の経験である。普段(与太話を含む)はいつもやられっぱなしなので、このことはよく覚えている。

目次へ戻る

PseudoWordDivision ― なんちゃって単語区切り

学校文法の場合(9個のカタマリになる)

今日お昼コロッケ弁当でした。

文字種で擬似的に区切った場合(12個のカタマリになる)

今日コロッケ弁当でした

目次へ戻る

工藤拓氏作のTinySegmenterそのまんま転載版

上の「なんちゃって単語区切り」の超絶技巧版。統計的に処理されていて、尤もらしさがかなり高くなる手法。

やっぱ、すげーな。

目次へ戻る

Wordで単語区切り Ver1.0 2005/12/25版
Wordでふりがな付与ツール Ver1.0 2006/07/23版

Wordで単語区切りの概要

 worddetango2in.exe (昔のVBで作ったヤツも同梱の自己解凍圧縮ファイル)

#

 

動作確認

学校文法の場合(9個のカタマリになる)

今日お昼コロッケ弁当でした。

Wordの機能を利用して区切った場合(13個のカタマリになる)

今日お昼コロッケ弁当

Wordでふりがな付与ツールの概要

動作確認

動作例と使用上の注意

文例を、見ての通り、おかしな結果が出る場合もあることに注意。

#

#

#

目次へ戻る


copyright 2008~ 谷本玲大
http://www.tanimoto.to/