Windows XP に標準で付属しているインプットメソッド「MS-IME2002」の変換の仕組みを解説したものです。インターネットを検索し、いくつかの情報を基にこんなふうだろうという感じで作成したものですから、間違いがあるかもしれませんのでお断りしておきます。単語例も説明のために便宜上作ったものですので、実際にそのようになっているのかどうかも不明です。まあこんなんだろうという程度です。
1、変換エンジン
・MS-IME98と同じものを使用
IME 98 → IME 2000 → IME 2002 と同じ変換エンジンを用い、辞書、学習機能などのチューニングをすることによって、より変換効率を高めている。
・IME 2000 と IME 2002 との大きな違いは、「ナチュラルインプット」です。
※IME 2002 ではナチュラルインプットの情報ばかりです。
※IME98から新しい変換エンジンを採用
2、基本的な変換システム
(1)スコア方式(点数付けによる処理)
ア)基本
大量かつ多分野の文章を元に変換に必要な単語を選定し、単語に、読み、品詞、頻度情報(同じ読みの単語では、どちらの単語がよく使用されるのか)をつけることが基本になっています。ただ、これだけでは、単純な確率に基づく変換になってしまうため、さらに、以下の情報を変換に反映させます。
イ)単語の係り受け……単語と単語の結びつき、つながりやすさ。(助詞を含めることもあります。)
これにより、ア)のみの情報よりもより正確な変換が可能になります。
・「せんしゅせんせい」では
選手─┬─宣誓
├─先生
├─専制
「選手」の後に来る「せんせい」は、「宣誓」の方がつながりやすい
※単語のみの使用頻度は「先生」が一番高いですが、選手の後ろに来る場合は、「宣誓」の方が使用頻度が高いという情報を持たせます。(初期状態では「せんせい」のみの変換では、「先生」と変換されますが、「せんしゅせんせい」では「選手/宣誓」と変換されます。)しかし、実際のところ、すべての単語にこのような情報を持たせるのは不可能と思われます。
ウ)「格構造解析処理」……格構造解析とは、文章の構造(単文、重文、複文、および、主語、目的語、修飾語、述語、補語など)を解析することです。この解析は、助詞に注目して行われます。したがって文節のつながりやすさ、どの文節が重要なのか、を情報として取り入れると考えればよいと思います。これにより、いっそうの変換効率が図られることになります。
例えば、
「わたしはくにをぜいきんがおさめられているのでおさめる」では
「わたしは くにを ぜいきんが おさめられているので おさめる」
主語 述語
主語 目的語 修飾語 述語
上記のように判断します。
※「ぜいきんが」─「おさめられているので」という文節はつながり具合が高く、文章構成上重要度が低いので、「ぜいきんがおさめられているので」を、全体として修飾語として判断し、「わたしはーくにをーおさめる」が、中心の文であると判断すると考えられます。
実際、初期状態では
「私は国を税金が納められているので治める」と、意味的にもうまく変換されます。
※ちなみに「おさめる」の第1変換候補は「収める」ですから、この格構造解析処理がうまくできていなければ、どこかで、「収める」という漢字に変換される可能性があります。
以上の、ア)〜ウ)の、単語情報、単語同士のつながりやすさの情報、格構造処理情報(文節のつながりやすさの情報)を基にした変換だけでは、統計に基づいた処理に過ぎません。
そこで、ユーザーの変換の癖とか言い回しといった情報(つまり、よく使用する単語や熟語、一連の文節など)を以下の方法で取り込むことによって、ユーザーにとって、より変換しやすいIMEに変身させます。
エ)「学習コンポーネントによる処理結果」……学習結果を変換に反映します
・基本は、直前に使用した読みの単語を変換候補にする。
・上記の基本だけでは、同じ読みを入力した場合、直前に使用した単語に変換されてしまい、文章に応じた適切な単語に変換されない場合があります。そこで、その読みに対する単語はどういう場合に使用したのかという情報を取り込むことによって、より文章の内容にあった単語に変換されるようになっています。
・単語、文節のつながりやすさも学習し、変換に反映させます。(これを用例学習といいます。)
これらの、情報を、それぞれ、独自の基準(この基準に、人の判断とか、感覚というものが入るようです)で点数化し、一本化する方法がスコア方式と呼ばれるものです。
結局のところ、辞書には、いくつもの点数化された情報を持った単語が多数登録されることになります。
※ATOK、Macintoshのことえり3.1では、単語に意味情報(数値情報ではありません)をつけ、共起概念に基づく変換を行っています。そのため、より人間の思考方法に近い変換ができているようです。MS-IMEの解説には、共起概念またはそれに類した用語を使用していないので、共起概念に基づく変換をしっかり行っているかどうかは不明です。しかし、初期状態では、「人間の鼻」、「桜の花」といった使い分けはできているようです。これは、単純に、用例として登録されているだけなのかもしれませんが。
(2)入力文と辞書に登録された単語とを比較
入力された読みにあたる単語を辞書から検索してきます。
例えば、「きのうわたしはしっていた。」という入力文に対する単語の区切り方は多数あります。
・き/のう/わ/たし/は/しっ/て/いた
・きのう/わたし/は/しっ/て/いた
・きのう/わたし/はしっ/て/いた などいろいろな単語のわけ方があります。
ところが、単純に単語に分けるだけでは、意味の通じない文章ができてしまう可能性があります。
そこで、最適な変換候補を出力するために最適な文節に分けなければなりません。(最適な文節に分けることによってある程度意味の通じる文章ができます。)その方法として、MS-IMEは次の方法を採用しています。
(3)N-Best手法
スコア方式によって点数を付けられたN個の単語候補から最適な変換候補を選別する手法で、最小コスト法の発展形です。
※最小コスト法とは、次にどんな単語がくる確率が高いのかを計算していく確率に基づく方法です。(この接続確率の合計が最大になることを接続コストが最小になるというのでこの名がついています)N-Best手法では,この接続確率の計算を、前からも後ろからも行うのでその分最小コスト法よりも最適な変換が図れます。
この手法を用いて最適な変換候補を選び出す段階で、単語の頻度情報だけでなく、単語のつながりやすさ、文節のつながりやすさ、も計算されます。
ところがこの方法では、同音異義語(動詞)がうまく選択できない場合があります。これを次の方法で解決することになります。
(4)格フレームマッチ
動詞に、『どんな助詞(手段、材料、引用などを表す:で、に、を、から、より……)と一緒に使われるのか』という情報を持たせます。(これを格フレームといいます。)その上で、入力された読みと一致する格フレームを持つ単語を変換候補の第1候補にします。
この格フレームマッチを最終的に行うことにより、
「私はドレスを着る。」「私はナイフでドレスを切る。」のように、「着る」と「切る」の同音異義語の区別を行うことになります。
※動詞に、一緒によく使われる助詞の情報を持たせることで、正しい変換をさせようというものですから、動詞の含まれないキャプション、タイトルなどでは、誤変換が発生する確率が高まります。逆に、キャプション、タイトルなどに、続けて動詞をつなげたりすると、うまく変換されたりすることがあります。
|