文書分類モデルの統計的性質に関する一考察 2006-10-4 JIMA秋季大会 県立広島大学 文書分類モデルの統計的性質に関する一考察 後藤 正幸(武蔵工業大学 環境情報学部 ) 平澤 茂一(早稲田大学 理工学部) 俵 信彦(武蔵工業大学 工学部)
うまくいく原理や問題の性質を解析的に明らかにしたい 2006-10-4 JIMA秋季大会 県立広島大学 1-1. はじめに コンピュータ能力,データ保存容量の向上 膨大な情報からの情報検索 自然言語処理 テキストマイニング ・ テキスト分類 ・ テキストクラスタリング ・自動要約、情報抽出 ・ トピック検出 ・ リコメンデーション 文書を単語ベクトルで表現 形態素解析 うまくいく原理や問題の性質を解析的に明らかにしたい さまざまなヒューリスティックス、経験的に良いとされている方法が使われている
要素である各単語の出現頻度は相対的に低い 分析に不要な単語が多数含まれる可能性有り 2006-10-4 JIMA秋季大会 県立広島大学 1-2. はじめに 自然言語処理の分野では、しばしば文書を単語ベクトルで表現して解析する di = ( 1 , 0 , 0 , 0 , 0, 1 , 0, 2, 0 , ・・・・・・・, 0 , 1, 0 ) 情報 重要語 経営 生産 工学 品質 パソコン プリンタ 増加 減少 楽し 述べ する …… 通常、3000以上の高次元ベクトル 要素である各単語の出現頻度は相対的に低い 分析に不要な単語が多数含まれる可能性有り 多次元ベクトルの統計量は多変量解析でも扱われるが、本質的に性質の異なる統計データ
要素である各単語の出現頻度は相対的に低い 分析に不要な単語が多数含まれる可能性有り 2006-10-4 JIMA秋季大会 県立広島大学 1-3. 研究目的 自然言語データの分析 通常、3000以上の高次元ベクトル 要素である各単語の出現頻度は相対的に低い 分析に不要な単語が多数含まれる可能性有り 分析手法の考え方自体は、従来の統計学と同類の問題を扱っているとも言える 仮説(統計モデル)があって採取される従来の統計の問題とは、データの質が異なる 本研究の目的 自然言語データの分析について、特に文書分類に注目し、分類精度や統計量の性質を明らかにする
運動会、システム、便利、良い、役立つ、撮影、 接続、スピード、問題、改善、必要、・・・・・・ 2006-10-4 JIMA秋季大会 県立広島大学 2.1 文書の単語分割とキーワード抽出 文書 i : 子供の運動会でとても良い映像が撮影できた。 形態素解析 子供 / の / 運動会 / で / ともて / 良い / 映像 / が / 撮影 / でき / た / 。 実際には読み、品詞情報などが付加できる 全文書の分析結果から、名詞、動詞などの有効語を抽出 キーワードリストの構成 運動会、システム、便利、良い、役立つ、撮影、 接続、スピード、問題、改善、必要、・・・・・・
運動会、システム、便利、良い、役立つ、撮影、 接続、スピード、問題、改善、必要、・・・・・・ 2006-10-4 JIMA秋季大会 県立広島大学 2.2 文書のベクトル表現 文書 i : 子供の運動会でとても良い映像が撮影できた。 形態素解析 子供 / の / 運動会 / で / ともて / 良い / 映像 / が / 撮影 / でき / た / 。 キーワードリストとのマッチング 運動会、システム、便利、良い、役立つ、撮影、 接続、スピード、問題、改善、必要、・・・・・・ 文書のベクトル表現
文書データを複数のカテゴリに振り分ける技術 2006-10-4 JIMA秋季大会 県立広島大学 2.3 文書分類(テキスト分類)問題 文書データを複数のカテゴリに振り分ける技術 カテゴリA カテゴリB 文書 ルール カテゴリC ・・・・ 過去の事例から 教師あり学習
2.3 文書分類(テキスト分類)問題 文書d1 カテゴリC 文書d2 カテゴリA 文書d3 カテゴリB ・・・・・ 文書dn カテゴリA 2006-10-4 JIMA秋季大会 県立広島大学 2.3 文書分類(テキスト分類)問題 文書d1 カテゴリC 文書d2 カテゴリA 過去の事例 文書d3 カテゴリB ・・・・・ 文書dn カテゴリA 新たな文書 文書d ??? 分類 分類精度は?
文書ベクトル空間 2.3 文書分類(テキスト分類)問題 グループB グループA グループC 2006-10-4 JIMA秋季大会 県立広島大学 2.3 文書分類(テキスト分類)問題 文書ベクトル空間 グループB グループA グループC
分析に不要な単語が多数含まれる可能性有り 2006-10-4 JIMA秋季大会 県立広島大学 3.1 統計的仮説検定の枠組みによる解析 di = ( 1 , 0 , 0 , 0 , 0, 1 , 0, 2, 0 , ・・・・・・・, 0 , 1, 0 ) 情報 重要語 経営 生産 工学 品質 パソコン プリンタ 増加 減少 楽し 述べ する …… 通常、3000以上の高次元ベクトル 分析に不要な単語が多数含まれる可能性有り カテゴリ数2のとき、統計的仮説検定の枠組みによって、不要語が分類パフォーマンスにどのような影響を与えるかを調べる
判定すべき文書dが、仮説C1と仮説C2のどちらのカテゴリから生起したものか? を判定する問題。 さらに、文書dの長さを十分長くできると仮定 2006-10-4 JIMA秋季大会 県立広島大学 3.2 統計的仮説検定の枠組みによる解析 仮定 文書ベクトルは、W次元多項分布に従うデータの経験分布で表されるものとする 仮説C1 p1 = (p11,p12 ,p13,p14 ,・・・・・・, p1W-1,p1W) 仮説C2 p2 = (p21,p22 ,p23,p24 ,・・・・・・, p2W-1,p2W) 判定すべき文書dが、仮説C1と仮説C2のどちらのカテゴリから生起したものか? を判定する問題。 さらに、文書dの長さを十分長くできると仮定
分析に不要な単語が多数含まれる可能性有り 2006-10-4 JIMA秋季大会 県立広島大学 3.3 統計的仮説検定の枠組みによる解析 分析に不要な単語が多数含まれる可能性有り 不要語が存在する場合を分析 カテゴリC1を特徴づける単語 カテゴリC2を特徴づける単語 分類(判定)に意味をなさない単語 仮説C1 p1 = (p11,・・・,p1p ,p1p+1,・・・,p1p+q, p1p+q+1,・・・,p1W) p2 = (p21,・・・,p2p ,p2p+1,・・・,p2p+q, p2p+q+1,・・・,p2W) 仮説C2 p個 q個 W-p-q個 有効語 不要語
この確率が小さくなるほど、分類のパフォーマンスは低下することが予想できる 2006-10-4 JIMA秋季大会 県立広島大学 3.4 統計的仮説検定の枠組みによる解析 有効語の出現確率 この確率が小さくなるほど、分類のパフォーマンスは低下することが予想できる どの程度か? 統計的仮説検定の枠組みで評価してみる 2つの分布の判別のし易さには、ダイバージェンスが深い意味を持つ
2006-10-4 JIMA秋季大会 県立広島大学 3.5 統計的仮説検定の枠組みによる解析 ネイマン-ピアソンの定理より 判定領域
3.6 統計的仮説検定の枠組みによる解析 現実的設定 理想状態 不要語を含んだダイバージェンス 不要語を含まない理想状態のダイバージェンス 2006-10-4 JIMA秋季大会 県立広島大学 3.6 統計的仮説検定の枠組みによる解析 現実的設定 不要語を含んだダイバージェンス 不要語を含まない理想状態のダイバージェンス 理想状態
2006-10-4 JIMA秋季大会 県立広島大学 3.7 統計的仮説検定の枠組みによる解析 1文書の単語出現数
2006-10-4 JIMA秋季大会 県立広島大学 3.8 統計的仮説検定の枠組みによる解析
判別したい文書長が十分長く、出現単語数を大きく取っても、不要語が同じオーダーで増えていくならば、判別誤り率は改善しない。 2006-10-4 JIMA秋季大会 県立広島大学 3.9 統計的仮説検定の枠組みによる解析 考察 不要語なしの理想状態 S の分だけ誤り率が劣化 不要語ありの場合 判別したい文書長が十分長く、出現単語数を大きく取っても、不要語が同じオーダーで増えていくならば、判別誤り率は改善しない。
要素である各単語の出現頻度は相対的に低い 2006-10-4 JIMA秋季大会 県立広島大学 4.1 分類に使われる類似度の分析 di = ( 1 , 0 , 0 , 0 , 0, 1 , 0, 2, 0 , ・・・・・・・, 0 , 1, 0 ) 情報 重要語 経営 生産 工学 品質 パソコン プリンタ 増加 減少 楽し 述べ する …… 通常、3000以上の高次元ベクトル 要素である各単語の出現頻度は相対的に低い 相対的に頻度の低い統計量をたくさん集めてくると、意味が出てくるのか?
多次元空間の距離はどのような振る舞いをするのか? 2006-10-4 JIMA秋季大会 県立広島大学 4.2 分類に使われる類似度の分析 文書ベクトル空間 グループB グループA グループC 多次元空間の距離はどのような振る舞いをするのか?
一つ一つの単語の出現頻度は少ない状況であるが、単語はたくさんある 2006-10-4 JIMA秋季大会 県立広島大学 4.3 分類に使われる類似度の分析 パソコン プリンタ 重要語 …… 経営 情報 生産 工学 品質 増加 減少 楽し 述べ する dt = ( 1 , 0 , 0 , 0 , 0, 1 , 0, 2, 0 , ・・・・・・・, 0 , 1, 0 ) 距離 du = ( 0 , 0 , 1 , 0 , 0, 2 , 0, 1, 0 , ・・・・・・・, 0 , 0, 1 ) 一つ一つの単語の出現頻度は少ない状況であるが、単語はたくさんある 出現頻度の少ない要素でも、次元数(単語数)を増やしていくと、うまく距離が測れるのか?
2006-10-4 JIMA秋季大会 県立広島大学 4.4 分類に使われる類似度の分析 ベクトルの余弦 KL-情報量
4.5 分類に使われる類似度の分析 単語の出現頻度(統計量)に基づく距離 真の確率分布を知った場合の距離 2006-10-4 JIMA秋季大会 県立広島大学 4.5 分類に使われる類似度の分析 単語の出現頻度(統計量)に基づく距離 真の確率分布を知った場合の距離
/ / / / r2 r1 q p s1 s2 p q 4.6 分類に使われる類似度の分析 簡単のため、3項分布の一般形で議論 文書dt 2006-10-4 JIMA秋季大会 県立広島大学 4.6 分類に使われる類似度の分析 簡単のため、3項分布の一般形で議論 p r1 / q r2 / 確率同じ 確率同じ 分類(判定)に意味をなさない単語 文書dt p1 = (p11,・・・,p1p ,p1p+1,・・・,p1p+q, p1p+q+1,・・・,p1W) p s1 / q s2 / 確率同じ 確率同じ 確率同じ p2 = (p21,・・・,p2p ,p2p+1,・・・,p2p+q, p2p+q+1,・・・,p2W) 文書du p個 q個 W-p-q個
2006-10-4 JIMA秋季大会 県立広島大学 4.7 分類に使われる類似度の分析
各単語の出現頻度は少なくても、そのような単語をたくさん集めてくることが出来れば、ほぼ正しい距離の測定が可能である。 2006-10-4 JIMA秋季大会 県立広島大学 4.8 分類に使われる類似度の分析 【定理3】 のもとで、W→∞ とすると、以下の概収束がなりたつ。 各単語の出現頻度は少なくても、そのような単語をたくさん集めてくることが出来れば、ほぼ正しい距離の測定が可能である。
頻度の少ない単語ベクトル間の距離を測っても、単語数が十分大きい高次元ベクトルであれば、うまく距離が測れる。 2006-10-4 JIMA秋季大会 県立広島大学 5. 考 察 不要語の影響を定量的に評価できた。不要語は判別性能を劣化させる。 頻度の少ない単語ベクトル間の距離を測っても、単語数が十分大きい高次元ベクトルであれば、うまく距離が測れる。 経験的に性能が良いとされているtf-idf measureのような不要語除去の仕組みが必要 テキストマイニングが理論上可能であることを裏付ける結果
要素である各単語の出現頻度は相対的に低い 分析に不要な単語が多数含まれる可能性有り 2006-10-4 JIMA秋季大会 県立広島大学 6. まとめ 自然言語データの分析 通常、3000以上の高次元ベクトル 要素である各単語の出現頻度は相対的に低い 分析に不要な単語が多数含まれる可能性有り ① 仮説検定の枠組みにより、不要語の影響を 分析した。 ② 多次元、かつ相対的に頻度の小さい要素を持つ ベクトル同士の類似度について分析した。 その結果 ① 不要語による漸近的な誤り率の劣化の程度を定量的に 評価できた。 ② マイニング技術にみられる情報量の少ないデータを多数 集めてくる問題の一モデルを提示し、現実的に使われる 距離構造の理論的妥当性について明らかにした。