Presentation is loading. Please wait.

Presentation is loading. Please wait.

文書分類モデルの統計的性質に関する一考察

Similar presentations


Presentation on theme: "文書分類モデルの統計的性質に関する一考察"— Presentation transcript:

1 文書分類モデルの統計的性質に関する一考察
JIMA秋季大会 県立広島大学 文書分類モデルの統計的性質に関する一考察 後藤 正幸(武蔵工業大学 環境情報学部 ) 平澤 茂一(早稲田大学 理工学部) 俵 信彦(武蔵工業大学 工学部)

2 うまくいく原理や問題の性質を解析的に明らかにしたい
JIMA秋季大会 県立広島大学 1-1. はじめに コンピュータ能力,データ保存容量の向上 膨大な情報からの情報検索 自然言語処理 テキストマイニング ・ テキスト分類 ・ テキストクラスタリング ・自動要約、情報抽出 ・ トピック検出 ・ リコメンデーション 文書を単語ベクトルで表現 形態素解析 うまくいく原理や問題の性質を解析的に明らかにしたい さまざまなヒューリスティックス、経験的に良いとされている方法が使われている

3 要素である各単語の出現頻度は相対的に低い 分析に不要な単語が多数含まれる可能性有り
JIMA秋季大会 県立広島大学 1-2. はじめに 自然言語処理の分野では、しばしば文書を単語ベクトルで表現して解析する di = ( 1 , 0 , 0 , 0 , 0, 1 , 0, 2, 0 , ・・・・・・・, 0 , 1, 0 ) 情報 重要語 経営 生産 工学 品質 パソコン プリンタ 増加 減少 楽し 述べ する …… 通常、3000以上の高次元ベクトル 要素である各単語の出現頻度は相対的に低い 分析に不要な単語が多数含まれる可能性有り 多次元ベクトルの統計量は多変量解析でも扱われるが、本質的に性質の異なる統計データ

4 要素である各単語の出現頻度は相対的に低い 分析に不要な単語が多数含まれる可能性有り
JIMA秋季大会 県立広島大学 1-3. 研究目的 自然言語データの分析 通常、3000以上の高次元ベクトル 要素である各単語の出現頻度は相対的に低い 分析に不要な単語が多数含まれる可能性有り 分析手法の考え方自体は、従来の統計学と同類の問題を扱っているとも言える 仮説(統計モデル)があって採取される従来の統計の問題とは、データの質が異なる 本研究の目的 自然言語データの分析について、特に文書分類に注目し、分類精度や統計量の性質を明らかにする

5 運動会、システム、便利、良い、役立つ、撮影、 接続、スピード、問題、改善、必要、・・・・・・
JIMA秋季大会 県立広島大学 2.1 文書の単語分割とキーワード抽出 文書 i : 子供の運動会でとても良い映像が撮影できた。 形態素解析 子供 / の / 運動会 / で / ともて / 良い / 映像 / が / 撮影 / でき / た / 。 実際には読み、品詞情報などが付加できる 全文書の分析結果から、名詞、動詞などの有効語を抽出 キーワードリストの構成 運動会、システム、便利、良い、役立つ、撮影、  接続、スピード、問題、改善、必要、・・・・・・

6 運動会、システム、便利、良い、役立つ、撮影、 接続、スピード、問題、改善、必要、・・・・・・
JIMA秋季大会 県立広島大学 2.2 文書のベクトル表現 文書 i : 子供の運動会でとても良い映像が撮影できた。 形態素解析 子供 / の / 運動会 / で / ともて / 良い / 映像 / が / 撮影 / でき / た / 。 キーワードリストとのマッチング 運動会、システム、便利、良い、役立つ、撮影、  接続、スピード、問題、改善、必要、・・・・・・ 文書のベクトル表現

7 文書データを複数のカテゴリに振り分ける技術
JIMA秋季大会 県立広島大学 2.3 文書分類(テキスト分類)問題 文書データを複数のカテゴリに振り分ける技術 カテゴリA カテゴリB 文書 ルール カテゴリC ・・・・ 過去の事例から 教師あり学習

8 2.3 文書分類(テキスト分類)問題 文書d1 カテゴリC 文書d2 カテゴリA 文書d3 カテゴリB ・・・・・ 文書dn カテゴリA
JIMA秋季大会 県立広島大学 2.3 文書分類(テキスト分類)問題 文書d1 カテゴリC 文書d2 カテゴリA 過去の事例 文書d3 カテゴリB ・・・・・ 文書dn カテゴリA 新たな文書 文書d ??? 分類 分類精度は?

9 文書ベクトル空間 2.3 文書分類(テキスト分類)問題 グループB グループA グループC 2006-10-4 JIMA秋季大会
県立広島大学 2.3 文書分類(テキスト分類)問題 文書ベクトル空間 グループB グループA グループC

10 分析に不要な単語が多数含まれる可能性有り
JIMA秋季大会 県立広島大学 3.1 統計的仮説検定の枠組みによる解析 di = ( 1 , 0 , 0 , 0 , 0, 1 , 0, 2, 0 , ・・・・・・・, 0 , 1, 0 ) 情報 重要語 経営 生産 工学 品質 パソコン プリンタ 増加 減少 楽し 述べ する …… 通常、3000以上の高次元ベクトル 分析に不要な単語が多数含まれる可能性有り カテゴリ数2のとき、統計的仮説検定の枠組みによって、不要語が分類パフォーマンスにどのような影響を与えるかを調べる

11 判定すべき文書dが、仮説C1と仮説C2のどちらのカテゴリから生起したものか? を判定する問題。 さらに、文書dの長さを十分長くできると仮定
JIMA秋季大会 県立広島大学 3.2 統計的仮説検定の枠組みによる解析 仮定 文書ベクトルは、W次元多項分布に従うデータの経験分布で表されるものとする 仮説C1 p1 = (p11,p12 ,p13,p14 ,・・・・・・, p1W-1,p1W) 仮説C2 p2 = (p21,p22 ,p23,p24 ,・・・・・・, p2W-1,p2W) 判定すべき文書dが、仮説C1と仮説C2のどちらのカテゴリから生起したものか? を判定する問題。 さらに、文書dの長さを十分長くできると仮定

12 分析に不要な単語が多数含まれる可能性有り
JIMA秋季大会 県立広島大学 3.3 統計的仮説検定の枠組みによる解析 分析に不要な単語が多数含まれる可能性有り 不要語が存在する場合を分析 カテゴリC1を特徴づける単語 カテゴリC2を特徴づける単語 分類(判定)に意味をなさない単語 仮説C1 p1 = (p11,・・・,p1p ,p1p+1,・・・,p1p+q, p1p+q+1,・・・,p1W) p2 = (p21,・・・,p2p ,p2p+1,・・・,p2p+q, p2p+q+1,・・・,p2W) 仮説C2 p個 q個 W-p-q個 有効語 不要語

13 この確率が小さくなるほど、分類のパフォーマンスは低下することが予想できる
JIMA秋季大会 県立広島大学 3.4 統計的仮説検定の枠組みによる解析 有効語の出現確率 この確率が小さくなるほど、分類のパフォーマンスは低下することが予想できる どの程度か? 統計的仮説検定の枠組みで評価してみる 2つの分布の判別のし易さには、ダイバージェンスが深い意味を持つ

14 JIMA秋季大会 県立広島大学 3.5 統計的仮説検定の枠組みによる解析 ネイマン-ピアソンの定理より 判定領域

15 3.6 統計的仮説検定の枠組みによる解析 現実的設定 理想状態 不要語を含んだダイバージェンス 不要語を含まない理想状態のダイバージェンス
JIMA秋季大会 県立広島大学 3.6 統計的仮説検定の枠組みによる解析 現実的設定 不要語を含んだダイバージェンス 不要語を含まない理想状態のダイバージェンス 理想状態

16 JIMA秋季大会 県立広島大学 3.7 統計的仮説検定の枠組みによる解析 1文書の単語出現数

17 JIMA秋季大会 県立広島大学 3.8 統計的仮説検定の枠組みによる解析

18 判別したい文書長が十分長く、出現単語数を大きく取っても、不要語が同じオーダーで増えていくならば、判別誤り率は改善しない。
JIMA秋季大会 県立広島大学 3.9 統計的仮説検定の枠組みによる解析 考察 不要語なしの理想状態 S の分だけ誤り率が劣化 不要語ありの場合 判別したい文書長が十分長く、出現単語数を大きく取っても、不要語が同じオーダーで増えていくならば、判別誤り率は改善しない。

19 要素である各単語の出現頻度は相対的に低い
JIMA秋季大会 県立広島大学 4.1 分類に使われる類似度の分析 di = ( 1 , 0 , 0 , 0 , 0, 1 , 0, 2, 0 , ・・・・・・・, 0 , 1, 0 ) 情報 重要語 経営 生産 工学 品質 パソコン プリンタ 増加 減少 楽し 述べ する …… 通常、3000以上の高次元ベクトル 要素である各単語の出現頻度は相対的に低い 相対的に頻度の低い統計量をたくさん集めてくると、意味が出てくるのか?

20 多次元空間の距離はどのような振る舞いをするのか?
JIMA秋季大会 県立広島大学 4.2 分類に使われる類似度の分析 文書ベクトル空間 グループB グループA グループC 多次元空間の距離はどのような振る舞いをするのか?

21 一つ一つの単語の出現頻度は少ない状況であるが、単語はたくさんある
JIMA秋季大会 県立広島大学 4.3 分類に使われる類似度の分析 パソコン プリンタ 重要語 …… 経営 情報 生産 工学 品質 増加 減少 楽し 述べ する dt = ( 1 , 0 , 0 , 0 , 0, 1 , 0, 2, 0 , ・・・・・・・, 0 , 1, 0 ) 距離 du = ( 0 , 0 , 1 , 0 , 0, 2 , 0, 1, 0 , ・・・・・・・, 0 , 0, 1 ) 一つ一つの単語の出現頻度は少ない状況であるが、単語はたくさんある 出現頻度の少ない要素でも、次元数(単語数)を増やしていくと、うまく距離が測れるのか?

22 JIMA秋季大会 県立広島大学 4.4 分類に使われる類似度の分析 ベクトルの余弦 KL-情報量

23 4.5 分類に使われる類似度の分析 単語の出現頻度(統計量)に基づく距離 真の確率分布を知った場合の距離
JIMA秋季大会 県立広島大学 4.5 分類に使われる類似度の分析 単語の出現頻度(統計量)に基づく距離 真の確率分布を知った場合の距離

24 / / / / r2 r1 q p s1 s2 p q 4.6 分類に使われる類似度の分析 簡単のため、3項分布の一般形で議論 文書dt
JIMA秋季大会 県立広島大学 4.6 分類に使われる類似度の分析 簡単のため、3項分布の一般形で議論 p r1 / q r2 / 確率同じ 確率同じ 分類(判定)に意味をなさない単語 文書dt p1 = (p11,・・・,p1p ,p1p+1,・・・,p1p+q, p1p+q+1,・・・,p1W) p s1 / q s2 / 確率同じ 確率同じ 確率同じ p2 = (p21,・・・,p2p ,p2p+1,・・・,p2p+q, p2p+q+1,・・・,p2W) 文書du p個 q個 W-p-q個

25 JIMA秋季大会 県立広島大学 4.7 分類に使われる類似度の分析

26 各単語の出現頻度は少なくても、そのような単語をたくさん集めてくることが出来れば、ほぼ正しい距離の測定が可能である。
JIMA秋季大会 県立広島大学 4.8 分類に使われる類似度の分析 【定理3】 のもとで、W→∞ とすると、以下の概収束がなりたつ。 各単語の出現頻度は少なくても、そのような単語をたくさん集めてくることが出来れば、ほぼ正しい距離の測定が可能である。

27 頻度の少ない単語ベクトル間の距離を測っても、単語数が十分大きい高次元ベクトルであれば、うまく距離が測れる。
JIMA秋季大会 県立広島大学 5. 考 察 不要語の影響を定量的に評価できた。不要語は判別性能を劣化させる。 頻度の少ない単語ベクトル間の距離を測っても、単語数が十分大きい高次元ベクトルであれば、うまく距離が測れる。 経験的に性能が良いとされているtf-idf measureのような不要語除去の仕組みが必要 テキストマイニングが理論上可能であることを裏付ける結果

28 要素である各単語の出現頻度は相対的に低い 分析に不要な単語が多数含まれる可能性有り
JIMA秋季大会 県立広島大学 6. まとめ 自然言語データの分析 通常、3000以上の高次元ベクトル 要素である各単語の出現頻度は相対的に低い 分析に不要な単語が多数含まれる可能性有り   ① 仮説検定の枠組みにより、不要語の影響を     分析した。   ② 多次元、かつ相対的に頻度の小さい要素を持つ     ベクトル同士の類似度について分析した。 その結果  ① 不要語による漸近的な誤り率の劣化の程度を定量的に    評価できた。  ② マイニング技術にみられる情報量の少ないデータを多数    集めてくる問題の一モデルを提示し、現実的に使われる    距離構造の理論的妥当性について明らかにした。


Download ppt "文書分類モデルの統計的性質に関する一考察"

Similar presentations


Ads by Google