文書分類モデルの統計的性質に関する一考察

Slides:



Advertisements
Similar presentations
電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
Advertisements

音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
最大エントロピーモデルに基づく形態素解析と辞書による影響
形態素周辺確率を用いた 分かち書きの一般化とその応用
国内線で新千歳空港を利用している航空会社はどこですか?
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
情報学類 吉田光男 アドバイザー教官: 山本幹雄 先生
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
テキストマイニング, データマイニングと 社会活動のトレース
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
異種センサを用いた人の行動検知 研究概要 研究の独自性 isi担当 高汐グループ成果 スライド到着待ち yasu担当.
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
PSOLA法を用いた極低ビットレート音声符号化に関する検討
形態素解析および係り受け解析・主語を判別
テキストの類似度計算
日本大学 文理学部 情報システム解析学科 谷研究室 益田真太郎
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
情報理工学部 情報知能学科 H 柏木 康志 2010年 2月 2日
自動車レビューにおける検索と分析 H208032 松岡 智也 H208060 中西 潤 H208082 松井泰介.
10.通信路符号化手法2 (誤り検出と誤り訂正符号)
メソッド名とその周辺の識別子の 相関ルールに基づくメソッド名変更支援手法
ターム分布の確率モデル Zipfの法則:使用頻度の大きな語は語彙数が少なく,使用頻度の小さな語は語彙数が多い
日本語解析済みコーパス管理ツール 「茶器」
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
検索エンジンを利用した Covert Channelの検出
パターン認識とニューラルネットワーク 栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.
シミュレーション論 Ⅱ 第15回 まとめ.
情報管理論 2018/11/9 情報分析の道具 2018/11/9 情報分析の道具 情報分析の道具.
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
正規分布における ベーテ近似の解析解と数値解 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
あらまし アンサンブル学習の大きな特徴として,多数決などで生徒を組み合わせることにより,単一の生徒では表現できない入出力関係を実現できることがあげられる.その意味で,教師が生徒のモデル空間内にない場合のアンサンブル学習の解析は非常に興味深い.そこで本研究では,教師がコミティマシンであり生徒が単純パーセプトロンである場合のアンサンブル学習を統計力学的なオンライン学習の枠組みで議論する.メトロポリス法により汎化誤差を計算した結果,ヘブ学習ではすべての生徒は教師中間層の中央に漸近すること,パーセプトロン学習では
教師がコミティマシンの場合の アンサンブル学習
情報理工学系研究科 数理情報学専攻 数理第四研究室 博士三年 指導教員: 駒木 文保 准教授 鈴木 大慈 2008年8月14日
T2統計量・Q統計量 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への 簡易ナビゲーションシステム-
社会シミュレーションのための モデル作成環境
数量分析 第2回 データ解析技法とソフトウェア
知識情報演習Ⅲ(後半第2回) 辻 慶太
分子生物情報学(2) 配列のマルチプルアライメント法
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
テキストマイニング, データマイニングと 社会活動のトレース
Data Clustering: A Review
背景 課題 目的 手法 作業 期待 成果 有限体積法による汎用CFDにおける 流体構造連成解析ソルバーの計算効率の検証
Number of random matrices
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
コーディングパターンの あいまい検索の提案と実装
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
教師がコミティマシンの場合の アンサンブル学習
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
富山大学 公開講座 2008 「QRコードを作ろう!」 ~ ハミング距離 ~.
構造的類似性を持つ半構造化文書における頻度分析
第3日目第4時限の学習目標 第1日目第3時限のスライドによる、名義尺度2変数間の連関のカイ2乗統計量についての復習
設計情報の再利用を目的とした UML図の自動推薦ツール
高次元データにおける2次形式の近似について
ガウス分布における ベーテ近似の理論解析 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
自然言語処理2015 Natural Language Processing 2015
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
Webページタイプによるクラスタ リングを用いた検索支援システム
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
自然言語処理2016 Natural Language Processing 2016
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
ランダムプロジェクションを用いた音響モデルの線形変換
2012年度 情報数理 ~ ハミング距離 ~.
教師がコミティマシンの場合のアンサンブル学習 三好 誠司(神戸高専) 原 一之(都立高専) 岡田 真人(東大,理研,さきがけ)
Presentation transcript:

文書分類モデルの統計的性質に関する一考察 2006-10-4 JIMA秋季大会 県立広島大学 文書分類モデルの統計的性質に関する一考察 後藤 正幸(武蔵工業大学 環境情報学部 ) 平澤 茂一(早稲田大学 理工学部) 俵 信彦(武蔵工業大学 工学部)

うまくいく原理や問題の性質を解析的に明らかにしたい 2006-10-4 JIMA秋季大会 県立広島大学 1-1. はじめに コンピュータ能力,データ保存容量の向上 膨大な情報からの情報検索 自然言語処理 テキストマイニング ・ テキスト分類 ・ テキストクラスタリング ・自動要約、情報抽出 ・ トピック検出 ・ リコメンデーション 文書を単語ベクトルで表現 形態素解析 うまくいく原理や問題の性質を解析的に明らかにしたい さまざまなヒューリスティックス、経験的に良いとされている方法が使われている

要素である各単語の出現頻度は相対的に低い 分析に不要な単語が多数含まれる可能性有り 2006-10-4 JIMA秋季大会 県立広島大学 1-2. はじめに 自然言語処理の分野では、しばしば文書を単語ベクトルで表現して解析する di = ( 1 , 0 , 0 , 0 , 0, 1 , 0, 2, 0 , ・・・・・・・, 0 , 1, 0 ) 情報 重要語 経営 生産 工学 品質 パソコン プリンタ 増加 減少 楽し 述べ する …… 通常、3000以上の高次元ベクトル 要素である各単語の出現頻度は相対的に低い 分析に不要な単語が多数含まれる可能性有り 多次元ベクトルの統計量は多変量解析でも扱われるが、本質的に性質の異なる統計データ

要素である各単語の出現頻度は相対的に低い 分析に不要な単語が多数含まれる可能性有り 2006-10-4 JIMA秋季大会 県立広島大学 1-3. 研究目的 自然言語データの分析 通常、3000以上の高次元ベクトル 要素である各単語の出現頻度は相対的に低い 分析に不要な単語が多数含まれる可能性有り 分析手法の考え方自体は、従来の統計学と同類の問題を扱っているとも言える 仮説(統計モデル)があって採取される従来の統計の問題とは、データの質が異なる 本研究の目的 自然言語データの分析について、特に文書分類に注目し、分類精度や統計量の性質を明らかにする

運動会、システム、便利、良い、役立つ、撮影、 接続、スピード、問題、改善、必要、・・・・・・ 2006-10-4 JIMA秋季大会 県立広島大学 2.1 文書の単語分割とキーワード抽出 文書 i : 子供の運動会でとても良い映像が撮影できた。 形態素解析 子供 / の / 運動会 / で / ともて / 良い / 映像 / が / 撮影 / でき / た / 。 実際には読み、品詞情報などが付加できる 全文書の分析結果から、名詞、動詞などの有効語を抽出 キーワードリストの構成 運動会、システム、便利、良い、役立つ、撮影、  接続、スピード、問題、改善、必要、・・・・・・

運動会、システム、便利、良い、役立つ、撮影、 接続、スピード、問題、改善、必要、・・・・・・ 2006-10-4 JIMA秋季大会 県立広島大学 2.2 文書のベクトル表現 文書 i : 子供の運動会でとても良い映像が撮影できた。 形態素解析 子供 / の / 運動会 / で / ともて / 良い / 映像 / が / 撮影 / でき / た / 。 キーワードリストとのマッチング 運動会、システム、便利、良い、役立つ、撮影、  接続、スピード、問題、改善、必要、・・・・・・ 文書のベクトル表現

文書データを複数のカテゴリに振り分ける技術 2006-10-4 JIMA秋季大会 県立広島大学 2.3 文書分類(テキスト分類)問題 文書データを複数のカテゴリに振り分ける技術 カテゴリA カテゴリB 文書 ルール カテゴリC ・・・・ 過去の事例から 教師あり学習

2.3 文書分類(テキスト分類)問題 文書d1 カテゴリC 文書d2 カテゴリA 文書d3 カテゴリB ・・・・・ 文書dn カテゴリA 2006-10-4 JIMA秋季大会 県立広島大学 2.3 文書分類(テキスト分類)問題 文書d1 カテゴリC 文書d2 カテゴリA 過去の事例 文書d3 カテゴリB ・・・・・ 文書dn カテゴリA 新たな文書 文書d ??? 分類 分類精度は?

文書ベクトル空間 2.3 文書分類(テキスト分類)問題 グループB グループA グループC 2006-10-4 JIMA秋季大会 県立広島大学 2.3 文書分類(テキスト分類)問題 文書ベクトル空間 グループB グループA グループC

分析に不要な単語が多数含まれる可能性有り 2006-10-4 JIMA秋季大会 県立広島大学 3.1 統計的仮説検定の枠組みによる解析 di = ( 1 , 0 , 0 , 0 , 0, 1 , 0, 2, 0 , ・・・・・・・, 0 , 1, 0 ) 情報 重要語 経営 生産 工学 品質 パソコン プリンタ 増加 減少 楽し 述べ する …… 通常、3000以上の高次元ベクトル 分析に不要な単語が多数含まれる可能性有り カテゴリ数2のとき、統計的仮説検定の枠組みによって、不要語が分類パフォーマンスにどのような影響を与えるかを調べる

判定すべき文書dが、仮説C1と仮説C2のどちらのカテゴリから生起したものか? を判定する問題。 さらに、文書dの長さを十分長くできると仮定 2006-10-4 JIMA秋季大会 県立広島大学 3.2 統計的仮説検定の枠組みによる解析 仮定 文書ベクトルは、W次元多項分布に従うデータの経験分布で表されるものとする 仮説C1 p1 = (p11,p12 ,p13,p14 ,・・・・・・, p1W-1,p1W) 仮説C2 p2 = (p21,p22 ,p23,p24 ,・・・・・・, p2W-1,p2W) 判定すべき文書dが、仮説C1と仮説C2のどちらのカテゴリから生起したものか? を判定する問題。 さらに、文書dの長さを十分長くできると仮定

分析に不要な単語が多数含まれる可能性有り 2006-10-4 JIMA秋季大会 県立広島大学 3.3 統計的仮説検定の枠組みによる解析 分析に不要な単語が多数含まれる可能性有り 不要語が存在する場合を分析 カテゴリC1を特徴づける単語 カテゴリC2を特徴づける単語 分類(判定)に意味をなさない単語 仮説C1 p1 = (p11,・・・,p1p ,p1p+1,・・・,p1p+q, p1p+q+1,・・・,p1W) p2 = (p21,・・・,p2p ,p2p+1,・・・,p2p+q, p2p+q+1,・・・,p2W) 仮説C2 p個 q個 W-p-q個 有効語 不要語

この確率が小さくなるほど、分類のパフォーマンスは低下することが予想できる 2006-10-4 JIMA秋季大会 県立広島大学 3.4 統計的仮説検定の枠組みによる解析 有効語の出現確率 この確率が小さくなるほど、分類のパフォーマンスは低下することが予想できる どの程度か? 統計的仮説検定の枠組みで評価してみる 2つの分布の判別のし易さには、ダイバージェンスが深い意味を持つ

2006-10-4 JIMA秋季大会 県立広島大学 3.5 統計的仮説検定の枠組みによる解析 ネイマン-ピアソンの定理より 判定領域

3.6 統計的仮説検定の枠組みによる解析 現実的設定 理想状態 不要語を含んだダイバージェンス 不要語を含まない理想状態のダイバージェンス 2006-10-4 JIMA秋季大会 県立広島大学 3.6 統計的仮説検定の枠組みによる解析 現実的設定 不要語を含んだダイバージェンス 不要語を含まない理想状態のダイバージェンス 理想状態

2006-10-4 JIMA秋季大会 県立広島大学 3.7 統計的仮説検定の枠組みによる解析 1文書の単語出現数

2006-10-4 JIMA秋季大会 県立広島大学 3.8 統計的仮説検定の枠組みによる解析

判別したい文書長が十分長く、出現単語数を大きく取っても、不要語が同じオーダーで増えていくならば、判別誤り率は改善しない。 2006-10-4 JIMA秋季大会 県立広島大学 3.9 統計的仮説検定の枠組みによる解析 考察 不要語なしの理想状態 S の分だけ誤り率が劣化 不要語ありの場合 判別したい文書長が十分長く、出現単語数を大きく取っても、不要語が同じオーダーで増えていくならば、判別誤り率は改善しない。

要素である各単語の出現頻度は相対的に低い 2006-10-4 JIMA秋季大会 県立広島大学 4.1 分類に使われる類似度の分析 di = ( 1 , 0 , 0 , 0 , 0, 1 , 0, 2, 0 , ・・・・・・・, 0 , 1, 0 ) 情報 重要語 経営 生産 工学 品質 パソコン プリンタ 増加 減少 楽し 述べ する …… 通常、3000以上の高次元ベクトル 要素である各単語の出現頻度は相対的に低い 相対的に頻度の低い統計量をたくさん集めてくると、意味が出てくるのか?

多次元空間の距離はどのような振る舞いをするのか? 2006-10-4 JIMA秋季大会 県立広島大学 4.2 分類に使われる類似度の分析 文書ベクトル空間 グループB グループA グループC 多次元空間の距離はどのような振る舞いをするのか?

一つ一つの単語の出現頻度は少ない状況であるが、単語はたくさんある 2006-10-4 JIMA秋季大会 県立広島大学 4.3 分類に使われる類似度の分析 パソコン プリンタ 重要語 …… 経営 情報 生産 工学 品質 増加 減少 楽し 述べ する dt = ( 1 , 0 , 0 , 0 , 0, 1 , 0, 2, 0 , ・・・・・・・, 0 , 1, 0 ) 距離 du = ( 0 , 0 , 1 , 0 , 0, 2 , 0, 1, 0 , ・・・・・・・, 0 , 0, 1 ) 一つ一つの単語の出現頻度は少ない状況であるが、単語はたくさんある 出現頻度の少ない要素でも、次元数(単語数)を増やしていくと、うまく距離が測れるのか?

2006-10-4 JIMA秋季大会 県立広島大学 4.4 分類に使われる類似度の分析 ベクトルの余弦 KL-情報量

4.5 分類に使われる類似度の分析 単語の出現頻度(統計量)に基づく距離 真の確率分布を知った場合の距離 2006-10-4 JIMA秋季大会 県立広島大学 4.5 分類に使われる類似度の分析 単語の出現頻度(統計量)に基づく距離 真の確率分布を知った場合の距離

/ / / / r2 r1 q p s1 s2 p q 4.6 分類に使われる類似度の分析 簡単のため、3項分布の一般形で議論 文書dt 2006-10-4 JIMA秋季大会 県立広島大学 4.6 分類に使われる類似度の分析 簡単のため、3項分布の一般形で議論 p r1 / q r2 / 確率同じ 確率同じ 分類(判定)に意味をなさない単語 文書dt p1 = (p11,・・・,p1p ,p1p+1,・・・,p1p+q, p1p+q+1,・・・,p1W) p s1 / q s2 / 確率同じ 確率同じ 確率同じ p2 = (p21,・・・,p2p ,p2p+1,・・・,p2p+q, p2p+q+1,・・・,p2W) 文書du p個 q個 W-p-q個

2006-10-4 JIMA秋季大会 県立広島大学 4.7 分類に使われる類似度の分析

各単語の出現頻度は少なくても、そのような単語をたくさん集めてくることが出来れば、ほぼ正しい距離の測定が可能である。 2006-10-4 JIMA秋季大会 県立広島大学 4.8 分類に使われる類似度の分析 【定理3】 のもとで、W→∞ とすると、以下の概収束がなりたつ。 各単語の出現頻度は少なくても、そのような単語をたくさん集めてくることが出来れば、ほぼ正しい距離の測定が可能である。

頻度の少ない単語ベクトル間の距離を測っても、単語数が十分大きい高次元ベクトルであれば、うまく距離が測れる。 2006-10-4 JIMA秋季大会 県立広島大学 5. 考 察 不要語の影響を定量的に評価できた。不要語は判別性能を劣化させる。 頻度の少ない単語ベクトル間の距離を測っても、単語数が十分大きい高次元ベクトルであれば、うまく距離が測れる。 経験的に性能が良いとされているtf-idf measureのような不要語除去の仕組みが必要 テキストマイニングが理論上可能であることを裏付ける結果

要素である各単語の出現頻度は相対的に低い 分析に不要な単語が多数含まれる可能性有り 2006-10-4 JIMA秋季大会 県立広島大学 6. まとめ 自然言語データの分析 通常、3000以上の高次元ベクトル 要素である各単語の出現頻度は相対的に低い 分析に不要な単語が多数含まれる可能性有り   ① 仮説検定の枠組みにより、不要語の影響を     分析した。   ② 多次元、かつ相対的に頻度の小さい要素を持つ     ベクトル同士の類似度について分析した。 その結果  ① 不要語による漸近的な誤り率の劣化の程度を定量的に    評価できた。  ② マイニング技術にみられる情報量の少ないデータを多数    集めてくる問題の一モデルを提示し、現実的に使われる    距離構造の理論的妥当性について明らかにした。