テキストの類似度計算 2010.2.18.

Slides:



Advertisements
Similar presentations
データモデリング Web ページの検索とランキン グ Google, Yahoo はこんなことをして いる.
Advertisements

SlothLib.LinearAlgebra.FeatureVector 特徴ベクトル. SlothLib.LinearAlgebra.FeatureVector でできること ► 特徴ベクトル  次元は可変に増やすことができる  次元としてあらゆるデータ型が利用可能 ► string 型がよく使われる=文書の特徴ベクトル.
情報知能学 IV 情報知能学科 白井 英俊. 予定表 1.10 月 13 日:日本語処理の基礎 導入としての「情報検索」の紹介 課題:誰が理想の恋人か? 2.10 月 20 日:日本語処理の基礎:形態素解 析、文法用語、構文解析、プログラム作 成 3.10 月 27 日:正規表現の基礎 4.11 月.
電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
世帯マイクロデータの適合度評価における 重みの決定手法
白井ゼミ 豊田秀樹(2008)『データマイニング入門』 (東京図書)。4章
形態素周辺確率を用いた 分かち書きの一般化とその応用
コーパス言語学実践 2006年度2学期 第10回.
TF-IDF法とLSHアルゴリズムを用いた 関数単位のコードクローン検出法
国内線で新千歳空港を利用している航空会社はどこですか?
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
SPA 報告
データモデリング 推薦のための集合知プログラミング.
「Self-Organizing Map 自己組織化マップ」 を説明するスライド
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
日本語統語論:構造構築と意味 No.1 統語論とは
テキストマイニング, データマイニングと 社会活動のトレース
検索エンジンに関して The Anatomy of a Large-Scale Hypertextual Web Search Engine
オブジェクト指向プログラミング(2) OOPの三大要素 「クラス」「ポリモーフィズム」「継承」
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
平成19年5月19日 第3版 東京大学理学部生物化学図書室 前田 朗
情報理工学部 情報知能学科 H 柏木 康志 2010年 2月 2日
メディア計算機工学特論 2003 年度 Webにおける情報・知識の探索と検索の事例を とおして、現代的知識ベースとその利用法を理解する。
Topic-Word Selection Based on Combinatorial Probability
平成22年6月15日 図書系職員のための アプリケーション開発講習会
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
WWWとブラウザ.
データモデリング Webページの検索とランキング
IIR輪講復習 #10 XML retrieval
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
東京工科大学 コンピュータサイエンス学部 亀田弘之
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
コンポーネントの接続情報を検索する手法について
東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への 簡易ナビゲーションシステム-
コードクローン検出ツールを用いた ソースコード分析システムの試作と プログラミング演習への適用
知識情報演習Ⅲ(後半第3回) 辻 慶太
コード片のベクトル表現に基づく 大規模コードクローン集合の特徴調査
2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典.
知識情報演習Ⅲ(後半第2回) 辻 慶太
分子生物情報学(2) 配列のマルチプルアライメント法
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
複数特徴量の重み付け統合による一般物体認識
テキストマイニング, データマイニングと 社会活動のトレース
知識情報演習Ⅲ(後半第3回) 辻 慶太
Data Clustering: A Review
論文紹介: “Joint Embedding of Words and Labels for Text Classification”
文書分類モデルの統計的性質に関する一考察
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
JavaScriptを含んだHTML文書に対する データフロー解析を用いた構文検証手法の提案
Webページのグループ化による 静的動的スコアリング
構造的類似性を持つ半構造化文書における頻度分析
データ工学特論 第六回 木村昌臣.
発表32 レポート評価支援について (剽窃部分と指導箇所の検出)
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
コーパス コーパス(Corpus)はコンピュータの発達とともに、計算機可読なデータを容易に作成・収集することができるようになったことがその背景にある。現在ではコーパス言語学などの学問もある。
A-17 検索履歴のプライバシーを秘匿した ユーザクラスタリング
自然言語処理2015 Natural Language Processing 2015
欠陥検出を目的とした類似コード検索法 吉田則裕,石尾隆,松下誠,井上克郎 大阪大学 大学院情報科学研究科
テキストデータベース.
Webページタイプによるクラスタ リングを用いた検索支援システム
自然言語処理2016 Natural Language Processing 2016
mi-8. 自然言語処理 人工知能を演習で学ぶシリーズ(8)
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
アノテーションガイドラインの管理を行う アノテーションシステムの提案
雑音環境下における Sparse Coding声質変換 3-P-49d
1.2 言語処理の諸観点 (1)言語処理の利用分野
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

テキストの類似度計算 2010.2.18

Agenda ・導入 ・類似度とは ・TFIDF

1. 類似度とは?

What is the similarity? 【人間にとっての類似性の基準】 「意味」 「表現」 「なんとなく」

What is the similarity? 【人間にとっての類似性の基準】 「意味」 「表現」 「なんとなく」 抽象度の高い判断

What is the similarity? 機械で「意味」を理解することは困難

What is the similarity? 機械で「意味」を理解することは困難 統計的・数理的判断

What is the similarity? 機械で「意味」を理解することは困難 統計的・数理的判断 何の統計を取るの?

2. Bag Of Words model

Bag Of Words model "単語がつまったかばん、 つまり、文章を単語の集合とする表現のこと。" http://nlp.nagaokaut.ac.jp/bag-of-words

Bag Of Words model ・単語(形態素)とは?

Bag Of Words model ・単語(形態素)とは?   mecabが単語と判断したものです!(キリッ

Bag Of Words model

Bag Of Words model ・単語(形態素)とは? …言語学の分野でも厳密に定義されているわけではない。   mecabが単語と判断したものです!(キリッ …言語学の分野でも厳密に定義されているわけではない。

Bag Of Words model ・単語(形態素)とは? 単語をどう使うの? …言語学の分野でも厳密に定義されているわけではない。   mecabが単語と判断したものです!(キリッ …言語学の分野でも厳密に定義されているわけではない。 単語をどう使うの?

3. Cosine Similarity

Cosine Similarity cosine similarity = cos α ・単語情報を使って文書をベクトル化 ・文書ベクトル同士の角度から類似度を算出 cosine similarity = cos α α°

文書ベクトルの作り方 Cosine Similarity ・step.1 この世のあまねく単語を収集 ・step.2 抽出した単語のスコア(後述)を空間にマッピング

文書ベクトルの例 Cosine Similarity ・step.1 この世のあまねく単語 = 2単語(「紫蘇」「破滅」) ・step.2 (みんなの大好きな)2次元空間を想定 ・step.3 対象文書から単語を抽出(「紫蘇」「紫蘇」「破滅」) ・step.4 空間U = {(紫蘇),(破滅)} ベクトルD = {2,1}

Cosine Similarity {2,1}

Cosine Similarity {2,1} 単語のスコアって、頻度だけ?

4. TF*IDF

TF*IDF "索引語の重み付け方法のひとつ。 ・TF(Term Frequency)は文書dに置ける検索語tの頻度 ・IDF(Inverted Document Frequency)は索引語が現れる相対文書頻度の逆数の対数" http://nlp.nagaokaut.ac.jp/TF%E3%83%BBIDF

TF*IDF TFの考え方: 一文書内にたくさん出てきた単語は重要 IDFの考え方: たくさんの文書に多く共通している単語は非重要

TF*IDF IDFの計算例 紫蘇:2 紫蘇:0 紫蘇:0 紫蘇:3 破滅:0 破滅:2 破滅:1 破滅:10 「紫蘇」のIDF : log10(4 / 2) + 1 「破滅」のIDF : log10(4 / 3) + 1

6. Essence

Essence ・機械は意味を読み取れないので・・・ ・類似度を判定するために・・・ ・ベクトルの要素の重みを決めるために・・・    単語を使って統計的に類似度を判定 ・類似度を判定するために・・・    ベクトルモデルからコサイン類似度を算出 ・ベクトルの要素の重みを決めるために・・・    TF*IDFという指標を使用 ・それらを使って・・・    入力と類似した増田の記事を検索してみた ・全体的に・・・    今回用いたのは例のひとつ。他にも様々な手法がある