テキストの類似度計算 2010.2.18.

Slides:

Advertisements

Similar presentations

データモデリング Web ページの検索とランキング Google, Yahoo はこんなことをしている.

Advertisements

SlothLib.LinearAlgebra.FeatureVector 特徴ベクトル. SlothLib.LinearAlgebra.FeatureVector でできること ► 特徴ベクトル  次元は可変に増やすことができる  次元としてあらゆるデータ型が利用可能 ► string 型がよく使われる＝文書の特徴ベクトル.

情報知能学 IV 情報知能学科白井英俊. 予定表 1.10 月 13 日：日本語処理の基礎導入としての「情報検索」の紹介課題：誰が理想の恋人か？ 2.10 月 20 日：日本語処理の基礎：形態素解析、文法用語、構文解析、プログラム作成 3.10 月 27 日：正規表現の基礎 4.11 月.

電子書籍の検索機能の改善木下研究室２０１００２７１３鴫原善寿. 背景スマートフォンなどの携帯端末の普及とともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も現れた。電子書籍はデータなので本棚もいらず、持ち運びも容易になるなど様々な恩恵をもたらした。

世帯マイクロデータの適合度評価における重みの決定手法

白井ゼミ豊田秀樹(2008)『データマイニング入門』 (東京図書)。４章

形態素周辺確率を用いた分かち書きの一般化とその応用

コーパス言語学実践 2006年度2学期第10回.

TF-IDF法とLSHアルゴリズムを用いた関数単位のコードクローン検出法

国内線で新千歳空港を利用している航空会社はどこですか？

知識情報演習Ⅲ（後半第1回）辻慶太（水）

データモデリング推薦のための集合知プログラミング.

「Self-Organizing Map 自己組織化マップ」を説明するスライド

情報爆発A01支援班マイサーチエンジン開発環境支援グループ中村聡史, 大島裕明, 田中克己, 喜連川優

日本語統語論：構造構築と意味 No.1 統語論とは

テキストマイニング，データマイニングと社会活動のトレース

検索エンジンに関して The Anatomy of a Large-Scale Hypertextual Web Search Engine

オブジェクト指向プログラミング（２）ＯＯＰの三大要素「クラス」「ポリモーフィズム」「継承」

リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究

平成１９年５月19日第3版東京大学理学部生物化学図書室前田朗

情報理工学部情報知能学科 H 柏木康志 2010年 2月 2日

メディア計算機工学特論 2003 年度Ｗｅｂにおける情報・知識の探索と検索の事例をとおして、現代的知識ベースとその利用法を理解する。

Topic-Word Selection Based on Combinatorial Probability

平成２２年６月１５日図書系職員のためのアプリケーション開発講習会

大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換

WWWとブラウザ.

データモデリング Webページの検索とランキング

IIR輪講復習 #10 XML retrieval

定兼邦彦今井浩東京大学理学系研究科情報科学専攻

東京工科大学コンピュータサイエンス学部亀田弘之

人工知能特論９．パーセプトロン北陸先端科学技術大学院大学　鶴岡慶雅.

コンポーネントの接続情報を検索する手法について

東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への簡易ナビゲーションシステム-

コードクローン検出ツールを用いたソースコード分析システムの試作とプログラミング演習への適用

知識情報演習Ⅲ（後半第3回）辻　慶太

コード片のベクトル表現に基づく大規模コードクローン集合の特徴調査

2018/9/10 ACL読み会名古屋大学大学院　M２佐藤・松崎研土居裕典.

知識情報演習Ⅲ（後半第2回）辻　慶太

分子生物情報学(2) 配列のマルチプルアライメント法

類似度を用いた WWW のリンク構造の解析谷　研究室　　　　栗原　伸行.

複数特徴量の重み付け統合による一般物体認識

テキストマイニング，データマイニングと社会活動のトレース

知識情報演習Ⅲ（後半第3回）辻　慶太

Data Clustering: A Review

論文紹介: “Joint Embedding of Words and Labels for Text Classification”

文書分類モデルの統計的性質に関する一考察

SIFTとGraph Cutsを用いた物体認識及びセグメンテーション

わかりやすいパターン認識第７章：部分空間法　7.1　部分空間法の基本　7.2　ＣＬＡＦＩＣ法　　　　　　　　　　　　　　　　　６月13日（金）　　　　　　　　　　　　　　　　　大城　亜里沙.

JavaScriptを含んだHTML文書に対するデータフロー解析を用いた構文検証手法の提案

Webページのグループ化による静的動的スコアリング

構造的類似性を持つ半構造化文書における頻度分析

データ工学特論第六回木村昌臣.

発表32 レポート評価支援について（剽窃部分と指導箇所の検出）

パターン認識ークラスタリングとEMアルゴリズムー担当：和田俊和部屋 A513

パターン認識ークラスタリングとEMアルゴリズムー担当：和田俊和部屋 A513

コーパスコーパス(Corpus)はコンピュータの発達とともに、計算機可読なデータを容易に作成・収集することができるようになったことがその背景にある。現在ではコーパス言語学などの学問もある。

A-17 検索履歴のプライバシーを秘匿したユーザクラスタリング

自然言語処理2015 Natural Language Processing 2015

欠陥検出を目的とした類似コード検索法吉田則裕，石尾隆，松下誠，井上克郎大阪大学大学院情報科学研究科

テキストデータベース.

Webページタイプによるクラスタリングを用いた検索支援システム

自然言語処理2016 Natural Language Processing 2016

mi-8. 自然言語処理人工知能を演習で学ぶシリーズ（８）

グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識

アノテーションガイドラインの管理を行うアノテーションシステムの提案

雑音環境下における Sparse Coding声質変換 3-P-49d

１．２言語処理の諸観点（１）言語処理の利用分野

混合ガウスモデル Gaussian Mixture Model GMM

Presentation transcript:

テキストの類似度計算 2010.2.18

Agenda ・導入・類似度とは・TFIDF

1. 類似度とは？

What is the similarity? 【人間にとっての類似性の基準】「意味」「表現」「なんとなく」

What is the similarity? 【人間にとっての類似性の基準】「意味」「表現」「なんとなく」抽象度の高い判断

What is the similarity? 機械で「意味」を理解することは困難

What is the similarity? 機械で「意味」を理解することは困難統計的・数理的判断

What is the similarity? 機械で「意味」を理解することは困難統計的・数理的判断何の統計を取るの？

2. Bag Of Words model

Bag Of Words model "単語がつまったかばん、つまり、文章を単語の集合とする表現のこと。" http://nlp.nagaokaut.ac.jp/bag-of-words

Bag Of Words model ・単語（形態素）とは？

Bag Of Words model ・単語（形態素）とは？　　mecabが単語と判断したものです！(ｷﾘｯ

Bag Of Words model

Bag Of Words model ・単語（形態素）とは？ …言語学の分野でも厳密に定義されているわけではない。　　mecabが単語と判断したものです！(ｷﾘｯ …言語学の分野でも厳密に定義されているわけではない。

Bag Of Words model ・単語（形態素）とは？単語をどう使うの？ …言語学の分野でも厳密に定義されているわけではない。　　mecabが単語と判断したものです！(ｷﾘｯ …言語学の分野でも厳密に定義されているわけではない。単語をどう使うの？

3. Cosine Similarity

Cosine Similarity cosine similarity = cos α ・単語情報を使って文書をベクトル化・文書ベクトル同士の角度から類似度を算出 cosine similarity = cos α α°

文書ベクトルの作り方 Cosine Similarity ・step.1 この世のあまねく単語を収集・step.2 抽出した単語のスコア（後述）を空間にマッピング

文書ベクトルの例 Cosine Similarity ・step.1 この世のあまねく単語 = 2単語（「紫蘇」「破滅」）・step.2 （みんなの大好きな）２次元空間を想定・step.3 対象文書から単語を抽出(「紫蘇」「紫蘇」「破滅」) ・step.4 空間U = {(紫蘇),(破滅)} ベクトルD = {2,1}

Cosine Similarity {2,1}

Cosine Similarity {2,1} 単語のスコアって、頻度だけ？

4. TF*IDF

TF*IDF "索引語の重み付け方法のひとつ。・TF(Term Frequency)は文書dに置ける検索語tの頻度・IDF(Inverted Document Frequency)は索引語が現れる相対文書頻度の逆数の対数" http://nlp.nagaokaut.ac.jp/TF%E3%83%BBIDF

TF*IDF TFの考え方：一文書内にたくさん出てきた単語は重要 IDFの考え方：たくさんの文書に多く共通している単語は非重要

TF*IDF IDFの計算例紫蘇：2 紫蘇：0 紫蘇：0 紫蘇：3 破滅：0 破滅：2 破滅：1 破滅：10 「紫蘇」のIDF : log10(4 / 2) + 1 「破滅」のIDF : log10(4 / 3) + 1

6. Essence

Essence ・機械は意味を読み取れないので・・・・類似度を判定するために・・・・ベクトルの要素の重みを決めるために・・・　　　単語を使って統計的に類似度を判定・類似度を判定するために・・・　　　ベクトルモデルからコサイン類似度を算出・ベクトルの要素の重みを決めるために・・・　　　TF*IDFという指標を使用・それらを使って・・・　　　入力と類似した増田の記事を検索してみた・全体的に・・・　　　今回用いたのは例のひとつ。他にも様々な手法がある