BD勉強会 Modern Information Retrieval Chapter 3 3.3(勉強会後修正済み)

Slides:



Advertisements
Similar presentations
ゲームプログラミング講習 第2章 関数の使い方
Advertisements

サービス管理責任者等研修テキスト 分野別講義    「アセスメントと        支援提供の基本姿勢」 <児童発達支援管理責任者> 平成27年10月1日.
ヒトの思考プロセスの解明を目的とするワーキングメモリの研究
第27講 オームの法則 電気抵抗の役割について知る オームの法則を使えるようにする 抵抗の温度変化を理解する 教科書P.223~226
コラッツ予想の変形について 東邦大学 理学部 情報科 白柳研究室 山中 陽子.
コンパイラ 第3回 字句解析 ― 決定性有限オートマトンの導出 ―
第5章 家計に関する統計 ー 経済統計 ー.
公共財 公共経済論 II no.3 麻生良文.
VTX alignment D2 浅野秀光 2011年12月15日  放射線研ミーティング.
冷却フランシウム原子を用いた 電子の永久電気双極子能率探索のための ルビジウム磁力計の研究
生命情報学 (8) スケールフリーネットワーク
前半戦 「史上最強」風 札上げクイズ.

認知症を理解し 環境の重要性について考える
フッ化ナトリウムによる洗口 2010・9・13 宮崎市郡東諸県郡薬剤師会 学校薬剤師  日高 華代子.
食品の安全性に関わる社会システム:総括 健康弱者 ハイリスク集団 HACCP (食肉処理場・食品工場) 農場でのQAP 一般的衛生管理
規制改革とは? ○規制改革の目的は、経済の活性化と雇用の創出によって、   活力ある経済社会の実現を図ることにあります。
地域保健対策検討会 に関する私見(保健所のあり方)
公共政策大学院 鈴木一人 第8回 専門化する政治 公共政策大学院 鈴木一人
医薬品ネット販売規制について 2012年5月31日 ケンコーコム株式会社.
平成26年8月27日(水) 大阪府 健康医療部 薬務課 医療機器グループ
平成26年度 呼吸器学会からの提案結果 (オレンジ色の部分が承認された提案) 新規提案 既収載の変更 免疫組織化学染色、免疫細胞化学染色
エナジードリンクの危険性 2015年6月23日 経営学部市場戦略学科MR3195稲沢珠依.
自動吸引は 在宅を変えるか 大分協和病院 院長         山本 真.
毎月レポート ビジネスの情報 (2016年7月号).
医療の歴史と将来 医療と医薬品産業 個人的経験 3. 「これからの医療を考える」 (1)医薬品の研究開発 -タクロリムスの歴史-
社会福祉調査論 第4講 2.社会調査の概要 11月2日.
2015年12月28日-2016年3月28日 掲載分.
2010度 民事訴訟法講義 補論 関西大学法学部教授 栗田 隆.
腫瘍学概論 埼玉医科大学国際医療センター 包括的がんセンター 緩和医療科/緩和ケアチーム 奈良林 至
“企業リスクへの考え方に変化を求められています。 トータルなリスクマネジメント・サービスをプロデュースします。“
情報漏えい 経済情報学科 E  西村 諭 E  釣 洋平.
金融班(ミクロ).
第11回 2009年12月16日 今日の資料=A4・4枚+解答用紙 期末試験:2月3日(水)N2教室
【ABL用語集】(あいうえお順) No 用語 解説 12 公正市場価格 13 債権 14 指名債権 15 事業収益資産 16 集合動産 17
基礎理論(3) 情報の非対称性と逆選択 公共政策論II No.3 麻生良文.
浜中 健児 昭和42年3月27日生まれ 東京都在住 株式会社ピー・アール・エフ 代表取締役 (学歴) 高 校:千葉県立東葛飾高校 卒業
COPYRIGHT(C) 2011 KYUSHU UNIVERSITY. ALL RIGHTS RESERVED
Blosxom による CMS 構築と SEO テクニック
記入例 JAWS DAYS 2015 – JOB BOARD 会社名 採用職種 営業職/技術職/その他( ) 仕事内容 待遇 募集数
ネットビジネスの 企業と特性 MR1127 まさ.
Future Technology活用による業務改革
ネットビジネス論(杉浦) 第8回 ネットビジネスと情報技術.
g741001 長谷川 嵩 g740796 迫村 光秋 g741000 西田 健太郎 g741147 小井出 真聡
自然独占 公共経済論 II no.5 麻生良文.
Autonomic Resource Provisioning for Cloud-Based Software
Webショップにおける webデザイン 12/6 08A1022 甲斐 広大.
物理的な位置情報を活用した仮想クラウドの構築
ハイブリッドクラウドを実現させるポイントと SCSKのOSSへの取組み
寺尾 敦 青山学院大学社会情報学部 第12回 情報デザイン(4) 情報の構造化と表現 寺尾 敦 青山学院大学社会情報学部
【1−1.開発計画 – 設計・開発計画】 システム開発計画にはシステム開発を効率的、効果的に実行する根拠(人員と経験、開発手順、開発・導入するシステム・アプリケーション・サービス等)を記述すること。 システム開発の開始から終了までの全体スケジュールを記載すること。 アプリケーション機能配置、ソフトウェア、インフラ構成、ネットワーク構成について概要を示すこと。
6 日本のコーポレート・ガバナンス 2008年度「企業論」 川端 望.
急成長する中国ソフトウェア産業 中国ソフトウェアと情報サービス産業の規模 総売上高は5年間で約5.3倍の成長
米国ユタ州LDS病院胸部心臓外科フェローの経験
公益社団法人日本青年会議所 関東地区埼玉ブロック協議会 JCの情熱(おもい)育成委員会 2011年度第1回全体委員会
次世代大学教育研究会のこれまでの活動 2005年度次世代大学教育研究大会 明治大学駿河台校舎リバティタワー9階1096教室
子どもの本の情報 大阪府内の協力書店の情報 こちらをクリック 大阪府内の公立図書館・図書室の情報
第2回産業調査 小島浩道.
〈起点〉を示す格助詞「を」と「から」の選択について
広東省民弁本科高校日語専業骨幹教師研修会 ①日本語の格助詞の使い分け ②動詞の自他受身の選択について   -日本語教育と中日カルチャーショックの観点から- 名古屋大学 杉村 泰.
■5Ahバッテリー使用報告 事例紹介/東【その1】 ■iphon4S(晴れの昼間/AM8-PM3) ◆約1時間で68%⇒100%
『ワタシが!!』『地域の仲間で!!』 市民が始める自然エネルギー!!
ポイントカードの未来形を形にした「MUJI Passport」
SAP NetWeaver を支える Microsoft テクノロジーの全貌 (Appendix)
ガイダンス(内業) 測量学実習 第1回.
Python超入門 久保 幹雄 東京海洋大学.
熱力学の基礎 丸山 茂夫 東京大学大学院 工学系研究科 機械工学専攻
京都民医連中央病院 CHDF学習推進委員会
資料2-④ ④下水道.
Accessによる SQLの操作 ~実際にテーブルを操作してみよう!~.
Presentation transcript:

BD勉強会 Modern Information Retrieval Chapter 3 3.3(勉強会後修正済み) 2019/5/2 2016ⒸSeitaro Shinagawa AHC-lab NAIST

2016ⒸSeitaro Shinagawa AHC-lab NAIST 目次 3.3.1 Set-Based Model 3.3.2 Extended Boolean Model 3.3.3 Fuzzy Set Model 2019/5/2 2016ⒸSeitaro Shinagawa AHC-lab NAIST

2016ⒸSeitaro Shinagawa AHC-lab NAIST 目次 3.3.1 Set-Based Model 3.3.2 Extended Boolean Model 3.3.3 Fuzzy Set Model 2019/5/2 2016ⒸSeitaro Shinagawa AHC-lab NAIST

2016ⒸSeitaro Shinagawa AHC-lab NAIST 3.3.1 Set-Based Model 3.3.1 Set-Based Model 単語を使う代わりに文書中にでてくる単語のセットを処理の単位としてみる方法 定義:ある単語セット 𝑆 𝑖 ={ 𝑘 𝑎 , 𝑘 𝑏 ,⋯, 𝑘 𝑛 }は文書コレクション中の単語セットだとする。 𝑆 𝑖 が文書 𝑑 𝑗 中に現れるとき、「単語セット 𝑆 𝑖 が文書 𝑑 𝑗 に現れる(termset 𝑆 𝑖 occurs in 𝑑 𝑗 )」と呼ぶ。また、 𝑁 𝑖 を 𝑆 𝑖 が出現する文書の数とする。 定義:文書コレクション中の全単語数がtのとき、ありえるすべての単語セットの組 𝑉 𝑆 ={ 𝑆 1 , 𝑆 2 ,⋯, 𝑆 2 𝑡 }を文書コレクションの語彙セットとする 定義:n単語の単語セットをn単語セット(n-termset)と呼ぶ。ある単語セット 𝑆 𝑖 の出現する文書の数 𝑁 𝑖 が与えられた閾値より高いとき「 𝑆 𝑖 が頻出する」と呼ぶ。 ※n単語セットが頻出する時、n-1単語セットも頻出することが多い。 例は次ページ 2019/5/2 2016ⒸSeitaro Shinagawa AHC-lab NAIST

2016ⒸSeitaro Shinagawa AHC-lab NAIST 3.3.1 Set-Based Model 3.3.1 Set-Based Model a b c a d a d c a b a d e f a g d h i g h g j k g h b d b d b b b b l l l m n d m n d コレクション中の全単語 𝑎= 𝑘 𝑎 to 𝑏= 𝑘 𝑏 do 𝑐= 𝑘 𝑐 is 𝑑= 𝑘 𝑑 be 𝑒= 𝑘 𝑒 or 𝑓= 𝑘 𝑓 not 𝑔= 𝑘 𝑔 I ℎ= 𝑘 ℎ am 𝑖= 𝑘 𝑖 what j= 𝑘 𝑗 think 𝑘= 𝑘 𝑘 therefore 𝑙= 𝑘 𝑙 da 𝑚= 𝑘 𝑚 let 𝑛= 𝑘 𝑛 it 文書𝑑 1 文書𝑑 2 文書𝑑 3 文書𝑑 4 語彙セット(クエリ𝑞={𝑎,𝑑,𝑛}に限定して表示) Termset Set of Terms Documents 𝑆 𝑎 {𝑎} 𝑆 𝑑 {𝑑} 𝑆 𝑛 {𝑛} 𝑆 𝑎𝑑 {𝑎,𝑑} 𝑆 𝑎𝑛 {𝑎,𝑛} 𝑆 𝑑𝑛 {𝑑,𝑛} 𝑆 𝑎𝑑𝑛 {𝑎,𝑏,𝑑} 2019/5/2 2016ⒸSeitaro Shinagawa AHC-lab NAIST

2016ⒸSeitaro Shinagawa AHC-lab NAIST 3.3.1 Set-Based Model 3.3.1 Set-Based Model a b c a d a d c a b a d e f a g d h i g h g j k g h b d b d b b b b l l l m n d m n d コレクション中の全単語 𝑎= 𝑘 𝑎 to 𝑏= 𝑘 𝑏 do 𝑐= 𝑘 𝑐 is 𝑑= 𝑘 𝑑 be 𝑒= 𝑘 𝑒 or 𝑓= 𝑘 𝑓 not 𝑔= 𝑘 𝑔 I ℎ= 𝑘 ℎ am 𝑖= 𝑘 𝑖 what j= 𝑘 𝑗 think 𝑘= 𝑘 𝑘 therefore 𝑙= 𝑘 𝑙 da 𝑚= 𝑘 𝑚 let 𝑛= 𝑘 𝑛 it 文書𝑑 1 文書𝑑 2 文書𝑑 3 文書𝑑 4 語彙セット(クエリ𝑞={𝑎,𝑑,𝑛}に限定して表示) Termset Set of Terms Documents 𝑆 𝑎 {𝑎} { 𝑑 1 , 𝑑 2 } 𝑆 𝑑 {𝑑} 𝑆 𝑛 {𝑛} 𝑆 𝑎𝑑 {𝑎,𝑑} 𝑆 𝑎𝑛 {𝑎,𝑛} 𝑆 𝑑𝑛 {𝑑,𝑛} 𝑆 𝑎𝑑𝑛 {𝑎,𝑏,𝑑} 2019/5/2 2016ⒸSeitaro Shinagawa AHC-lab NAIST

2016ⒸSeitaro Shinagawa AHC-lab NAIST 3.3.1 Set-Based Model 3.3.1 Set-Based Model a b c a d a d c a b a d e f a g d h i g h g j k g h b d b d b b b b l l l m n d m n d コレクション中の全単語 𝑎= 𝑘 𝑎 to 𝑏= 𝑘 𝑏 do 𝑐= 𝑘 𝑐 is 𝑑= 𝑘 𝑑 be 𝑒= 𝑘 𝑒 or 𝑓= 𝑘 𝑓 not 𝑔= 𝑘 𝑔 I ℎ= 𝑘 ℎ am 𝑖= 𝑘 𝑖 what j= 𝑘 𝑗 think 𝑘= 𝑘 𝑘 therefore 𝑙= 𝑘 𝑙 da 𝑚= 𝑘 𝑚 let 𝑛= 𝑘 𝑛 it 文書𝑑 1 文書𝑑 2 文書𝑑 3 文書𝑑 4 語彙セット(クエリ𝑞={𝑎,𝑑,𝑛}に限定して表示) Termset Set of Terms Documents 𝑆 𝑎 {𝑎} { 𝑑 1 , 𝑑 2 } 𝑆 𝑑 {𝑑} { 𝑑 1 , 𝑑 2 , 𝑑 3 , 𝑑 4 } 𝑆 𝑛 {𝑛} 𝑆 𝑎𝑑 {𝑎,𝑑} 𝑆 𝑎𝑛 {𝑎,𝑛} 𝑆 𝑑𝑛 {𝑑,𝑛} 𝑆 𝑎𝑑𝑛 {𝑎,𝑏,𝑑} 2019/5/2 2016ⒸSeitaro Shinagawa AHC-lab NAIST

2016ⒸSeitaro Shinagawa AHC-lab NAIST 3.3.1 Set-Based Model 3.3.1 Set-Based Model a b c a d a d c a b a d e f a g d h i g h g j k g h b d b d b b b b l l l m n d m n d コレクション中の全単語 𝑎= 𝑘 𝑎 to 𝑏= 𝑘 𝑏 do 𝑐= 𝑘 𝑐 is 𝑑= 𝑘 𝑑 be 𝑒= 𝑘 𝑒 or 𝑓= 𝑘 𝑓 not 𝑔= 𝑘 𝑔 I ℎ= 𝑘 ℎ am 𝑖= 𝑘 𝑖 what j= 𝑘 𝑗 think 𝑘= 𝑘 𝑘 therefore 𝑙= 𝑘 𝑙 da 𝑚= 𝑘 𝑚 let 𝑛= 𝑘 𝑛 it 文書𝑑 1 文書𝑑 2 文書𝑑 3 文書𝑑 4 語彙セット(クエリ𝑞={𝑎,𝑑,𝑛}に限定して表示) Termset Set of Terms Documents 𝑆 𝑎 {𝑎} { 𝑑 1 , 𝑑 2 } 𝑆 𝑑 {𝑑} { 𝑑 1 , 𝑑 2 , 𝑑 3 , 𝑑 4 } 𝑆 𝑛 {𝑛} { 𝑑 4 } 𝑆 𝑎𝑑 {𝑎,𝑑} 𝑆 𝑎𝑛 {𝑎,𝑛} 𝑆 𝑑𝑛 {𝑑,𝑛} 𝑆 𝑎𝑑𝑛 {𝑎,𝑏,𝑑} 2019/5/2 2016ⒸSeitaro Shinagawa AHC-lab NAIST

2016ⒸSeitaro Shinagawa AHC-lab NAIST 3.3.1 Set-Based Model 3.3.1 Set-Based Model a b c a d a d c a b a d e f a g d h i g h g j k g h b d b d b b b b l l l m n d m n d コレクション中の全単語 𝑎= 𝑘 𝑎 to 𝑏= 𝑘 𝑏 do 𝑐= 𝑘 𝑐 is 𝑑= 𝑘 𝑑 be 𝑒= 𝑘 𝑒 or 𝑓= 𝑘 𝑓 not 𝑔= 𝑘 𝑔 I ℎ= 𝑘 ℎ am 𝑖= 𝑘 𝑖 what j= 𝑘 𝑗 think 𝑘= 𝑘 𝑘 therefore 𝑙= 𝑘 𝑙 da 𝑚= 𝑘 𝑚 let 𝑛= 𝑘 𝑛 it 文書𝑑 1 文書𝑑 2 文書𝑑 3 文書𝑑 4 語彙セット(クエリ𝑞={𝑎,𝑑,𝑛}に限定して表示) Termset Set of Terms Documents 𝑆 𝑎 {𝑎} { 𝑑 1 , 𝑑 2 } 𝑆 𝑑 {𝑑} { 𝑑 1 , 𝑑 2 , 𝑑 3 , 𝑑 4 } 𝑆 𝑛 {𝑛} { 𝑑 4 } 𝑆 𝑎𝑑 {𝑎,𝑑} 𝑆 𝑎𝑛 {𝑎,𝑛} 𝑆 𝑑𝑛 {𝑑,𝑛} 𝑆 𝑎𝑑𝑛 {𝑎,𝑏,𝑑} 2019/5/2 2016ⒸSeitaro Shinagawa AHC-lab NAIST

2016ⒸSeitaro Shinagawa AHC-lab NAIST 3.3.1 Set-Based Model 3.3.1 Set-Based Model a b c a d a d c a b a d e f a g d h i g h g j k g h b d b d b b b b l l l m n d m n d コレクション中の全単語 𝑎= 𝑘 𝑎 to 𝑏= 𝑘 𝑏 do 𝑐= 𝑘 𝑐 is 𝑑= 𝑘 𝑑 be 𝑒= 𝑘 𝑒 or 𝑓= 𝑘 𝑓 not 𝑔= 𝑘 𝑔 I ℎ= 𝑘 ℎ am 𝑖= 𝑘 𝑖 what j= 𝑘 𝑗 think 𝑘= 𝑘 𝑘 therefore 𝑙= 𝑘 𝑙 da 𝑚= 𝑘 𝑚 let 𝑛= 𝑘 𝑛 it 文書𝑑 1 文書𝑑 2 文書𝑑 3 文書𝑑 4 語彙セット(クエリ𝑞={𝑎,𝑑,𝑛}に限定して表示) Termset Set of Terms Documents 𝑆 𝑎 {𝑎} { 𝑑 1 , 𝑑 2 } 𝑆 𝑑 {𝑑} { 𝑑 1 , 𝑑 2 , 𝑑 3 , 𝑑 4 } 𝑆 𝑛 {𝑛} { 𝑑 4 } 𝑆 𝑎𝑑 {𝑎,𝑑} 𝑆 𝑎𝑛 {𝑎,𝑛} {∅} 𝑆 𝑑𝑛 {𝑑,𝑛} 𝑆 𝑎𝑑𝑛 {𝑎,𝑑,𝑛} 2019/5/2 2016ⒸSeitaro Shinagawa AHC-lab NAIST

2016ⒸSeitaro Shinagawa AHC-lab NAIST 3.3.1 Set-Based Model 3.3.1 Set-Based Model a b c a d a d c a b a d e f a g d h i g h g j k g h b d b d b b b b l l l m n d m n d コレクション中の全単語 𝑎= 𝑘 𝑎 to 𝑏= 𝑘 𝑏 do 𝑐= 𝑘 𝑐 is 𝑑= 𝑘 𝑑 be 𝑒= 𝑘 𝑒 or 𝑓= 𝑘 𝑓 not 𝑔= 𝑘 𝑔 I ℎ= 𝑘 ℎ am 𝑖= 𝑘 𝑖 what j= 𝑘 𝑗 think 𝑘= 𝑘 𝑘 therefore 𝑙= 𝑘 𝑙 da 𝑚= 𝑘 𝑚 let 𝑛= 𝑘 𝑛 it 文書𝑑 1 文書𝑑 2 文書𝑑 3 文書𝑑 4 語彙セット(クエリ𝑞={𝑎,𝑑,𝑛}に限定して表示) Termset Set of Terms Documents 𝑆 𝑎 {𝑎} { 𝑑 1 , 𝑑 2 } 𝑆 𝑑 {𝑑} { 𝑑 1 , 𝑑 2 , 𝑑 3 , 𝑑 4 } 𝑆 𝑛 {𝑛} { 𝑑 4 } 𝑆 𝑎𝑑 {𝑎,𝑑} 𝑆 𝑎𝑛 {𝑎,𝑛} {∅} 𝑆 𝑑𝑛 {𝑑,𝑛} 𝑆 𝑎𝑑𝑛 {𝑎,𝑑,𝑛} 2019/5/2 2016ⒸSeitaro Shinagawa AHC-lab NAIST

2016ⒸSeitaro Shinagawa AHC-lab NAIST 3.3.1 Set-Based Model 3.3.1 Set-Based Model a b c a d a d c a b a d e f a g d h i g h g j k g h b d b d b b b b l l l m n d m n d コレクション中の全単語 𝑎= 𝑘 𝑎 to 𝑏= 𝑘 𝑏 do 𝑐= 𝑘 𝑐 is 𝑑= 𝑘 𝑑 be 𝑒= 𝑘 𝑒 or 𝑓= 𝑘 𝑓 not 𝑔= 𝑘 𝑔 I ℎ= 𝑘 ℎ am 𝑖= 𝑘 𝑖 what j= 𝑘 𝑗 think 𝑘= 𝑘 𝑘 therefore 𝑙= 𝑘 𝑙 da 𝑚= 𝑘 𝑚 let 𝑛= 𝑘 𝑛 it 文書𝑑 1 文書𝑑 2 文書𝑑 3 文書𝑑 4 語彙セット(クエリ𝑞={𝑎,𝑑,𝑛}に限定して表示) Termset Set of Terms Documents 𝑆 𝑎 {𝑎} { 𝑑 1 , 𝑑 2 } 𝑆 𝑑 {𝑑} { 𝑑 1 , 𝑑 2 , 𝑑 3 , 𝑑 4 } 𝑆 𝑛 {𝑛} { 𝑑 4 } 𝑆 𝑎𝑑 {𝑎,𝑑} 𝑆 𝑎𝑛 {𝑎,𝑛} {∅} 𝑆 𝑑𝑛 {𝑑,𝑛} 𝑆 𝑎𝑑𝑛 {𝑎,𝑑,𝑛} 2019/5/2 2016ⒸSeitaro Shinagawa AHC-lab NAIST

2016ⒸSeitaro Shinagawa AHC-lab NAIST 3.3.1 Set-Based Model 3.3.1 Set-Based Model a b c a d a d c a b a d e f a g d h i g h g j k g h b d b d b b b b l l l m n d m n d コレクション中の全単語 𝑎= 𝑘 𝑎 to 𝑏= 𝑘 𝑏 do 𝑐= 𝑘 𝑐 is 𝑑= 𝑘 𝑑 be 𝑒= 𝑘 𝑒 or 𝑓= 𝑘 𝑓 not 𝑔= 𝑘 𝑔 I ℎ= 𝑘 ℎ am 𝑖= 𝑘 𝑖 what j= 𝑘 𝑗 think 𝑘= 𝑘 𝑘 therefore 𝑙= 𝑘 𝑙 da 𝑚= 𝑘 𝑚 let 𝑛= 𝑘 𝑛 it 文書𝑑 1 文書𝑑 2 文書𝑑 3 文書𝑑 4 語彙セット(クエリ𝑞={𝑎,𝑑,𝑛}に限定して表示) Termset Set of Terms Documents 𝑆 𝑎 {𝑎} { 𝑑 1 , 𝑑 2 } 𝑆 𝑑 {𝑑} { 𝑑 1 , 𝑑 2 , 𝑑 3 , 𝑑 4 } 𝑆 𝑛 {𝑛} { 𝑑 4 } 𝑆 𝑎𝑑 {𝑎,𝑑} 𝑆 𝑑𝑛 {𝑑,𝑛} 理論上、語彙セットは最大 2 𝑡 個の単語セットを持つが 実際には空集合になるものが多いのでそこまで増えない 2019/5/2 2016ⒸSeitaro Shinagawa AHC-lab NAIST

2016ⒸSeitaro Shinagawa AHC-lab NAIST 3.3.1 Set-Based Model 3.3.1 Set-Based Modelによるランク計算の方法 𝑞: クエリ(単語の組) { 𝑆 1 , 𝑆 2 ,⋯}: クエリから得られる単語セット 𝑁 𝑖 : 単語セット 𝑆 𝑖 の出現する文書数 𝑁: コレクション中の全文書数 ℱ 𝑖,𝑗 :単語セット 𝑆 𝑖 がある文書 𝑑 𝑗 中に出現する回数 定義:各( 𝑆 𝑖 , 𝑑 𝑗 )のペアについてTF-IDF重みを以下のように定義する 𝒲 𝑖,𝑗 = 1+ log ℱ 𝑖,𝑗 log 1+ 𝑁 𝑁 𝑖 𝑖𝑓 ℱ 𝑖,𝑗 >0 0 𝑖𝑓 ℱ 𝑖,𝑗 =0 2019/5/2 2016ⒸSeitaro Shinagawa AHC-lab NAIST

2016ⒸSeitaro Shinagawa AHC-lab NAIST 3.3.1 Set-Based Model 3.3.1 Set-Based Modelによるランク計算の方法 𝑞: クエリ(単語の組) { 𝑆 1 , 𝑆 2 ,⋯}: クエリから得られる単語セット 𝑁 𝑖 : 単語セット 𝑆 𝑖 の出現する文書数 𝑁: コレクション中の全文書数 ℱ 𝑖,𝑗 :単語セット 𝑆 𝑖 がある文書 𝑑 𝑗 中に出現する回数 定義:各( 𝑆 𝑖 , 𝑑 𝑗 )のペアについてTF-IDF重みを以下のように定義する 𝒲 𝑖,𝑗 = 1+ log ℱ 𝑖,𝑗 log 1+ 𝑁 𝑁 𝑖 𝑖𝑓 ℱ 𝑖,𝑗 >0 0 𝑖𝑓 ℱ 𝑖,𝑗 =0 a b c a d a d c a b 𝑆 𝑎𝑏𝑐 が2個だから ℱ 𝑎𝑏𝑐,1 =2 は 文書𝑑 1 2019/5/2 2016ⒸSeitaro Shinagawa AHC-lab NAIST

3.3.1 Set-Based Modelによるランク計算の方法 𝑞: クエリ(単語の組) { 𝑆 1 , 𝑆 2 ,⋯}: クエリから得られる単語セット 𝑁 𝑖 : 単語セット 𝑆 𝑖 の出現する文書数 𝑁: コレクション中の全文書数 ℱ 𝑖,𝑗 :単語セット 𝑆 𝑖 がある文書 𝑑 𝑗 中に出現する回数 定義:各( 𝑆 𝑖 , 𝑑 𝑗 )のペアについてTF-IDF重みを以下のように定義する 𝒲 𝑖,𝑗 = 1+ log ℱ 𝑖,𝑗 log 1+ 𝑁 𝑁 𝑖 𝑖𝑓 ℱ 𝑖,𝑗 >0 0 𝑖𝑓 ℱ 𝑖,𝑗 =0 単純なTF-IDFとの比較 uni-gramとn-gramの関係に似てる 単語セットを使うことで使える素性が増える 単語:t個, 単語セット: 2 𝑡 個 2019/5/2 2016ⒸSeitaro Shinagawa AHC-lab NAIST

2016ⒸSeitaro Shinagawa AHC-lab NAIST 3.3.1 Set-Based Model 重みの比較を実際にやってみた例(TF vs TSF) TF d1 d2 d3 d4 df idf a 4 2 0.48 b 3 0.37 d 0.30 n 1 0.70 TF-IDF d1 d2 d3 d4 a 1.91 0.95 b 0.74 1.10 d 0.60 n 1.40 TSF d1 d2 d3 d4 df idf Sa 4 2 0.48 Sb 3 0.37 Sd 0.30 Sn 1 0.70 Sab Sad Sbd Sbn Sdn Sabd Sabn 0.00 Sadn Sbdn Sabdn TSF-IDF d1 d2 d3 d4 Sa 1.91 0.95 Sb 0.74 1.10 Sd 0.60 Sn 1.40 Sab Sad Sbd Sbn Sdn Sabd Sabn Sadn Sbdn 2.10 Sabdn 2019/5/2 2016ⒸSeitaro Shinagawa AHC-lab NAIST

2016ⒸSeitaro Shinagawa AHC-lab NAIST 3.3.1 Set-Based Model 重みの比較を実際にやってみた例(logTF vs logTSF) logTF d1 d2 d3 d4 df idf a 1.60 1.30 2 0.48 b 1.48 3 0.37 d 4 0.30 n 1 0.70 TF-IDF d1 d2 d3 d4 a 0.76 0.62 b 0.48 0.54 d 0.39 n 0.91 logTSF d1 d2 d3 d4 df idf Sa 1.60 1.30 2 0.48 Sb 1.48 3 0.37 Sd 4 0.30 Sn 1 0.70 Sab Sad Sbd Sbn Sdn Sabd Sabn 0.00 Sadn Sbdn Sabdn TSF-IDF d1 d2 d3 d4 Sa 0.76 0.62 Sb 0.48 0.54 Sd 0.39 Sn 0.91 Sab Sad Sbd Sbn Sdn Sabd Sabn Sadn Sbdn 1.03 Sabdn 2019/5/2 2016ⒸSeitaro Shinagawa AHC-lab NAIST

2016ⒸSeitaro Shinagawa AHC-lab NAIST 3.3.1 Set-Based Model 定義:文書 𝑑 𝑗 とクエリ𝑞はそれぞれ 2 𝑡 次元のベクトルとして表せる 𝒅 𝑗 =( 𝒲 1,𝑗 , 𝒲 2,𝑗 ,⋯, 𝒲 2 𝑡 ,𝑗 ) 𝒒=( 𝒲 1,𝑞 , 𝒲 2,𝑞 ,⋯, 𝒲 2 𝑡 ,𝑞 ) ベクトルの内積による類似度計算ができる 𝑠𝑖𝑚 𝒅 𝑗 ,𝒒 = 𝒅 𝑗 ∙𝒒 𝒅 𝑗 𝒒 2019/5/2 2016ⒸSeitaro Shinagawa AHC-lab NAIST

2016ⒸSeitaro Shinagawa AHC-lab NAIST 3.3.1 Set-Based Model 3.3.1 closed termsetを用いたより速いランク計算の方法 問題点  単語セットを用いる方法は素性の数が莫大に増えるので計算が遅い 解決策  いくつかの単語セットの近さを利用して単語セットを減らし計算量を削減する Termset Set of Terms Documents 𝑆 𝑎 {𝑎} { 𝑑 1 , 𝑑 2 } 𝑆 𝑏 {𝑏} { 𝑑 1 , 𝑑 3 , 𝑑 4 } 𝑆 𝑛 {𝑛} { 𝑑 4 } 𝑆 𝑎𝑏 {𝑎,𝑏} 𝑆 𝑏𝑛 {𝑏,𝑛} 𝑆 𝑎 ⊂ 𝑆 𝑎𝑏 𝑆 𝑛 ⊂ 𝑆 𝑏𝑛 2019/5/2 2016ⒸSeitaro Shinagawa AHC-lab NAIST

2016ⒸSeitaro Shinagawa AHC-lab NAIST 3.3.1 Set-Based Model 定義:文書コレクション𝐶中において,単語セット 𝑆 𝑖 の近さは同じ文書のサブセット中に共起するすべての頻出する単語セットによる集合である。 𝑆 𝑖 の近さが与えられたとき,その中でもっとも近さの大きな単語セットをclosed termsetと呼び, 𝑆 Φ とする。 𝐷 𝑖 ⊆𝐶を, 𝑆 𝑖 が現れかつ頻出する文書サブセットとする 𝑆( 𝐷 𝑖 )を,文書サブセット 𝐷 𝑖 中のすべての文書で頻出する単語セットとする ∄ 𝑆 𝑗 ∈𝑆 𝐷 𝑖 | 𝑆 Φ 𝑖 ⊂ 𝑆 𝑗 frequency( 𝑺 𝒊 ) frequent termsets closed termset 4 d 3 b, bd bd 2 a, ad ad g, h, gh, ghd ghd 2019/5/2 2016ⒸSeitaro Shinagawa AHC-lab NAIST

2016ⒸSeitaro Shinagawa AHC-lab NAIST 3.3.1 Set-Based Model Set-Based Modelまとめ 単語セットの考え方は重要だが, 実際の検索システムではあまり使われていない 理由:3つ以上の単語セットのクエリがないと使えないから closed set modelは同じ頻度を持っているクエリを計算量削減のためにまとめてしまう技術。だが、これをやること自体にも計算量がかかるのでやはり大きな文書集合で利用しにくくあまり使われない原因となっている 2019/5/2 2016ⒸSeitaro Shinagawa AHC-lab NAIST

2016ⒸSeitaro Shinagawa AHC-lab NAIST 目次 3.3.1 Set-Based Model 3.3.2 Extended Boolean Model 3.3.3 Fuzzy Set Model 2019/5/2 2016ⒸSeitaro Shinagawa AHC-lab NAIST

2016ⒸSeitaro Shinagawa AHC-lab NAIST 3.3.2 Extended Boolean Model Boolean retrieval シンプル 単語の重みづけがない,ランキングのつけようがない 出力のサイズが極端に大きかったり小さかったりする partial matching, term weightingでBoolean queryにvectorモデルと同様の性質を持たせる Extended Boolean Model 2019/5/2 2016ⒸSeitaro Shinagawa AHC-lab NAIST

2016ⒸSeitaro Shinagawa AHC-lab NAIST 3.3.2 Extended Boolean Model 𝑤 𝑥,𝑗 = 𝑓 𝑥,𝑗 max 𝑥 𝑓 𝑥,𝑗 × 𝐼𝐷 𝐹 𝑥 max 𝑖 𝐼𝐷 𝐹 𝑖 𝑓 𝑥,𝑗 : 単語 𝑘 𝑥 が文書 𝑑 𝑗    で出現した回数 𝐼𝐷 𝐹 𝑥 : IDF値 (0,1) sim高 (1,1) (0,1) (1,1) 𝐾 𝑦 sim高 𝑑 𝑗+1 𝑤 𝑥,𝑗 =𝑥, 𝑤 𝑦,𝑗 =𝑦 とおくと、 𝑑 𝑗 =(𝑥,𝑦) 𝑑 𝑗+1 𝑑 𝑗 𝑑 𝑗 AND OR 距離の長さだけがsimilarity sim低 (1,0) sim低 𝐾 𝑥 𝐾 𝑥 (1,0) 2019/5/2 2016ⒸSeitaro Shinagawa AHC-lab NAIST

2016ⒸSeitaro Shinagawa AHC-lab NAIST 3.3.2 Extended Boolean Model 𝑠𝑖𝑚 𝑞 𝑜𝑟 ,𝑑 = 𝑥 2 + 𝑦 2 2 𝑠𝑖𝑚 𝑞 𝑎𝑛𝑑 ,𝑑 =1− 1−𝑥 2 + 1−𝑦 2 2 ユークリッド距離ではなく,p-distancesへの一般化も可能(1≤𝑝≤∞) 𝑞 𝑜𝑟 = 𝑘 1 ∨ 𝑝 𝑘 2 ∨ 𝑝 ⋯ ∨ 𝑝 𝑘 𝑚 𝑞 𝑎𝑛𝑑 = 𝑘 1 ∧ 𝑝 𝑘 2 ∧ 𝑝 ⋯ ∧ 𝑝 𝑘 𝑚 (generalized disjunctive query) (generalized conjunctive query) 𝑠𝑖𝑚 𝑞 𝑜𝑟 , 𝑑 𝑗 = 𝑥 1 𝑝 + 𝑥 2 𝑝 +⋯+ 𝑥 𝑚 𝑝 𝑚 1 𝑝 𝑠𝑖𝑚 𝑞 𝑎𝑛𝑑 , 𝑑 𝑗 =1− (1− 𝑥 1 𝑝 )+(1− 𝑥 2 𝑝 )+⋯+(1− 𝑥 𝑚 𝑝 ) 𝑚 1 𝑝 2019/5/2 2016ⒸSeitaro Shinagawa AHC-lab NAIST

2016ⒸSeitaro Shinagawa AHC-lab NAIST 3.3.2 Extended Boolean Model 𝑠𝑖𝑚 𝑞 𝑜𝑟 , 𝑑 𝑗 = 𝑥 1 𝑝 + 𝑥 2 𝑝 +⋯+ 𝑥 𝑚 𝑝 𝑚 1 𝑝 𝑠𝑖𝑚 𝑞 𝑎𝑛𝑑 , 𝑑 𝑗 =1− 1− 𝑥 1 𝑝 + 1− 𝑥 2 𝑝 +⋯+ 1− 𝑥 𝑚 𝑝 𝑚 1 𝑝 𝑝=1のとき,𝑠𝑖𝑚 𝑞 𝑜𝑟 , 𝑑 𝑗 =𝑠𝑖𝑚 𝑞 𝑎𝑛𝑑 , 𝑑 𝑗 = 𝑥 1 + 𝑥 2 +⋯+ 𝑥 𝑚 𝑚 𝑝=∞のとき, 𝑠𝑖𝑚 𝑞 𝑜𝑟 , 𝑑 𝑗 = max 𝑥 𝑖 𝑠𝑖𝑚 𝑞 𝑎𝑛𝑑 , 𝑑 𝑗 = min 𝑥 𝑖 andとorの混ざった計算 例:𝑞= 𝑘 1 ∧ 𝑝 𝑘 2 ∨ 𝑝 𝑘 3 𝑠𝑖𝑚 𝑞,𝑑 = 1− 1− 𝑥 1 𝑝 + 1− 𝑥 2 𝑝 2 1 𝑝 𝑝 + 𝑥 3 𝑝 2 1 𝑝 2019/5/2 2016ⒸSeitaro Shinagawa AHC-lab NAIST

2016ⒸSeitaro Shinagawa AHC-lab NAIST 計算 𝑥 1 , 𝑥 2 ,⋯, 𝑥 𝑚 のうち最大の項のみ1になる lim 𝑝→∞ 𝑥 1 𝑝 + 𝑥 2 𝑝 +⋯+ 𝑥 𝑚 𝑝 𝑚 1 𝑝 = lim 𝑝→∞ max 𝑥 𝑖 𝑥 1 𝑝 + 𝑥 2 𝑝 +⋯+ 𝑥 𝑚 𝑝 𝑚⋅ max 𝑥 𝑖 𝑝 1 𝑝 = max 𝑥 𝑖 lim 𝑝→∞ 1− 1− 𝑥 1 𝑝 + 1− 𝑥 2 𝑝 +⋯+ 1− 𝑥 𝑚 𝑝 𝑚 1 𝑝 = lim 𝑝→∞ max (1− 𝑥 𝑖 ) 1− 𝑥 1 𝑝 + 1− 𝑥 2 𝑝 +⋯+ 1− 𝑥 𝑚 𝑝 𝑚⋅ m𝑎𝑥 1−𝑥 𝑖 𝑝 1 𝑝 = max 1−𝑥 𝑖 = min ( 𝑥 𝑖 ) 2019/5/2 2016ⒸSeitaro Shinagawa AHC-lab NAIST

2016ⒸSeitaro Shinagawa AHC-lab NAIST 3.3.2 Extended Boolean Model この手法はいくつand/or演算子があっても再帰的に適用できる。しかし,and演算子の中にor演算子が混ざっていてランキング計算をしなおすとランクスコアは上のもの(どの式?)と変わってしまう。そのため論理ブール演算子はランキングを保存しない。これが拡張ブーリアンモデルの難点である。 どういうことか and/orを展開するなどして計算順を変える度に結果が変わってしまう まとめ 拡張ブーリアンモデルはよく使われているので重要 難点としてはクエリをand/orの形で記号論理に落とすときにユーザは頭の中で計算することが難しい点 グーグル検索などはandとorの中間(ランクが高いのはandでランクが低いのはor)的な計算をしている 2019/5/2 2016ⒸSeitaro Shinagawa AHC-lab NAIST

2016ⒸSeitaro Shinagawa AHC-lab NAIST 目次 3.3.1 Set-Based Model 3.3.2 Extended Boolean Model 3.3.3 Fuzzy Set Model 2019/5/2 2016ⒸSeitaro Shinagawa AHC-lab NAIST

2016ⒸSeitaro Shinagawa AHC-lab NAIST 3.3.3 Fuzzy Set Model 3.3.3 Fuzzy Set Model キーワードのセットを用いて文書やクエリを表現するとき、文書コレクションにない単語についても考慮したいなどの動機で使われる 定義:あるfuzzy subset Aがuniverse of discourse Uの一部であるということをmembership関数 𝜇 𝐴 :𝑈→[0,1]で表す。これは,Uの各要素𝑢を用いて0≤ 𝜇 𝐴 𝑢 ≤1とかける。 定義:Uをuniverse of discourseとする。𝐴と𝐵をUの2つのfuzzy subsetとし、 𝐴 をUについての𝐴の補集合とする。uをUの要素とする。 このとき, 𝜇 𝐴 𝑢 =1− 𝜇 𝐴 𝑢 𝜇 𝐴∪𝐵 𝑢 = max 𝜇 𝐴 𝑢 , 𝜇 𝐵 (𝑢) 𝜇 𝐴∩𝐵 𝑢 = min 𝜇 𝐴 𝑢 , 𝜇 𝐵 (𝑢) 2019/5/2 2016ⒸSeitaro Shinagawa AHC-lab NAIST

2016ⒸSeitaro Shinagawa AHC-lab NAIST 3.3.3 Fuzzy Set Model Fuzzy Information Retrieval シソーラスを用いた検索方法 単語 𝑘 𝑖 , 𝑘 𝑙 間の相関行列C(キーワード相関行列)を以下のように定義 𝑐 𝑖,𝑙 = 𝑛 𝑖,𝑙 𝑛 𝑖 + 𝑛 𝑙 − 𝑛 𝑖,𝑙 AND ([0,1]への正規化のため) 𝑛 𝑖 : 𝑘 𝑖 を含む文書の数 𝑛 𝑙 : 𝑘 𝑙 を含む文書の数 𝑛 𝑖,𝑙 : 𝑘 𝑖 , 𝑘 𝑙 両方を含む文書の数 OR 単語相関行列Cによってあるfuzzy setとそれぞれの単語 𝑘 𝑖 を関連づけることができる。文書 𝑑 𝑗 はmembership度 𝜇 𝑖,𝑗 を持っていて 𝜇 𝑖,𝑗 =1− 𝑘 𝑙 ∈ 𝑑 𝑗 1− 𝑐 𝑖,𝑙 𝑘 𝑖 と 𝑘 𝑙 に相関(共起頻度)がない確率 𝑘 𝑖 と 𝑑 𝑗 のすべての単語に相関がない確率 𝑘 𝑖 が 𝑑 𝑗 の少なくとも1つの単語と相関がある確率 2019/5/2 2016ⒸSeitaro Shinagawa AHC-lab NAIST

2016ⒸSeitaro Shinagawa AHC-lab NAIST 3.3.3 Fuzzy Set Model [𝑞= 𝑘 𝑎 ∧( 𝑘 𝑏 ∨¬ 𝑘 𝑐 )]を[ 𝒒 𝑑𝑛𝑓 = 1,1,1 ∨ 1,1,0 ∨ 1,0,0 ]のようにOR 型になおして表すとする。ここで, 𝑘 𝑎 , 𝑘 𝑏 , 𝑘 𝑐 はバイナリ重みで [ 𝒒 𝑑𝑛𝑓 =𝑐 𝑐 1 ∨𝑐 𝑐 2 ∨⋯∨𝑐 𝑐 𝑝 ] ただし,𝑐 𝑐 𝑖 はi番目のconjunctive component?(disjunctiveの間違い?) ? 𝐷 𝑎 を,単語 𝑘 𝑎 に関連付けられた文書のfuzzy setだとする。このfuzzy setは文書 𝑑 𝑗 とそのmembership度 𝜇 𝑎,𝑗 (>閾値𝐾)で構成される 𝐷 𝑎 を 𝐷 𝑎 の補集合とする。 𝐷 𝑎 は 𝑘 𝑎 の否定 𝑘 𝑎 に関連付けられている。 同様にして 𝐷 𝑏 , 𝑘 𝑏 , 𝐷 𝑐 , 𝑘 𝑐 を考えることができて, 𝐷 𝑞 =𝑐 𝑐 1 +𝑐 𝑐 2 +𝑐 𝑐 3 𝑐 𝑐 3 𝑐 𝑐 2 [𝑞= 𝑘 𝑎 ∧( 𝑘 𝑏 ∨¬ 𝑘 𝑐 )] 𝑐 𝑐 1 𝑐 𝑐 1 = 𝜇 𝑎,𝑗 𝜇 𝑏,𝑗 𝜇 𝑐,𝑗 𝑐 𝑐 2 = 𝜇 𝑎,𝑗 𝜇 𝑏,𝑗 1− 𝜇 𝑐,𝑗 𝑐 𝑐 3 = 𝜇 𝑎,𝑗 (1−𝜇 𝑏,𝑗 ) 1− 𝜇 𝑐,𝑗 2019/5/2 2016ⒸSeitaro Shinagawa AHC-lab NAIST

2016ⒸSeitaro Shinagawa AHC-lab NAIST 3.3.3 Fuzzy Set Model 𝑐 𝑐 1 = 𝜇 𝑎,𝑗 𝜇 𝑏,𝑗 𝜇 𝑐,𝑗 𝑐 𝑐 2 = 𝜇 𝑎,𝑗 𝜇 𝑏,𝑗 1− 𝜇 𝑐,𝑗 𝑐 𝑐 3 = 𝜇 𝑎,𝑗 (1−𝜇 𝑏,𝑗 ) 1− 𝜇 𝑐,𝑗 fuzzy set 𝐷 𝑞 中の文書 𝑑 𝑗 のmembership 𝜇 𝑞,𝑗 は 𝜇 𝑞,𝑗 = 𝜇 𝑐 𝑐 1 +𝑐 𝑐 2 +𝑐 𝑐 3 ,𝑗 =1− 𝑖=1 3 1− 𝜇 𝑐𝑐,𝑗 =1− 1− 𝜇 𝑎,𝑗 𝜇 𝑏,𝑗 𝜇 𝑐,𝑗 × 1− 𝜇 𝑎,𝑗 𝜇 𝑏,𝑗 1− 𝜇 𝑐,𝑗 × 1− 𝜇 𝑎,𝑗 (1−𝜇 𝑏,𝑗 ) 1− 𝜇 𝑐,𝑗 まとめ fuzzy理論は情報検索ではマイナーな手法 大部分の実験も小さな文書コレクションについてしか適用されていない 拡張ブーリアンモデルも似ているが、0,1ではなく中間値をとることで想定されていない処理に余裕を持たせようとして研究されていた(今は流行っていないが発想は重要) 2019/5/2 2016ⒸSeitaro Shinagawa AHC-lab NAIST