知識情報演習Ⅲ（後半第3回）辻　慶太 http://slis.sakura.ne.jp/cje3.

Slides:

Advertisements

Similar presentations

XML ゼミ独習 XML ~ 第 6 章 XHTML~ 6.1 XHTML の概要 6.2 XHTML の構造谷津哲平.

Advertisements

1 検索 ● 検索：特定の文字列を探す ⓪検索を行う範囲を限定するときは、範囲選択をする。 ① 「ホーム」タブ⇒「編集」⇒「検索」タブとクリックする。 ②「検索する文字列」欄に検索したい文字を入力する。 ③「次を検索する」をクリックする。 ③ ‘ 「検索された項目の強調表示」⇒「すべて強調表示」とクリックすると、

1 WORD の起動法と終了法 ● WORD の起動法 (1) デスクトップの Microsoft Word アイコンをダブルクリックする。＊ (2) 「スタート」 ― 「すべてのプログラム」 ― 「 Microsoft Word 」と選ぶ。 (3) Word で作成された文書があるときは、そのアイコンをダブルクリック.

情報アプリケーション１ 2006 年 10 月 12 日第四回資料担当重定如彦. 目次データの送信とフォームクイズ CGI 複数のパーツのデータの分割方法配列変数.

情報処理第8回第8回第8回第8回. 目次 (1) スタイルの利用 – スタイルの概要 – スタイルの適用 (1) – 「スタイル」ウィンドウを開く – スタイルの適用 (2) – スタイル適用のセオリー – すべてのスタイルを表示 – スタイルの書式を変える (1) – スタイルの書式を変える (2)

電子書籍の検索機能の改善木下研究室２０１００２７１３鴫原善寿. 背景スマートフォンなどの携帯端末の普及とともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も現れた。電子書籍はデータなので本棚もいらず、持ち運びも容易になるなど様々な恩恵をもたらした。

コーパス言語学実践 2006 年度 2 学期第 9 回. 2 本日の内容これまでと同様の作業 – プログラムで処理するケースの紹介.

プログラミング言語論第10回（演習）情報工学科　木村昌臣　篠埜　功.

情報基礎演習I（プログラミング）第9回 6月22日水曜５限江草由佳

情報・知能工学系山本一公プログラミング演習Ⅱ 第3回配列（１）情報・知能工学系山本一公

本日のスケジュール１４：４５～１５：３０テキストの講義１５：３０～１６：１５設計レビュー１６：１５～１６：３０休憩

知能機械工学科担当：長谷川晶一 TA：新・後藤・ナンバ

2017/3/2 情報処理第8回.

知識情報演習Ⅲ（後半第5回）辻　慶太

プログラミング入門（教科書１～3章） 2005/04/14(Thu.).

コンピュータリテラシー第3回授業の復習基本的なUNIXコマンド

情報基礎演習B 後半第５回担当岩村 TA 谷本君.

Linux リテラシ 2006 第2回　基本コマンド2.

Excel によるデータベース入門 Ver /9.

2017/3/7 情報処理第8回.

知識情報演習Ⅲ（後半第1回）辻慶太（水）

JavaによるCAI学習ソフトウェアの開発

システムプログラミング第５回情報工学科篠埜功ヒアドキュメントレポート課題 main関数の引数 usageメッセージ

ISD実習E 2009年６月1日 read関数 read-macro back-quote 文字列のread 課題

ファイルシステムとコマンド.

プログラミング演習II 2004年10月19日（第1回）理学部数学科・木村巌.

第6章 2重ループ＆配列 2重ループと配列をやります.

情報教育論　第９回仮定文の仕組み政策・メディア研究科　岡田　健.

テキストの類似度計算

INSERT(x,p,L)の例（一部）磯直行 2009年5月5日

初年次セミナー第２回　文字の出力.

情報処理概論Ⅰ 2007 第9回 2007/6/20 情報処理概論Ⅰ 第9回.

ターム分布の確率モデル Zipfの法則：使用頻度の大きな語は語彙数が少なく，使用頻度の小さな語は語彙数が多い

マイクロソフト Access での SQL 演習第１回 SQL問い合わせ（クエリ）

10 Microsoft Word(1) 10.1 Microsoft Word v.Xの概要起動終了

プログラム実行時情報を用いたトランザクションファンクション抽出手法

情報処理３第５回目講義　　　　　　　　担当　鶴貝　達政 11/8/2018.

情報工学科　3年生対象　専門科目システムプログラミング第５回、第６回ヒアドキュメントレポート課題情報工学科篠埜　功.

IIR輪講復習 #1 Boolean retrieval

定兼邦彦今井浩東京大学理学系研究科情報科学専攻

独習ＸＭＬ第２章ＸＭＬ文書の構成要素 2.1 ＸＭＬの文字と文字列 2.2 コメント

単語登録(1) ◎ＭＳ-ＩＭＥの「単語登録」に、単語、語句、記号など自分がよく使うものを登録しておくと、便利である。

2016年度植物バイオサイエンス情報処理演習第6回情報処理(4) データを加工する・2

知識情報演習Ⅲ（後半第2回）辻　慶太

情報処理概論Ⅰ 2007 第10回 2007/6/2７情報処理概論Ⅰ 第10回.

情報処理概論Ⅰ 2007 第5回 2019/4/7 情報処理概論Ⅰ 第5回.

類似度を用いた WWW のリンク構造の解析谷　研究室　　　　栗原　伸行.

環境システム科学演習(後半) FORTRAN ＆ C(以降FORTRANと省略して呼びます)は富士通

情報処理Ⅱ 第２回：２００３年１０月１４日（火）.

知識情報演習Ⅲ（後半第3回）辻　慶太

情報基礎演習I（プログラミング）第11回 7月12日水曜５限江草由佳

B演習(言語処理系演習)第2回田浦.

統計ソフトウエアRの基礎.

2017年度植物バイオサイエンス情報処理演習第11回系統樹

プログラミング演習I 2003年7月2日（第11回）木村巌.

vc-3. ダンプリスト，配列（Visual Studio C++ の実用知識を学ぶシリーズ）

構造的類似性を持つ半構造化文書における頻度分析

設計情報の再利用を目的とした UML図の自動推薦ツール

プログラミング基礎ａ第４回Ｃ言語によるプログラミング入門条件判断と反復

独習XML ~第１章 XMLの基礎~ 1.1 XML文書の基礎 1.2 XMLとHTML

情報処理概論Ⅰ 2007 第6回 2019/5/16 情報処理概論Ⅰ 第6回.

vc-1. Visual Studio C++ の基本操作（Visual Studio C++ の実用知識を学ぶシリーズ）

vc-3. ダンプリスト，配列（Visual Studio C++ の実用知識を学ぶシリーズ）

情報処理第７回：Wordを用いた文書の作成その１ May 31, 2019.

プログラミング基礎ａ第３回 C言語によるプログラミング入門データ入力

情報処理Ⅱ ２００７年１２月３日（月）その１.

プログラミング演習II 2004年11月 2日（第3回）理学部数学科・木村巌.

プログラミング基礎ａ第３回 C言語によるプログラミング入門データ入力

岩村雅一知能情報工学演習I 第７回（後半第１回）岩村雅一

Presentation transcript:

知識情報演習Ⅲ（後半第3回）辻　慶太 http://slis.sakura.ne.jp/cje3

索引付けの手順概要（復習）索引語の抽出不要語の削除接辞処理索引語の重み付け索引ファイルの編成文字バイグラム，単語，フレーズなど　文字バイグラム，単語，フレーズなど不要語の削除接辞処理索引語の重み付け　検索手法（検索モデル）によっては不要　例えば，論理式によるブーリアンモデルでは不要索引ファイルの編成 extract.prl stopword.prl stemming.prl tf.prl idf.prl

索引語の重み付け（以下は前回のppt と同じ）ある文書を特徴付ける索引語には高い重みを与える伝統的な手法に TF.IDF法がある TF: 索引語頻度 IDF: 逆文書頻度完全一致（ブーリアンモデル）では不要

索引語頻度 Term Frequency（TF）ある文書によく出現する索引語は，その文書を特徴付けるという仮説に基づいている文書 d における索引語 t の出現頻度索引語を「ターム」とも呼ぶ（単語とは限らない） TFは文書と索引語が与えられて決まる尺度

TFの例犬 … 犬犬犬 … ネコ … ネコ … 犬犬文書Ａ文書B

逆文書頻度 Inverse Document Frequency（IDF）多くの文書に出現する索引語は，特定の文書を弁別する能力が低い少数の文書にしか現れない索引語を重視する　N: コレクション中の文書総数　df(t): 索引語 t が出現する文書数索引語だけで決まる尺度（TFとの違いに注意）

IDFの例 idf(動物) = 1 idf(犬) = 1.32 idf(ネコ) = 2.32 idf(ロボット) = 3.32 動物ネコ N = 5 df　動物=5，犬=4，ネコ=2，ロボット=1 動物=6，犬=5 idf(動物) = 1 idf(犬) = 1.32 idf(ネコ) = 2.32 idf(ロボット) = 3.32 idfの最小値「動物」では全文書が検索されてしまい，弁別性が低い

Perlにおけるハッシュ配列と違って文字列をキーとして使える１つのキーで値を特定できるデータ複数のキーで値を特定できるデータ例：索引語 dog の IDF が 2.5 $idf{’dog’} = 2.5; 複数のキーで値を特定できるデータ例：索引語 dog の文書D001における TF が 10 $tf{’dog’}{’D001’} = 10;

キーが１つの場合 $idf{key} %idf = (’dog’ => 2.5, ’cat’ => 1.6, ’year’ => 3.3); %idf key value dog 2.5 cat 1.6 year 3.3 … $idf{’dog’} = 2.5; $idf{’cat’} = 1.6; $idf{’year’} = 3.3;

キーが複数の場合 $tf{key}{key2} %{$tf{’dog’}} というハッシュ key2 value D001 10 D002 3 %tf key value dog ● cat year … … $tf{’dog’}{’D002’} = 3; … ハッシュの名前 key2 value D002 14 %{$tf{’cat’}} %{$tf{’year’}} … …

ハッシュの内容を出力するプログラムの例 dog 2.5 cat 1.6 foreach $term (sort keys %idf) { キーが１つ dog 2.5 cat 1.6 ．．． year 3.3 foreach $term (sort keys %idf) { print ”$term $idf{$term}\n”; } キーが２つ foreach $x (sort keys %{$tf{’dog’}}) { print ”$x $tf{’dog’}{$x}\n”; } D001 10 D002 3 ．．．

演習１まず，演習のページにある tf_idf.prl の内容を入力して実行せよコピーペーストできないPDFファイルなので，全て自分で入力することその方がプログラムをよく読むでしょう印刷はできます次に，重み tf(t,d)×idf(t) を計算して出力するように修正せよ実際には，最後の方に何行か追加すればよい

索引付けプログラムの実装：方針索引付けの段階ごとにプログラムを作る小さめのプログラムを複数作ることで，実装を段階的に行う大きなプログラムを作ると，中間データの保存が煩雑になるうまく動かない場合に問題の所在が分かりづらい複数のプログラムを連結させる方法方法１：中間ファイルを作る方法２：パイプライン処理を行う

索引付けの手順概要（復習）索引語の抽出不要語の削除接辞処理索引語の重み付け索引ファイルの編成文字バイグラム，単語，フレーズなど検索手法（検索モデル）によっては不要例えば，論理式によるブーリアンモデルでは不要索引ファイルの編成 extract.prl stopword.prl stemming.prl tf.prl idf.prl

連結方法１：中間ファイルを作る文書群ファイル documents.txt 入力出力 chuukan1 extract.prl stopword.prl 中間ファイルを確認しながら実装を進められる chuukan3 stemming.prl tf.prl chuukan4 索引ファイル index idf.prl 中間ファイル % perl extract.prl documents.txt > chuukan1 % perl stopword.prl chuukan1 > chuukan2 % perl stemming.prl chuukan2 > chuukan3 % perl tf.prl chuukan3 > chuukan4 % perl idf.prl chuukan4 > index 本来不要なファイルがたくさんできる

連結方法２：パイプライン処理を行う文書群ファイル documents.txt 入力 extract.prl 出力入力 stopword.prl 出力前のプログラムが標準出力に出したデータを次のプログラムが標準入力から受け取る入力 stemming.prl 出力 tf.prl 入力索引ファイル index 出力 idf.prl 入力複数のコマンドを縦棒でつなぐ（改行せずに１行で書く） % perl extract.prl documents.txt | perl stopword.prl | perl stemming.prl | perl tf.prl | perl idf.prl > index

参考パイプライン処理を行い，かつ中間ファイルも作るには，「tee」というコマンドを間に挟む % perl extract.prl documents.txt | tee chuukan1 | perl stopword.prl …（以下，略）上の例では，chuukan1 というファイルができる

文書群ファイルの形式 <DOC> <NUM>D001</NUM> <DOC> １つの文書 <TEXT> He is a student. … Students are … student … She is not a student. … </TEXT> </DOC> <NUM>D002</NUM> Two dogs are … The dog is … … <DOC> １つの文書 <NUM> 文書番号 <TEXT> 本文英文の文書を対象とする演習のページにある documents.txt を使うとよい必要に応じて小さい（または大きい）ファイルを自分で作成してもよい

extract.prl の仕様文書群ファイルを入力し，空白を区切りとして索引語を抽出する索引語を小文字に統一する索引語の末尾に付いたカンマとピリオドを削除する以下の形式で出力する D001 he D001 is D001 a D001 student … D002 two D002 dogs １行に「文書番号　索引語」文書番号と索引語は半角スペース１つで区切る

stopword.prl の仕様 × extract.prl の出力を入力し，不要語を削除する不要語のリスト（自分で適宜追加してよい）　a, an, and, in, of, the D001 he D001 is D001 a D001 student … D002 two D002 dogs D001 he D001 is D001 student … D002 two D002 dogs ×

stemming.prl の仕様 stopword.prl の出力を入力し，接辞処理を行う接辞処理の規則（自分で適宜追加してよい）複数形への対応（末尾の s や es を削除）過去形への対応（末尾の ed を削除）副作用が起きても気にしない D001 he D001 is D001 student … D002 two D002 dogs D001 he D001 i D001 student … D002 two D002 dog

tf.prl の仕様 stemming.prl の出力を入力し，文書ごとに索引語の頻度（TF）をかぞえる文書総数をかぞえてファイルの先頭行に出力する D001 he D001 i D001 student D002 dog D003 dog 文書の総数（IDFの計算に必要） 10 D001 he 1 D001 i 1 D001 student 3 D002 dog 2 D003 dog 1

idf.prl の仕様 tf.prl の出力を入力し，索引語のIDFを計算する TF×IDFによって索引語の重みを計算する文書の総数は出力しない索引ファイルが完成 10 D001 he 1 D001 i 1 D001 student 3 … D002 dog 2 D003 dog 1 D001 he 1 2.6 2.6 D001 i 1 1 1 D001 student 3 3.3 13.2 … D002 dog 2 2.2 4.4 文書番号　索引語　TF　IDF　重み

演習２ extract.prl から idf.prl まで一通り実装せよ終わった人は，担当教員かTAの確認を受けること文書数や１文書の長さが異なるいろいろな文書群ファイルを使って動作確認せよ終わった人は，担当教員かTAの確認を受けること確認が済んだら，後半第２回のスライドを参考にして，オンライン処理のプログラムを実装せよ今回作成した extract.prl, stopword.prl, stemming.prl をそのまま使えるように工夫せよ