知識情報演習Ⅲ(後半第5回) 辻 慶太 http://slis.sakura.ne.jp/cje3.

Slides:



Advertisements
Similar presentations
コンピュータプラクティ スⅠ 校正 水野嘉明. 本日の内容 「校正」 Word による自動校正  小論文:「校正の必要性」につい て 人による校正  前回作成したファイルを、他の人 と交換して校正 レポート提出  完成したファイルを R0 として提出 2.
Advertisements

コンピュータ演習 Excel 入門 岡田孝・山下雅啓 Excel の機能は膨大 その中のごく一部を紹介 表計算機能 – データの入力、表の作成、計算など グラフ機能 – 棒グラフ、円グラフなどグラフ作成 データベース機能 – 並べ替え(ソート)、検索、抽出など マクロ機能 – VBA で自動化したマクロを作成可能.
Word で論文を書こう ~論文の構成と Word の使い方~. Word で論文を書く  文章の構成 i. パラグラフ・トピックセンテンスの作り 方 ii.Word で階層化された文章を書く  分かりやすい表現を! i. わかりやすく簡潔な表現 ii.Word の書式設定 iii. もくじをつけよう.
1 WORD の起動法と終了法 ● WORD の起動法 (1) デスクトップの Microsoft Word アイ コンをダブルクリックする。 * (2) 「スタート」 ― 「すべてのプログラ ム」 ― 「 Microsoft Word 」と選ぶ。 (3) Word で作成された文書があるとき は、そのアイコンをダブルクリック.
情報システムプロジェクト I 第2回 FileScanner.java ~ファイル入力、文字切り出し機能を持つ プログラムの作成~
情報・知能工学系 山本一公 プログラミング演習Ⅱ 第3回 配列(1) 情報・知能工学系 山本一公
システムプログラミング 第7回、8回 ファイルシステム関連の システムコール
2017/3/2 情報処理 第8回.
情報・知能工学系 山本一公 プログラミング演習Ⅱ 第4回 配列(2) 情報・知能工学系 山本一公
プログラミング基礎I(再) 山元進.
Linux リテラシ 2006 第2回 基本コマンド2.
数理情報工学演習第一C プログラミング演習 (第3回 ) 2014/04/21
Excel による データベース入門 Ver /9.
2017/3/7 情報処理 第8回.
ファイルやフォルダを検索する ①「スタート」→「検索」→「ファイルとフォルダ」とクリックする。
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
Copyright © Kazuhito HAMANO 2007 all Rights Reserved.
情報基礎演習I(プログラミング) 5月25日 水曜5限 江草由佳
6/19 前回復習 for文による繰り返し計算 演習1:1から10まで足して画面に結果を表示する 提出者: 1人
レポート課題について.
システムプログラミング 第5回 情報工学科 篠埜 功 ヒアドキュメント レポート課題 main関数の引数 usageメッセージ
プログラミング基礎I(再) 山元進.
多重ループ 繰り返し構造:補足事項 第8回目 [6月8日、H.16(‘04)] 本日のメニュー 1)前回の課題について
多重ループ 繰り返し構造:補足事項 第8回目 [6月12日、H.15(‘03)] 本日のメニュー 1)前回の課題について
第13回 プログラミングⅡ 第13回
IT入門B2 (木曜日1限) 第一回 講義概要 2004年月9日30日.
第8回 プログラミングⅡ 第8回
担当:青木義満 情報工学科 3年生対象 専門科目 システムプログラミング システムプログラミング プロセス間通信(パイプ) 担当:青木義満
プログラミング実習 1・2 クラス 第 1 週目 担当教員:  渡邊 直樹.
情報処理概論Ⅰ 2007 第9回 2007/6/20 情報処理概論Ⅰ 第9回.
スクリプト言語を用いたPHITSの連続実行
ウェブデザイン演習 第一回 オリエンテーション.
第10回 プログラミングⅡ 第10回
コンピュータプラクティス I コンピュータプラクティスⅠ 校正 水野嘉明 校正.
情報工学科 3年生対象 専門科目 システムプログラミング 第5回、第6回 ヒアドキュメント レポート課題 情報工学科 篠埜 功.
プログラミング 2 ファイル処理.
情報処理 第8回.
プログラミング演習(2組) 第8回
情報・知能工学系 山本一公 プログラミング演習Ⅱ 第2回 ファイル処理 情報・知能工学系 山本一公
プログラミング入門 電卓を作ろう・パートIV!!.
デバッガ dbx の使い方.
情報基礎演習I(プログラミング) 第10回 6月29日 水曜5限 江草由佳
知識情報演習Ⅲ(後半第3回) 辻 慶太
2016年度 植物バイオサイエンス情報処理演習 第6回 情報処理(4) データを加工する・2
知識情報演習Ⅲ(後半第2回) 辻 慶太
情報処理概論Ⅰ 2007 第10回 2007/6/27 情報処理概論Ⅰ 第10回.
Talkプログラムのヒント 1 CS-B3 ネットワークプログラミング  &情報科学科実験I.
地域情報学 C言語プログラミング 第1回 導入、変数、型変換、printf関数 2016年11月11日
システムプログラミング 第7回、8回 ファイルシステム関連の システムコール
プロジェクト演習Ⅱ インタラクティブゲーム制作
知識情報演習Ⅲ(後半第3回) 辻 慶太
システムプログラミング 第7回、8回 ファイルシステム関連の システムコール
情報基礎演習I(プログラミング) 第11回 7月12日 水曜5限 江草由佳
ファイルの読み込み #!/usr/bin/env perl #Perlスクリプトの指定 open(FILE, "food.txt");
データ構造とアルゴリズム (第5回) 静岡大学工学部 安藤和敏
基礎プログラミング演習 第6回.
プログラミング演習I 2003年7月2日(第11回) 木村巌.
ORの手法ゲームの理論3 (Excelによるゲーム理論実習)
情報処理概論Ⅰ 2007 第8回 2007/6/13 情報処理概論Ⅰ 第8回.
プログラミング入門2 第13回、14回 総合演習 情報工学科 篠埜 功.
情報基礎演習I(プログラミング) 6月8日 水曜5限 江草由佳
プログラミング基礎a 第4回 C言語によるプログラミング入門 条件判断と反復
ウェブデザイン演習 第6回.
情報検索演習:第4回 前回の配布資料: 教室の前方のカサ立てにある パソコンを起動したさいに入力する 氏名に 「時限-学籍番号-名前」
情報処理Ⅱ 2005年1月25日(火) レポート課題2の解説.
情報処理Ⅱ 第7回 2004年11月16日(火).
ネットワーク・プログラミング Linuxシステムとソフトウェア開発.
情報処理Ⅱ 2005年11月25日(金).
プログラミング演習II 2004年11月 2日(第3回) 理学部数学科・木村巌.
岩村雅一 知能情報工学演習I 第7回(後半第1回) 岩村雅一
Presentation transcript:

知識情報演習Ⅲ(後半第5回) 辻 慶太 http://slis.sakura.ne.jp/cje3

本資料の内容 オンライン検索プログラム レポート課題 成績評価 授業評価

索引付けの手順概要(復習) 索引語の抽出 不要語の削除 接辞処理 索引語の重み付け 索引ファイルの編成 文字バイグラム,単語,フレーズなど 検索手法(検索モデル)によっては不要 例えば,論理式によるブーリアンモデルでは不要 索引ファイルの編成 extract.prl stopword.prl stemming.prl tf.prl idf.prl

索引付けのプログラム(復習) 文書群ファイル documents.txt 入力 extract.prl 出力 入力 stopword.prl stemming.prl 出力 tf.prl 入力 索引ファイル index.txt 出力 出力 idf.prl 入力

オンライン処理の図解(復習) 文書集合 D1~D10 検索 犬 ロボット 索引付け (オフライン) ①索引語の抽出 索引 転置ファイル 犬 犬 ロボット 索引付け (オフライン) ①索引語の抽出 索引 転置ファイル 犬 → D2(0.1) D3(0.8) D5(1.2) D9(0.1) ロボット → D1(1.2) D3(0.7) D5(0.1) ②文書と重みの探索 ③スコアの計算 D1 = 1.2 D2 = 0.1 D3 = 0.8 + 0.7 = 1.5 D5 = 1.2 + 0.1 = 1.3 D9 = 0.1 1. D3 2. D5 3. D1 4. D2 5. D9 個別の文書を読む場合 ④文書の整列

オンライン検索の作成方針 索引付けと同様に以下の前処理が必要 その後で文書ごとにスコアを計算し,スコアの降順に整列して出力する (1) 索引語の抽出 (2) 不要語の削除 (3) 接辞処理 その後で文書ごとにスコアを計算し,スコアの降順に整列して出力する 索引付けのプログラムをそのまま使う 今回作成するプログラム retrieval.prl

検索質問ファイルの形式 文書群ファイル(documents.txt)と形式を揃えることで,索引付けのプログラムを流用できるようにする ただし,1つのファイルには検索質問を1件だけ入力する(その方が処理が簡単になる) 演習のページにある query.txt を使うとよい <QUERY> 1つの検索質問 <NUM> 検索質問番号 <TEXT> 検索質問の本文 索引付けのプログラムで,<NUM>中の番号が D で始まることを前提にしている場合は注意 <QUERY> <NUM>Q001</NUM> <TEXT> a web searching system </TEXT> </QUERY>

連結方法1: 中間ファイルを作る 中間ファイル 入力 出力 検索質問 ファイル query.txt chuukan1 extract.prl stopword.prl chuukan3 stemming.prl 索引ファイル index.txt 入力 標準入力 (STDIN) retrieval.prl コマンドライン引数 標準入力と衝突させないため 画面へ出力 % perl extract.prl query.txt > chuukan1 % perl stopword.prl chuukan1 > chuukan2 % perl stemming.prl chuukan2 > chuukan3 % perl retrieval.prl index.txt < chuukan3 コマンドライン引数 標準入力(STDIN)

連結方法2: パイプライン処理を行う 入力 検索質問 ファイル query.txt extract.prl 出力 入力 stopword.prl 出力 入力 stemming.prl 索引ファイル index.txt 出力 入力 retrieval.prl 入力 コマンドライン引数 標準入力 (STDIN) 画面へ出力 % perl extract.prl query.txt | perl stopword.prl | perl stemming.prl | perl retrieval.prl index.txt コマンドライン引数 標準入力(STDIN)

retrieval.prl の仕様 stemming.prl の出力と索引ファイル(index)を入力し,検索された文書をスコアの降順に整列して出力する ヒット件数(検索された文書数)を先頭の行に出力する hit = 6 D004 5.08 D008 3.39 D003 1.69 … ヒット件数 Q001 web Q001 search Q001 system 文書番号とスコア stemming.prl の出力 retrieval.prl の出力

エラー処理 open(IN, $file) || die ”$file: $!”; ユーザがプログラムを正しく使った場合に正しく動作することは当然 ユーザがプログラムの使い方を誤った場合への対処が重要 → エラー処理 今までに出てきた例 開こうとしたファイルが開けなかった open(IN, $file) || die ”$file: $!”; ファイルのオープン エラーメッセージを出して終了 または ファイルのオープンに失敗したらエラーメッセージを出して終了

retrieval.prl におけるエラー処理 索引ファイルを開く前に,ファイルがコマンドラインで指定されているかどうかを確認する 指定されていない場合は,エラーメッセージを出して強制終了する $0: 実行したプログラムの名称が代入される この場合は retrieval.prl コマンドライン引数の数を確認 if (@ARGV != 1) { print STDERR ”Usage: $0 <index file>\n”; exit; } エラーメッセージを標準エラーに出力する(標準出力に出すと見落とす場合がある) exit 強制終了 このように表示される → Usage retrieval.prl <index file>

レポート課題 索引付けとオンライン検索のプログラムを作成する プログラムに行番号を付けて,それぞれの行について別紙で説明する extract.prl, stopword.prl, stemming.prl, tf.prl, idf.prl, retrieval.prl プログラムに行番号を付けて,それぞれの行について別紙で説明する 説明は,プログラム1行につき1文程度でよい

プログラムと説明の例(extract.prl) while ($line = <>) { chomp($line); if ($line =~ /<NUM>(.+)<\/NUM>/) { $docid = $1; } …… プログラムと説明を別のページに印刷する 1 ファイルの内容がなくなるまで1行ずつ読み込む 2 ファイル行の末尾にある改行を削除する 3 ファイル行に <NUM> と </NUM> があれば 4 <NUM> と </NUM> の間にある文字列を$docidに代入する 5 3行目の if 文による条件分岐の終了

レポートの提出方法 形式 提出場所 締切(厳守) 表紙: 科目名,受講クラス(火・水),学籍番号,氏名 本文: 6つのプログラムとそれらの説明 注意: 両面印刷し,左上をステープラで止める プログラムと説明が見開きのページになるように どのプログラムか分かるように 可読性が良くなるように努めること 同一・酷似レポートはどちらも0点とする 提出場所 学務係のレポートボックス 受講クラスごとにボックスがあるので間違えないように(間違えた場合は採点対象から漏れる場合があります) 締切(厳守) 3月6日(火) 17:00

成績評価 後半5回分の配点(50点) 前半5回分と総合して100点満点で計算し,A~Dを判定する 完成したプログラムの数が多いほど評価は高い 出席(30%) 3点×5回=15点 レポート(70%) 「プログラム」と「説明」の組で各5点 5点×6 = 30点 レポートの体裁や可読性など 5点 前半5回分と総合して100点満点で計算し,A~Dを判定する 完成したプログラムの数が多いほど評価は高い 全てのプログラムが完成しなくても及第点に及ぶ可能性はあるので,あきらめないように ここでの数値は目安であり,実際の評価では多少変動することがある

授業評価 科目番号 良いことは良いと書こう なるべく理由も書こう GE11222 授業方針を変更する場合に,良い部分を削ってしまうことがないように なるべく理由も書こう 否定的なコメントを書く場合 理由がある → 意見 理由がない → 誹謗中傷