Web 共同編集機能を実装した メール検索システム 井上研究室 Choy Kho Yee 2006年02月27日
2006/02/27 平成 17 年特別研究報告 2 オープンソース開発とメーリングリ スト オープンソース開発 ソースコードなどが公開される 世界中に分散した開発者が協力し合って開発を行 う メーリングリスト 開発者とユーザ間での意思疎通を果たす 設計と実装やバグ,使い方について議論する
2006/02/27 平成 17 年特別研究報告 3 メーリングリストアーカイブ メーリングリ ストでやりと り 疑問を持った開発者・ユー ザ メーリングリ ストアーカイ ブ 検索 全てのメールを メーリングリスト アーカイブに保存 開発者・ユーザは過去の 議論を参考にして、 問題を解決するために 頻繁にアーカイブを検索する
2006/02/27 平成 17 年特別研究報告 4 メーリングリストアーカイブの問題 点 時間の流れ 1. ユーザ A はメールを出した 2. メールの内容が時間が過ぎると正確でなくなった 3. ユーザ B がそのメールを見て,間違った情報を信じてしまった 4. ユーザ B は間違った判断をしてしまった 5. 場合によって,検索しなおす ユーザ A ユーザ B あるイベントで メールの内容が 正確でなくなった
2006/02/27 平成 17 年特別研究報告 5 Web 共同編集作業 例:フリー百科事典「 Wikipedia 」 各項目は利用者が保守します 間違った箇所は誰でもすぐに修正できる Web を通して利用者が共同に文章の編 集,レビューを行う作業 メーリングリストアーカイブの問題点 の解消に利用できる
2006/02/27 平成 17 年特別研究報告 6 本研究の目的 メーリングリストアーカイブの利用者に 正確な情報を効率よく届ける 課題 メールの内容の品質向上 メールの本文以外の情報の提供 検索効率の向上
2006/02/27 平成 17 年特別研究報告 7 メールの内容の品質改善 メールの編集 メール本文以外の情報の提供 メールに対するコメント追加 メールに対する評価 メールのタグでの分類 検索効率の向上 評価,タグの検索への反映 提案手法 Web 共同編集機能を実装したメー ル検索システムを提案
2006/02/27 平成 17 年特別研究報告 8 メールの編集 Wiki を導入 Wiki とは, Web インターフェイスからサーバ上 の テキスト文書を簡単に書き換えるシステム 編集履歴を管理 一回の編集につきバージョンが1つ増加する 過去の内容を参照して編集を行う 悪質な書き込みからの内容を復帰する
2006/02/27 平成 17 年特別研究報告 9 メール本文以外の情報提供 コメント メールに対する意見・補足である 一通のメールに対して複数のコメントを追加できる ランク ユーザのメールに対した評価を表す ランクの範囲は “-10” ~ “+10” である 複数のユーザが付けたランクの平均値をとる タグ ユーザが任意に指定できる文字列である 例: ”windows migrate”, “php setup” など 複数指定可能 メールの分類に利用される
2006/02/27 平成 17 年特別研究報告 10 メーリングリストアーカイブのモデ ル図 実体 属性 関連 スレッド構造の 再現に利用した
2006/02/27 平成 17 年特別研究報告 11 スレッド トップ スレッド メール1 メール2 メール3 検索機能 MySQL の全文検索機能を利用する メールの最初のバージョンと最新バージョンのみ スレッド単位で出力する メール2がヒットすればスレッド全体がヒットする スレッド全体のスコアは各メールのスコアの合計
2006/02/27 平成 17 年特別研究報告 12 スコアの計算 メールのスコア, X は下記式で算出 S my : MySQL の内部スコア R: メールのランク N title : メールのタイトルに含まれる検索キーワード の数 N tag : 検索キーワードに一致したメールのタグの数 ※検索にヒットしなかったメールのスコア=0
2006/02/27 平成 17 年特別研究報告 13 検索の高速化 スレッドトップを求めるのに時間がかか る メール⇔スレッドトップの関係を予め保持して おく 同じキーワードで毎回検索すると効率が 悪い 検索キャッシュを設けた キャッシュの有効期限は 10 分間にした
2006/02/27 平成 17 年特別研究報告 14 MLwiki の概略図 登録プログラム Perl で実装 576 行 データベース MySQL 16 個のテーブル Web インターフェ イス PHP で実装 9 つのファイル 総行数 2265 行
2006/02/27 平成 17 年特別研究報告 15 MLwiki のユーザインターフェイス ナビゲーション・サイドバー 検索結果・内容などの表示部 検索入力部
2006/02/27 平成 17 年特別研究報告 16 メールの編集 メールの内容 編集部 無効なリンク 古い情報 最新情報を書く 追加された部分
2006/02/27 平成 17 年特別研究報告 17 実験 目的 検索精度を確認する 今後の研究の方向を確認する 対象 FreeBSD のメーリングリストアーカイブ 方法 既存全文検索システム Namazu と比較 FreeBSD の開発者にアンケート採取
2006/02/27 平成 17 年特別研究報告 18 Namazu との比較 設定 freebsd-stable で 2005 年 12 月にやりとりされた メールの中から「デバイスドライバーに関する 議論」を探したい 方法 5 つのキーワードで検索を 5 回行った キーワード: device driver, device support, driver, driver problem, driver support 再現率,適合率の平均値を求め,f値を計算
2006/02/27 平成 17 年特別研究報告 19 Namazu との比較結果 %46.5% 本システム %45.0%Namazu f値f値適合率再現率 既存全文検索システム Namazu との比較結果 再現率 - 必要な情報のうち実際に検索された情報の割合 適合率 - 実際に検索された情報のうち必要な情報の割合 ランク,タグの数の増加とともに検索精度の 向上が期待できる
2006/02/27 平成 17 年特別研究報告 20 アンケートの結果 FreeBSD の開発者にアンケート採取 期間: 3 週間( 2006 年 1 月 20 日~ 2 月 10 日) 設問数: 17 問 回収できた件数: 14 件 本システムにおいて実用だと思われる機能 人数
2006/02/27 平成 17 年特別研究報告 21 まとめと課題 Web 共同編集機能を実装したメール検索システ ムの設計と実装を行った Namazu と比較した結果,本システムの検索精 度が高いとわかった アンケートを通して今後の研究の方向を確認し た メール編集に対する抵抗感の解消方法の考案 編集されたことをより強調するなど より長い期間でシステムを公開し有効性の検証
終わり ご清聴ありがとうございました
2006/02/27 平成 17 年特別研究報告 23 まとめと課題 Web 共同編集機能を実装したメール検索システ ムの設計と実装を行った Namazu と比較した結果,本システムの検索精 度が高いとわかった アンケートを通して今後の研究の方向を確認し た メール編集に対する抵抗感の解消方法の考案 編集されたことをより強調するなど より長い期間でシステムを公開し有効性の検証
背景
2006/02/27 平成 17 年特別研究報告 25 Wiki とは Web インターフェイスからサーバ上の ハイパーテキスト文書を簡単に書き換え る システム 特徴: どこからでも、いつでも、誰でも、文書を書き 換えて保存することができる 特有の文書マークアップが使える 文書間のリンクが張りやすい
2006/02/27 平成 17 年特別研究報告 26 Wiki のマークアップ例
設計と実装
2006/02/27 平成 17 年特別研究報告 28 メーリングリストのモデル図(1)
2006/02/27 平成 17 年特別研究報告 29 メーリングリストのモデル図(2)
2006/02/27 平成 17 年特別研究報告 30 メーリングリストのモデル図(3)
2006/02/27 平成 17 年特別研究報告 31 データベースのスキーマ
2006/02/27 平成 17 年特別研究報告 32 MLwiki の対象、動作環境 対象としたメーリングリストアーカイブ FreeBSD のメーリングリストアーカイブ 動作環境 CPU: Pentium GHz メモリ: 884 MB RAM OS: Debian Sarge Apache MySQL PHP Perl その他: CPAN のライブラリ、 PHP Pear のパッケージ
動作例
2006/02/27 平成 17 年特別研究報告 34 Wiki の作成 キャメルケース( CamelCase )による Wiki リンクの作成 疑問号をクリックする Wiki のマークアップを 用いて文章を作成する 最近作成された Wiki の一覧表示
2006/02/27 平成 17 年特別研究報告 35 コメントの追加 コメントが追加された
2006/02/27 平成 17 年特別研究報告 36 ランクを用いた評価
2006/02/27 平成 17 年特別研究報告 37 タグを利用したメールの分類 メールの内容表示 編集部 タグの表示 → “screen capture” で タグ付けられたメール タグのリスト
2006/02/27 平成 17 年特別研究報告 38 ナビゲーション・サイドバー
2006/02/27 平成 17 年特別研究報告 39 実例:迷惑メール
評価・その他
2006/02/27 平成 17 年特別研究報告 41 データベースの作成時間 検索インデックスの 作成時間=1時間17分
2006/02/27 平成 17 年特別研究報告 42 検索効率の評価
2006/02/27 平成 17 年特別研究報告 43 再現率 (Recall) ,適合率 (Precision)