図書館ツール発想日記 ~「東京大学内のサイトから関連学術用語のデータを得る」(仮称)システムへの寄り道思考経路~ 平成20年7月31日 図書系のためのアプリケーション開発講習会
図書館で使えそうな情報を集める 図書「集合知プログラミング」(オライリー)を生協でみかけて購入 Web 2.0 的な図書館 サービスというのも いいかも????
しかし、集合知は、なんとか使いたいのだ! いきなり挫折する 「集合知プログラミング」における”洗練された手法”あたりは、まえだには手にあまる SVMとか、非負行列とか ここまでくると、大学で統計の勉強をしていなかったのが悔やまれる… しかし、集合知は、なんとか使いたいのだ!
学内サイトから書評を探して提示するほうが、面倒ない? コメント機能の逆を考える Amazonや新世代OPACには、利用者がコメントを入れる機能をもつが…. …. まえだのような面倒くさがりな人種はコメントを書かないかも…. 学内サイトから書評を探して提示するほうが、面倒ない?
専門用語を検索エンジンで検索して得られる結果=“要約”は、書評としては使えないかも 検索エンジン(Yahoo!)で 学内検索 GoogleとYahoo!ともに、サイトを絞った検索が可能 Webサービスとしては、Yahoo! (REST方式)のほうが簡単なので、めんどうくさがりなまえださんは、こちらを使うことにする 専門用語を検索エンジンで検索して得られる結果=“要約”は、書評としては使えないかも
用語抽出ソフトを組合わせる 検索結果の要約を書評として使うことは厳しくても、関連用語を提示することはできそう 「言選Web」(TermExtract)を使えば楽に処理できる(そもそも開発担当だし…) 「言選Web」に 乗ってGo!
OPACとの連携 OPAC → 関連用語へのシームレスな連携は難しい 逆に関連用語からOPAC にリンクするとか
連想検索っぽい? コスト(マシン、維持、開発)が かからないので、 精度はさておき、 これもありかも? 一見、WebCat Plusの連想検索のように、関連用語から所蔵にナビゲートするが… 自然言語処理の理論としては、いちおう用語同士の「共起」(同じ文脈中に現れる回数)にのっとっているが、結果は「言選Web」の”重要度”でランキングしただけ(精度の保障なし) ただ、かつての「ことわけWeb」のように、まともにつくると結構処理時間がかかるので、これはこれでよいかも??? 精度はさておき、 コスト(マシン、維持、開発)が かからないので、 これもありかも?
たねあかし Yahoo! ウェブ検索(Webサービス)で ランク上位から50件までのサイトを検索 Yahoo!検索結果のXMLからSummaryを 取り出す(オンラインでYahoo!検索した ときの各サイトの要約と同じデータ) 専門用語自動抽出Perlモジュール TermExtract (言選Web)にかける 用語リストに東京大学OPACへの リンクを付与して結果表示
関連用語検索画面 画面例 関連用語検索結果とOPACリンク OPAC検索結果