平成19年5月19日 第3版 東京大学理学部生物化学図書室 前田 朗

Slides:



Advertisements
Similar presentations
ECLフレームワー ク 近畿大学 理工学部 情報学 科 間野 哲 弥.
Advertisements

オープン&ビッグデータ活用・地方創生推進機構 事務局 オープン&ビッグデータ活用・地方創生推進機構 評価版ツールの状況報告 平成26年度第3回 技術委員会 資料3-1.
1 なんとなく Ajax ~新しくて古い XMLHttp 川合孝典 (Kansai.pm) 2005/5/22.
ウェブページビルダーマニュアル 株式会社 SOIYAA.
図書系のための アプリケーション開発講習会 2008年7月31日
オープンソースCMS「ZOMEKI」を利用した 業務システムの開発手法
WagbyR6.5 Update 14 PPT版 更新情報
Webアプリケーション開発の 基本的なポイント
ハルビン絵葉書コレクションシステムの再構築と機能追加 -サーバ側:PHPとMySQLを用いて
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
情報学類 吉田光男 アドバイザー教官: 山本幹雄 先生
SlothLib.Web.
オープンデータ流通推進コンソーシアム 情報流通連携基盤外部仕様書の 改訂案
続 Entity Framework 入門 SQLWorld #8 サヴロウ.
SQL J2EE I 第3回 /
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
SLAT2/ChaKi.NET DB Model 解説資料 (兼 ChaKi-SLAT 統合状況の経過説明)
テキストマイニング, データマイニングと 社会活動のトレース
検索エンジンに関して The Anatomy of a Large-Scale Hypertextual Web Search Engine
稚内北星学園大学 情報メディア学部 助教授 安藤 友晴
平成19年11月8日 図書系職員のための アプリケーション開発講習会
DB マルチメディア・コンテンツの組織化機構 マルチメディア・コンテンツ ①組織化機構 解体・整理の仕事 現実世界に流通するマルチ
共同ローカリゼーション フレームワーク 井上 謙次.
図書館ツール発想日記 ~「東京大学内のサイトから関連学術用語のデータを得る」(仮称)システムへの寄り道思考経路~
テキストの類似度計算
Webを利用した授業支援システムの開発 北海道工業大学 電気電子工学科 H 渋谷 俊彦.
Day3 Day4 Day3 Day4.
Day3 Day4 Day3 Day4.
PHPの基礎と開発手法 Based on PHP5
マイクロソフト Access を使ってみよう 第1回
PDF管理Webアプリケーションの制作 ~PDFファイル探索時間の短縮化~
日本語解析済みコーパス管理ツール 「茶器」
組立型サービス基盤を使って、 「受付システム」を作成しよう!
平成22年6月15日 図書系職員のための アプリケーション開発講習会
第8章 Web技術とセキュリティ   岡本 好未.
プログラム実行履歴を用いたトランザクションファンクション抽出手法
JIMDO勉強会その2 アカウント新規作成.
管理画面操作マニュアル <サイト管理(1)> 基本設定 第9版 改訂 株式会社アクア 1.
11.Webサイトとデータベース, Webサイト+ブログシステムの開設手順例
IIR輪講復習 #1 Boolean retrieval
第2回.リレーショナルデータベース入門 SQL を用いたテーブルへの行の挿入 SQL 問い合わせの発行と評価結果の確認.
第1回.リレーショナルデータベースを使ってみよう
第1回.リレーショナルデータベースを使ってみよう
第2回.リレーショナルデータベース入門 SQL を用いたテーブルへの行の挿入 SQL 問い合わせの発行と評価結果の確認.
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
資料1-6 平成26年度 第1回技術委員会資料 支援ツール群整備方針
Webアプリケーションの方向性 データベース論 第13回.
理学部 情報科学科 指導教官 千葉 滋 助教授 学籍番号 03_03686 内河 綾
2006年度 東京サテライト校 エンタープライズ・アプリケーション II
東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への 簡易ナビゲーションシステム-
知識情報演習Ⅲ(後半第3回) 辻 慶太
ミドルウェア”TSUNAGI”を 用いたWEBアプリケーションの構築
COM コンポーネント・オブジェクト・モデル.
7-0.SWORD Client for WEKO インストールマニュアル Version 2.2
Javaによる Webアプリケーション入門 第11回
テキストマイニング, データマイニングと 社会活動のトレース
知識情報演習Ⅲ(後半第3回) 辻 慶太
JSFによるWebアプリケーション開発 第3回
Firebaseを用いた 位置情報共有システム
ISO23950による分散検索の課題と その解決案に関する検討
独習XML ~第1章 XMLの基礎~ 1.1 XML文書の基礎 1.2 XMLとHTML
F5 キーを押すか、または [スライド ショー] > [最初から] をクリックして、コースを開始してください。
Jakarta Struts (1) ソフトウェア特論 第10回.
稚内北星学園大学 情報メディア学部 専任講師 安藤 友晴
Copyright 2016 FIT Co., Ltd. All rights reserved.
第2回.リレーショナルデータベース入門 SQL を用いたテーブルへの行の挿入 SQL 問い合わせの発行と評価結果の確認.
第1回.リレーショナルデータベースを使ってみよう
SQL J2EE I (データベース論) 第3回 /
MVCモデル2による Webアプリケーション
ZendFrameworkで使うためにFilemakerクラスをスクラッチから作ってみる
Presentation transcript:

平成19年5月19日 第3版 東京大学理学部生物化学図書室 前田 朗 「ことわけWeb」 内部仕様書 平成19年5月19日 第3版 東京大学理学部生物化学図書室 前田 朗

コンテンツ システム構成 基本データ型 モジュール化する部分 URIの設計 システム構成と、個々について簡単に説明 各モジュール間でのデータの受け渡しに使う仕様をまとめたもの。 モジュール化する部分 URIの設計

Lighttpd (with FastCGI) 第1章.システム構成 TermExtact ほかPerl モジュール Catalyst(Perlベースの Webフレームワーク) 茶筅 MySQL (RDB) オリジナル Perlコード Algorithm:: Cluster Template Toolkit によるHTML雛形 インターフェイス Cプログラム 連想検索エンジン GETA Lighttpd (with FastCGI) 赤のブロックが要作成のコード 緑もSQLでDBを要構築

Lighttpd Apacheより軽量(高速)なWebサーバプログラム FastCGIとの組み合わせで高速レスポンスを目指す

Catalyst PerlベースのWebフレームワーク MVCモデルの実装(ModelとViewは選択可能) MVCモデル(Model, View, Controller の分割)によるWebアプリケーションが作成可能 Perl版”Ruby on Rails”ともいわれる MVCモデルの実装(ModelとViewは選択可能) Model --- MySQL Vew ----- TempleteToolkit Controller -- Perl

MySQL オープンソースのリレーショナルデータベース バージョン 5 を使用 UNIXユーザ mysql で動作させる バージョン 5 を使用 UNIXユーザ mysql で動作させる MySQLユーザ termcluster データベースtermcluster テーブルは3種(詳細は別紙) プロジェクト・テーブル (Project) 文書テーブル (Document) クラスタ・テーブル(Cluster)

TermExtact 「言選Web」のコアである専門用語自動抽出Perlモジュール 「茶筅」(形態素解析器)と連携して専門用語抽出を使う 重要度のオプションに、TF(Term Frequency)を使う

GETA NIIが開発した、連想検索エンジン。クラスタリング用のC言語ライブラリ(libcs)も付属しており、これを使う。

Algorithm::Cluster C言語のクラスタリングライブラリ”Cluster 3.0”のPerlインターフェイス GETAでは実装していない、K-means法やSOM(自己組織化マップ)が作成できる 単語文書行列をPerlの2次元配列の形で用意する必要がある GETAと違い、TF*IDFの処理を自分でコーディングする必要あり。

第2章.基本データ型 MySQLのデータベーススキーマ 文書中の用語と頻度(TF)のリスト クラスタリング結果 プロジェクトテーブルと文書テーブル 文書中の用語と頻度(TF)のリスト クラスタリング結果

クラス図 プロジェクト 文書 1 0..* クラスタ 1 0..* [脚注] クラスは、RDBのテーブルにて表現 プロジェクトID 文書名 テキスト本文 用語リスト プロジェクトID プロジェクト名 パスワード メールアドレス 氏名 所属 クラスタリング結果 パラメータ コメント 1 0..* 用語リストからクラスタリング結果を求める クラスタ 1 0..* プロジェクトID クラスタNo 用語リスト 各プロジェクトのクラスタリング結果を収める [脚注]  クラスは、RDBのテーブルにて表現

Project (プロジェクト)テーブル 「作成日時」でインデックス 作成(ソートに使用) 名称 列名 制約 project_id ユニークキー。英数20文字以内 プロジェクト名 project_name 日本語255バイト以内 必須項目 パスワード password 英数8文字以内。必須 メールアドレス e_mail 英数255バイト以内。必須項目 氏名 name 所属 belonging コメント comment 日本語でTEXT型 クラスタリングパラメータ params 日本語,varchar型で255 ステータス Status プロジェクトの状態を示す 0 (登録前) 1 (登録済) 9 (停止) 名称 列名 制約 登録No Registry_no 英数256文字以内。最初の登録時のみ使用 作成日時 Create_date 作成日時 Datetime型 更新日時 Update_date 更新日時 timeptamp型 「作成日時」でインデックス 作成(ソートに使用)

Document (文書)テーブル 「プロジェクトID」+「文書名」の組を ユニークキーにする 名称 列名 制約 project_id 英数20文字以内。 インデックス用意。 文書名 documentt_name 日本語で255バイト以内 必須項目 用語リスト Term_list テキスト型。JSONで用語とTFの組にしたリストを格納 登録No Registry_no 英数255文字以内。最初の登録時のみ使用 作成日時 Create_date 作成日時 Datetime型 更新日時 Update_date 更新日時 timeptamp型 「プロジェクトID」+「文書名」の組を ユニークキーにする

「プロジェクトID」+「クラスタNo」の組を Cluster(クラスタ)テーブル 名称 列名 制約 プロジェクトID project_id 英数20文字以内 インデックス用意。 クラスタNo cluster_no 整数 用語リスト Term_list テキスト型。JSONで用語リストを格納 「プロジェクトID」+「クラスタNo」の組を ユニークキーにする

文書中の用語と頻度(TF)のリスト (基本データ型 2) JSON(JavaScript Object Notation)を使い、言語に依存しない形(RFC 4627)でDBに格納する 用語と頻度のハッシュ(連想配列)をシリアライズ(直列化)

クラスタリング結果 (基本データ型 3) ただの配列データだが、JSONを使い、言語に依存しない形でDBに格納する

潜在的意味解析 当面実装しない PerlモジュールPDFを用いて、潜在的意味解析に必要な固有値解析(LSA)を行えるとことまでは調査すみ

URIベース設計 URI アクション / メインページ /user/login ログイン画面 /user/project プロジェクト登録画面 /user/password パスワード変更 /termextract 用語リスト表示画面(1) /termextract/ドキュメント名/ 用語リスト表示画面(2) /culuster/disp/クラスタno/ページ/ クラスタリング結果表示 /download ダウンロード設定画面