The Perl Conference Japan ’98 朝日奈アンテナによる コンテンツ情報の取得と利用

Slides:



Advertisements
Similar presentations
Internet Explorer 障害解析 最初の一歩 - IE のトラブルを理解する -. 概要 Internet Explorer を使用中に発生するトラブルの 種類と、調査のための切り分け方法を紹介します! (以降は IE と略称で表記します) よくあるお問い合わせ Web ページの表示が白画面のまま完了しない.
Advertisements

オープン&ビッグデータ活用・地方創生推進機構 事務局 オープン&ビッグデータ活用・地方創生推進機構 評価版ツールの状況報告 平成26年度第3回 技術委員会 資料3-1.
RSS,Atom の動向 理工学部 情報学科 3 年 片山友輝. 発表内容 ・ RSS,Atom おさらい ・なぜ Atom ができたか? ・ Atom の特徴 ・ Atom の動向 ・ Atom フィードの記述方法 ・ Atom 対応ツール ・参考文献・資料.
1 通信教育学部 コンピュータ演習 Excel の書式設定と関数 授業ページ「コンピュータ演習(通信教育学 部)」を 開いてください。提出課題の一覧が掲載されてい ます。
情報アプリケーション1 2006 年 10 月 12 日 第四回資料 担当 重定 如彦. 目次 データの送信とフォーム クイズ CGI 複数のパーツのデータの分割方法 配列変数.
1 PHP プログラムの実行(まと め) 担当 岡村耕二 月曜日 2限 平成 22 年度 情報科学 III (理系コア科目・2年生) 本資料の一部は、堀良彰准教授、天野浩文准教授、菅沼明 准教授等による以前の講義資料をもとにしています。
Web アプリをユーザー毎に カスタマイズ可能にする AOP フレームワーク
Curlの特徴.
IIS 4.0で開発をするコツ Webアプリケーション構築.
メール暗号化:秘密鍵・公開鍵の作成  作業手順 Windows メール(Vista).
4.ユーザー登録マニュアル              Version 年6月10日 国立情報学研究所.
情報基礎A 情報科学研究科 徳山 豪.
プログラミング演習II 2004年11月 30日(第6回) 理学部数学科・木村巌.
WagbyR6.5 Update 14 PPT版 更新情報
ファイルキャッシュを考慮したディスク監視のオフロード
Chapter11-4(前半) 加藤健.
ラジオライブ配信テスト版サイト制作 PC & スマートフォン & ガラ系携帯対応.
Kyoto Tycoonのご紹介 FAL Labs
NORWAY ENGLAND AMERICA FRANCE
ネットワークを利用した 環境情報データ自動収集 サーバシステムの開発
JPAを利用した RESTful Webサービスの開発
talend活用事例 ・ナビゲータグラフのカスタマイズにおける事例 ・CSVダウンロードでのカスタマイズ事例
分散コンピューティング環境上の Webリンク収集システムの実装
ケータイキット for Smarty のご紹介
+ 普段使い慣れている WindowsPC 日本語対応が進んだ Moodle 一人で自室で 研究室でワイワイ の単位からスタート 「いつも忙しい皆様には...」 普段使い慣れている WindowsPC + 日本語対応が進んだ Moodle 一人で自室で 研究室でワイワイ の単位からスタート.
基本情報技術概論(第4回) 埼玉大学 理工学研究科 堀山 貴史
WagbyR6.5 Update 12 PPT版 更新情報
TCP (Transmission Control Protocol)
第4回 個人の動画配信補足のためのWeb構築
オペレーティングシステムⅡ 第3回 講師 松本 章代 VirtuaWin・・・仮想デスクトップソフト 2009/10/16.
4-3.基本的なPHPスクリプト 2004年6月24日(木) 大北高広 01T6010F.
プログラミング論 II 電卓,逆ポーランド記法電卓
HTTPプロトコルとJSP (1) データベース論 第3回.
HTTPプロトコル J2EE I 第7回 /
複数CPU間のための共有メモリ 小島 隆史(中央大学大学院理工学研究科 國井研究室)
担当:青木義満 情報工学科 3年生対象 専門科目 システムプログラミング 第11回 プロセス間通信4 仮想FTPの実現 担当:青木義満
(B2) 親: minami, kazuki 多様な認証機器に対応する 認証システム (B2) 親: minami, kazuki.
情報コミュニケーション入門 総合実習(1) 基礎知識のポイント(2)
データベース設計 第9回 Webインタフェースの作成(1)
空間情報サーバ (株)パスコ.
第8章 Web技術とセキュリティ   岡本 好未.
HTTPとHTML 技術領域専攻 3回 中川 晃.
情報コミュニケーション入門b 第10回 Web入門(1)
情報コミュニケーション入門b 第10回 Web入門(1)
第7回ネットワークプログラミング 中村 修.
第2回.リレーショナルデータベース入門 SQL を用いたテーブルへの行の挿入 SQL 問い合わせの発行と評価結果の確認.
卒業論文発表 「Web アクセスに伴う脅威の特徴分析」
関数の変更履歴と呼出し関係に基づいた開発履歴理解支援システムの実現
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
資料1-6 平成26年度 第1回技術委員会資料 支援ツール群整備方針
実行時情報に基づく OSカーネルのコンフィグ最小化
第7回JavaScriptゼミ セクション4-5 発表者 直江 宗紀.
データ構造とアルゴリズム論 第3章 ファイルを用いたデータ入出力
情報コミュニケーション入門e 第11回 Part2 Web入門(1)
Internet広域分散協調サーチロボット の研究開発
オープンソース開発支援のための ソースコード及びメールの履歴対応表示システム
オープンソース開発支援のための リビジョン情報と電子メールの検索システム
Webプロキシ HTTP1.0 ヒント CS-B3 ネットワークプログラミング  &情報科学科実験I.
第5回 個人の動画配信補足のためのWeb構築
Talkプログラムのヒント 1 CS-B3 ネットワークプログラミング  &情報科学科実験I.
すべて読む Microsoft SharePoint ニュース
データベース設計 第7回 実用データベースの運用例 クライアント=サーバシステム(1)
基礎プログラミング演習 第12回.
情報共有による Z39.50データベース選択支援環境
第10回:Microsoft Excel (2/2)
ユビキタスコンピューティングの ための ハンドオーバー機能付きRMIの実装
担当:青木義満 情報工学科 3年生対象 専門科目 システムプログラミング 第11回 プロセス間通信4 仮想FTPの実現 担当:青木義満
地理情報コンテンツ・データベースコンテンツ新規作成
P2Pによる協調学習システム 唐澤 信介   北海道工業大学 電気工学専攻.
HTTPプロトコルの詳細 M1 峯 肇史.
Presentation transcript:

The Perl Conference Japan ’98 朝日奈アンテナによる コンテンツ情報の取得と利用 平成10年 11月 12日 岩本 圭司 98/11/12 (c) 1998 Keiji Iwamoto

朝日奈アンテナとは “コンテンツ情報” 取得システム 最新版は1.914(公式)/1.983(非公式) Internet上のコンテンツに関する情報を取得 更新時刻 タイトル、著作者、キーワード等… 最新版は1.914(公式)/1.983(非公式) http://www.fastwave.gr.jp/%7Emasshy/hina/ 98/11/12 (c) 1998 Keiji Iwamoto

開発経緯 Web Pageを効率よく巡回したい “べんりくん” (加内氏)発見 “べんりくん” 相当プログラムを自作 前回参照から更新されているページだけを見たい “べんりくん” (加内氏)発見 “べんりくん” 相当プログラムを自作 “朝日奈アンテナ” と命名 最新情報をキャッチする、受信「アンテナ」 HEADで情報が取れない場合に対応 アンテナ間通信を実装 送信「アンテナ」としても機能 98/11/12 (c) 1998 Keiji Iwamoto

公開後の進化過程 V1.x V2.x(開発中) コンテンツ「更新時刻」取得システム V1.0x:情報取得対象ページ個別の設定が多い コンテンツ「情報」取得システム 更新時刻以外にもさまざまな情報を処理 98/11/12 (c) 1998 Keiji Iwamoto

朝日奈アンテナの動作(単体) 98/11/12 (c) 1998 Keiji Iwamoto

Web Clientとしての動作 PerlでのHTTP通信 日本語対応はnkfと連携 まずはsocket → connect → あとはファイル入出力と同様) 入力/出力ルーチンで別プロセス化(fork) alarmでタイムアウト処理 HTTPリクエストを出力 print SOCKET “HEAD /content.html HTTP/1.1\n”; print SOCKET “Host: gabi-n.hauN.org\n\n”; コンテンツ情報/内容を取得 while (<SOCKET>) ~ 日本語対応はnkfと連携 フィルタつき入出力 98/11/12 (c) 1998 Keiji Iwamoto

HTTPヘッダの解析 Last-Modified: フィールドから情報取得 SSI使用等でLast-Modified: が存在しない場合 フォーマットが決まっているため解析は容易 パターンマッチングで該当行を特定 if (/Last\-Modified\:\s+(.*)/o) ~ splitを用いてフィールドに分離→値を取得 split(“ /:”, $1); SSI使用等でLast-Modified: が存在しない場合  →コンテンツ内容を解析 98/11/12 (c) 1998 Keiji Iwamoto

コンテンツ内容の解析 解析対象行の決定 時刻フォーマットの解析 URLごとに設定したキーワードとマッチングして特定 splitでフィールドに分離 時刻フォーマットの解析 年は00~99 / 1900~2099の数値 月は1~12の数値 / 月名を表わす文字列 日は1~31の数値 時は0~23、分は0~59、秒は0~60の数値 タイムゾーン文字(GMT, JST, EDT, ...) 98/11/12 (c) 1998 Keiji Iwamoto

時刻フォーマットの解析 各フィールドのうち、意味が確定するものを探す 意味が確定したフィールドをもとに、さらに推定 パターンマッチング、数値の範囲 (例1)数値 “98” は1998年として確定 (例2)数値 “23” は月、時ではないが…年? 日? 分? 秒? 意味が確定したフィールドをもとに、さらに推定 (例)数値 “26” の意味は? 年、日、秒が既に確定していれば、分であると確定する。 フィールドの位置関係等も考慮 時、分、秒は通常、その順に並べて記述される。 時、分を省略し秒は記述するといったことは通常しない。   …など 98/11/12 (c) 1998 Keiji Iwamoto

時刻フォーマット自動解析 初期のバージョン(1.0x)では… 自動解析の実装、改良により… フォーマット情報を明示して与える必要があった。 第○フィールドは月、第△フィールドは分… 自動解析の実装、改良により… フォーマット情報明示の必要はなくなってきた。 V1.2xの入力仕様ではフォーマット情報明示を廃止。 98/11/12 (c) 1998 Keiji Iwamoto

アンテナ間通信 アンテナ間通信による協調動作 負荷分散 情報の補完 HTTPによる通信は実装済 データフォーマットは独自(plain text) HTMLも使用可能(機能に制限あり)  →他の更新時刻取得エージェントとも連携可能    ex. べんりくん、WatchLynxなど多種 98/11/12 (c) 1998 Keiji Iwamoto

朝日奈アンテナの動作(協調) 98/11/12 (c) 1998 Keiji Iwamoto

キャッシュ処理 アンテナ間通信で得た情報は連想配列に格納 直接通信して取得した情報も連想配列に格納 URLをキーとしてメモリ上にDBを作成。 より新しい/信頼性の高い情報を洗濯し格納。 ある程度古い情報は破棄。 アンテナ間通信の結果が無効なURLに対してのみ直接通信。 直接通信して取得した情報も連想配列に格納 連想配列をメモリキャッシュとして使用。 複数回の情報参照に対し、不要な通信を行わない。 98/11/12 (c) 1998 Keiji Iwamoto

今後の展望 独自プロトコルによるアンテナ間通信 通信効率の向上 中村氏のDIRP(Document Information Relay Protocol)構想 V3.xで実装予定 情報の “PUSH” は? 通信効率の向上 Keep-Alive 複数同時connect 98/11/12 (c) 1998 Keiji Iwamoto