情報処理の概念 #6 HTML における構造と表現、アーカイブ Yutaka Yasuda, Kyoto Sangyo University.

Slides:



Advertisements
Similar presentations
人間とコンピュータ インターネット検索 11 月 10 日, 11 月 17 日, 11 月 24 日.
Advertisements

Word で XML マニュアルを編集 し、 XML を自動組版する 1. XML の自動組版概要 2. Word での原稿入力 アンテナハウス株式会社 2004/09/03.
XML ゼミ 独習 XML ~ 第 6 章 XHTML~ 6.1 XHTML の概要 6.2 XHTML の構造 谷津 哲平.
1 1)外部の図書館の利用のしかた ①国立国会図書館 ( 東京本館・・・千代田区永田町 ) 国会議事堂の近く。 ● 満 18 歳以上であれば、だれでも施設・資料を利用することができる。 ● インターネットによる複写サービスもある。 ●NDL-OPAC というシステムから、インターネットを使ってどこからでも.
コーパス言語学実践 2006 年度 2 学期 第 2 回. 2 本日の内容 前半の作業について – 語彙調査の演習 – 用語の説明 語彙,単位語,延べ語,異なり語,見出し 語 作成作業 その1 – データ収集開始.
情報処理の概念 #7 HTML における構造と表現、アーカイブ / 2002 ( 秋 ) 一般教育研究センター 安田豊.
WEB デザイン基礎実 験 担当:清水,田代 副手:浦辺,石井 ( 1 日目) NC-2 情報通信基礎実験.
Microsoft Office 2010 クイックガイド ~OneNote編~
情報基礎A 情報科学研究科 徳山 豪.
本日のスケジュール 14:45~15:30 テキストの講義 15:30~16:15 設計レビュー 16:15~16:30 休憩
検索エンジン最適化.
MS-Word ⇒ XML 2001/10 マウスをクリックしてください。(カーソルはどこにあっても結構です。)次ページが表示されます。
画像展示サイト“Fragments” 『閲覧しやすさ』と『デザイン性』を両立させた Webデザイン
電子書籍を さがす どんな書籍があるの? Maruzen eBook Libraryは、学術機関向け和書の電子書籍提供サービスです。
Java I 第2回 (4/18)
情報処理の概念 #3 電子出版、Web、PDF、電子図書
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
CEC公開授業 Webサイト制作にチャレンジ! 2007年11月20日 於:東京都立板橋有徳高校 学校インターネット教育推進協会.
背景 我々の研究室で開発しているJavaプログラム解析フレ ームワークでは,解析情報はメモリ上に保持される 問題点
第1回レポートの課題 6月19日出題 今回の課題は1問のみ 第2回レポートと併せて本科目の単位を認定 第2回は7月に出題予定
情報技術と著作権.
小説形式文章とDTMの制作 およびWebページ作成
HTMLの記述と WWWにおける情報公開 遠藤
CG作品展示サイト”Fragments” ~ 『閲覧しやすさ』と『デザイン性』を両立させた Webデザイン~
早稲田大学大学院理工学研究科 情報科学専攻修士2年 後藤滋樹研究室 坂本義裕
ホームページの作り方.
簡単な画像処理 通信教育学部 コンピュータ演習 遠藤美純.
XMLについて 蔡柏東.
ユーリテクノスのFlashテクノロジーを 利用した様々なサービスのご提案
情報処理の概念 #5 HTMLにおける構造と表現、アーカイブ / 2003 (秋)
Webサイト制作の流れ CEC公開授業 ~テーマ決定からサイト公開まで~ 2007年11月20日 於:東京都立板橋有徳高校
書誌情報を提供するサービスへ 「だれでも」書誌情報をダウンロードして再活用できる
Webを利用した授業支援システムの開発 北海道工業大学 電気電子工学科 H 渋谷 俊彦.
変数のスコープの設計判断能力 を育成するプログラミング教育
コンピュータ基礎実習上級 #10 絶対パスによる指定
NC-2 情報通信基礎実験 WEBデザイン基礎実験 (1日目) 担当:清水,田代 副手:浦辺,石井.
コンピュータ基礎実習上級 #1 概要説明と基礎体力テスト
情報処理の概念 #6 電子出版、Web、PDF、電子図書館 / 2002 (秋)
サイト運営者へむけて、CMS管理画面をつかって サイト運営していく方法を紹介します。
SGMLについて 2年8組  原口 文晃.
パートナー様向け 仕事のご説明資料 関係者外秘 (他の方に絶対に開示しないでください).
XSL-FO + MathML MathML表示、PDF生成、SVG生成
基礎プログラミング演習 第1回.
Microsoft Office 2010 クイックガイド ~OneNote編~
Microsoft PowerPoint98 Netscape Communicator 4.06[ja]
管理画面操作マニュアル <サイト管理(1)> 基本設定 第9版 改訂 株式会社アクア 1.
HTTPとHTML 技術領域専攻 3回 中川 晃.
情報コミュニケーション入門b 第10回 Web入門(1)
情報コミュニケーション入門b 第10回 Web入門(1)
独習XML 第2章 XML文書の構成要素 2.1 XMLの文字と文字列 2.2 コメント
ご利用説明 2018年10月 (株)紀伊國屋書店.
第3章 第2節 ネットワークを活用した 情報の収集・発信(2) 4 文書の構造と表現
情報検索(6) メディア検索の仕組み 教員 岩村 雅一
情報スキル活用 第2週 基礎技術ー2 : Webページの基本形.
HTML の成り立ち 惑星物理学研究室 4年 安達 俊貴.
Maruzen eBook Libraryは、学術機関向け和書の電子書籍提供サービスです。 rev 電子書籍を さがす
ルーブリック・チャート(評価) の活用と課題
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
情報スキル活用 第4週 基礎技術-4 : その1(タグのまとめ).
コンピュータ プレゼンテーション.
ウェッブページ書法の復習 ネットワーク論以前のお話.
国立国会図書館の インターネット上の 情報資源に対する取り組み
構造的類似性を持つ半構造化文書における頻度分析
独習XML ~第1章 XMLの基礎~ 1.1 XML文書の基礎 1.2 XMLとHTML
第14回放送授業.
自然言語処理2015 Natural Language Processing 2015
情報ネットワークと コミュニケーション 数学領域3回 山本・野地.
医療科学B演習のおさらい 杏林大学医学図書館 医療科学B.
自然言語処理2016 Natural Language Processing 2016
情報処理の概念 #0 概説 / 2002 (秋) 一般教育研究センター 安田豊.
Presentation transcript:

情報処理の概念 #6 HTML における構造と表現、アーカイブ Yutaka Yasuda, Kyoto Sangyo University

Web と電子出版 まず出版過程の電子化から –1450 年頃:グーテンベルグの活版 –1960 年代:電算写植の導入 日本では 70 年代に新聞 CTS で活版から移行 (Cold Type System 、 Hot な鉛を使わない ) –1980 年代: DTP の登場 1986 年: Macintosh / LaserWriter WYSIWYG システムと PostScript の出会い 成果物の電子化 - 紙との決別 –1990 年代: CD-ROM 出版、 PDF 、 Web 等 多様なメディア

PDF と電子出版との関係 出版過程の電子化の一段階 特徴:紙のイメージを保持 – 紙を出力対象とした印刷技術の変遷の最終形態 (かもしれない) – 最後に紙のイメージを電子的に表現する – レイアウトを完全に保持して再現 難点:機械可読性が弱い – データとして扱えるという意味で可読だが – 本来ドキュメントがもっている文章の意味や構造 を無視して文字の並びだけを扱う傾向がある

PDF と対比した Web 共通項 – 紙ではなくデジタルデータとして出力 – 文字情報については機械可読 PDF の弱み – 文書の構造などを汲み出せない (タグつき PDF も Acrobat 5 から用意されたが) – 文字情報は印刷のため – 可読とはいえ再利用性が低い – 機械で読むのは再利用、加工のためでは?

情報加工、再利用 例: PDF ドキュメントから第 3 章だけ抜き出 しなさい – どこからどこまでが該当部分かわからない – 人間は見たらわかる(意味を理解している) – 機械にはわからない(アラビア語 Web page を見た 時に似る = 文字は見えるが再利用できない) – ページの切れ目を変えて再構成できない – あくまで「見ため」を残しているのであって、文 章の構造は消えている

情報加工、再利用 例:サブタイトルが「印刷技術」の章を抜き 出しなさい – タイトルが飛び跳ねてたら? – 「見ため」としての文字は残るが文は消える じゃあ Web はできるのか? –Yes, HTML がテキストの構造を記述するから –SGML の本来の価値に注目

Web における構造と表現 HTML (Hyper Text Markup Language) とは何か –SGML (Standard Generalized Markup Language) の一つの例 – コンピュータ間でデータを交換するために – 情報の属性を記述する 本を SGML で記述する – これがタイトル – これがパラグラフ – ということがわかるように

SGML による記述例 情報処理の概念 安田豊 情報処理技術の様々な応用、すなわちコンピュータやネットワークの 利用が 進んだ結果、、、、 SGML について 文法 SGML はタグと呼ばれる、、、 このとき、ドキュメントは、、 目的 構造が残されていることに注目 これなら「三章を抜け」も可能

情報加工、再利用 溢れる情報 – 情報発信者の激増 – 通信環境の改善、能力アップ 新しいモデル – 将来流れる情報はまず機械が読む – 個人向けに再編成してから読む – 興味のあるニュースだけ集めるシステム – 「新しい本の情報を見つけたら ABSTRACT だけ集 めて見せてくれ」 – 「 ABSTRACT にこのキーワードがあるものだけ」

アプリケーション例 機械翻訳 –Web ページ自動翻訳 ロボット型検索エンジン –HTML の機械可読性が活きている – 一次情報はまず機械が読むという感覚 HTML のまずさが問題に – 視覚的表現に重点が移行

HTML のまずさ 理想 – 構造を表現すればそれなりに見せてくれる – 構造の記述と好ましい表現の両立 現実 – より良い見た目のために記述を工夫する – 構造の表現が崩れても構わない – 一文字ずつ離して配置する – 絵で文字を代行させる(見出しなど) – プログラムで表現( Java, Flash など)

情報処理の概念 安田豊 / SGML とは SGML は文書の構造を残し たまま情報を記録できるため、 あとから機械的に再利用する 可能性が広がる。 本来 SGML が情報交換用の フォーマットとして開発され たことから来る自然な結果で ある。 文法 SGML はタグと呼ばれる 記号で囲まれた目印によっ て、情報の属性を表現する。 安田豊 / SGML とは SGML は文書の構造を残 したまま情報を記録で きるため、あとから機 械的に再利用する可能 性が広がる。 SGML が情報交換用の フォーマットとして開発 されたことから来る自然 な結果である。 SGML はタグと呼ば れる 記号で囲まれ た目印によって、情報 の属性を表現する。 文法 本来

HTML のまずさ 長さの問題 – 見た目上の理由でページを分けてしまう – 短すぎるページ構成となる(細分化されすぎ) –HTML は一文書で完結する設計 – 本来は巨大なマニュアル本を一つの SGML 文書で 表現するような設計目標だった 構造をどこで表現するか? – 建前:一つの文書内でタグによって表現 – 現実:リンク関係によって表現 – 「画面一枚の情報に、書くべき構造なんて無い」

HTML のまずさ Google の的確な候補表示はどこから? – 必要なキーワードを含んでいるページのリンク関 係を見て、 – 人気があり、 – 入り口と思われるページを割り出す それでも機械可読であることの重要性 – 本来の設計目標とは違っても、機械可読である限 り工夫は可能 – まだまだ Web を有効に利用するためのアプリケー ションはある

HTML のまずさ 完成、版という概念がない 利点 – 即時性は高い – 融通も利く 欠点 – リンクが切れる – 固定できないため、相互参照に意味がない – 情報が失われる HyperText は本来そうではなかった

HyperText のアイディア 1981, Literary Machines - Ted Nelson –Xanadu - 完成していないプロトタイプ 出版すると同時に固定され、改変不可 – 改訂版は簡単に出せるが、旧版も残る – リンクが切れず、意味も変わらずに使える 明確な文書の境界線 – ページ単位ではなく文書単位で出版(登録) – 外部参照(リンク)と引用(トランスクルージョン)の使 い分け –HTML では他の文書へのリンクと、自文書の一部分へのリン クに区別がない はじめから永続的アーカイブが前提だった

HyperText のアイディア T.B. Lee は ‘89 に Web を開発したが 1. 構造の記述と見た目の表現の混在 2. 文書の固定とリンクの消滅の関係 の二点について解決せずに Web/HTML をリリース した Web 保存計画はその反動である – 例えば WARP 提案 –Web ではない新しいシステムの開発 –Web/HTML でも構造記述と表現の両立を目指す

その他の電子アーカイブ 過去の著作物から積極的に電子化 著作権法の期限外のものから – グーテンベルグ計画 – エキスパンドブック – 青空文庫

グーテンベルグ計画 イリノイ・ベネディクティン大学マイケル・ハート が推進 1971 年開始 2001 年までに 10,000 タイトル電子化目標 現在 6000 超ほど テキストのみ (ASCII 以外に Swedish などもあり) XML で楽譜を集める The Sheet Music Subproject も始 まっている

Bible のグーテンベルグ例 Bible Genesis Chapter 1 God createth Heaven and Earth, and all things therein, in six days. 1:1. In the beginning God created heaven, and earth. 1:2. And the earth was void and empty, and darkness was upon the face of the deep; and the spirit of God moved over the waters..... 単なるテキスト情報のみ

エキスパンドブック ボイジャー が開発 対象 – テキスト中心の電子出版 – 動画、音声なども含めたマルチメディア出版 – 縦・横組、文字サイズ、行間、字間の指定等さま ざまな文字組が可能。 – ルビ、禁則に対応。 – 指定した通りのデザインを、 Win でも Mac でも、 読者のマシンで忠実に再現

青空文庫 特徴 – 利用に対価を求めない、インターネット電子図書館 – 著作権の切れたもの、自由に出せるものを対象 – テキストと HTML 、エキスパンドブックで提供 現在は XHTML に注力 –1997 年スタート – ボランタリで入力、校閲 – 収録作品数 4199 本( 現在) – 世界に誇れる日本発のプロジェクトとなるかも – ネットワークに散在する力を集めたという意味で極めてイ ンターネット的 (「むしとりあみ」という誤植連絡窓口の価値)