情報処理の概念 #5 HTMLにおける構造と表現、アーカイブ / 2003 (秋)

Slides:



Advertisements
Similar presentations
人間とコンピュータ インターネット検索 11 月 10 日, 11 月 17 日, 11 月 24 日.
Advertisements

Word で XML マニュアルを編集 し、 XML を自動組版する 1. XML の自動組版概要 2. Word での原稿入力 アンテナハウス株式会社 2004/09/03.
XML ゼミ 独習 XML ~ 第 6 章 XHTML~ 6.1 XHTML の概要 6.2 XHTML の構造 谷津 哲平.
1 1)外部の図書館の利用のしかた ①国立国会図書館 ( 東京本館・・・千代田区永田町 ) 国会議事堂の近く。 ● 満 18 歳以上であれば、だれでも施設・資料を利用することができる。 ● インターネットによる複写サービスもある。 ●NDL-OPAC というシステムから、インターネットを使ってどこからでも.
情報処理の概念 #7 HTML における構造と表現、アーカイブ / 2002 ( 秋 ) 一般教育研究センター 安田豊.
情報処理の概念 #6 HTML における構造と表現、アーカイブ Yutaka Yasuda, Kyoto Sangyo University.
WEB デザイン基礎実 験 担当:清水,田代 副手:浦辺,石井 ( 1 日目) NC-2 情報通信基礎実験.
Microsoft Office 2010 クイックガイド ~OneNote編~
第9回放送授業.
情報基礎A 情報科学研究科 徳山 豪.
本日のスケジュール 14:45~15:30 テキストの講義 15:30~16:15 設計レビュー 16:15~16:30 休憩
MS-Word ⇒ XML 2001/10 マウスをクリックしてください。(カーソルはどこにあっても結構です。)次ページが表示されます。
画像展示サイト“Fragments” 『閲覧しやすさ』と『デザイン性』を両立させた Webデザイン
電子書籍を さがす どんな書籍があるの? Maruzen eBook Libraryは、学術機関向け和書の電子書籍提供サービスです。
Java I 第2回 (4/18)
情報処理の概念 #3 電子出版、Web、PDF、電子図書
電子書籍を さがす どんな書籍があるの?
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
CEC公開授業 Webサイト制作にチャレンジ! 2007年11月20日 於:東京都立板橋有徳高校 学校インターネット教育推進協会.
第1回レポートの課題 6月19日出題 今回の課題は1問のみ 第2回レポートと併せて本科目の単位を認定 第2回は7月に出題予定
情報技術と著作権.
小説形式文章とDTMの制作 およびWebページ作成
HTMLの記述と WWWにおける情報公開 遠藤
CSSを利用したWebデザイン 理工学部 情報学科 3回生 喜多 亮輔.
CG作品展示サイト”Fragments” ~ 『閲覧しやすさ』と『デザイン性』を両立させた Webデザイン~
早稲田大学大学院理工学研究科 情報科学専攻修士2年 後藤滋樹研究室 坂本義裕
ホームページの作り方.
簡単な画像処理 通信教育学部 コンピュータ演習 遠藤美純.
XMLについて 蔡柏東.
ユーリテクノスのFlashテクノロジーを 利用した様々なサービスのご提案
オペレーティングシステムⅡ 第3回 講師 松本 章代 VirtuaWin・・・仮想デスクトップソフト 2009/10/16.
Webサイト制作の流れ CEC公開授業 ~テーマ決定からサイト公開まで~ 2007年11月20日 於:東京都立板橋有徳高校
Webを利用した授業支援システムの開発 北海道工業大学 電気電子工学科 H 渋谷 俊彦.
変数のスコープの設計判断能力 を育成するプログラミング教育
コンピュータ基礎実習上級 #10 絶対パスによる指定
コンピュータ基礎実習上級 #1 概要説明と基礎体力テスト
情報処理の概念 #6 電子出版、Web、PDF、電子図書館 / 2002 (秋)
サイト運営者へむけて、CMS管理画面をつかって サイト運営していく方法を紹介します。
SGMLについて 2年8組  原口 文晃.
パートナー様向け 仕事のご説明資料 関係者外秘 (他の方に絶対に開示しないでください).
Javaによる Webアプリケーション入門 第5回
基礎プログラミング演習 第1回.
Microsoft Office 2010 クイックガイド ~OneNote編~
Microsoft PowerPoint98 Netscape Communicator 4.06[ja]
HTTPとHTML 技術領域専攻 3回 中川 晃.
情報コミュニケーション入門b 第10回 Web入門(1)
情報コミュニケーション入門b 第10回 Web入門(1)
ご利用説明 2018年10月 (株)紀伊國屋書店.
利用説明 2018年9月 (株)紀伊國屋書店.
ネットショップデザイン入門Ⅰ・ⅡSEO 2013/12/18 Webデザイン入門 SEOの基本.
第3章 第2節 ネットワークを活用した 情報の収集・発信(2) 4 文書の構造と表現
Microsoft PowerPoint98 Netscape Communicator 4.06[ja]
情報検索(6) メディア検索の仕組み 教員 岩村 雅一
情報コミュニケーション入門e 第11回 Part2 Web入門(1)
情報スキル活用 第3週 基礎技術ー3 : 学部・学科紹介のページ作成.
XMLゼミ 1.3 XML文書の表示 1.4 XMLの役割 1.5 XMLとプログラミング M2 正木 裕一.
情報スキル活用 第2週 基礎技術ー2 : Webページの基本形.
HTML の成り立ち 惑星物理学研究室 4年 安達 俊貴.
Maruzen eBook Libraryは、学術機関向け和書の電子書籍提供サービスです。 rev 電子書籍を さがす
Maruzen eBook Libraryは、学術機関向け和書の電子書籍提供サービスです。 rev 電子書籍を さがす
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
情報スキル活用 第4週 基礎技術-4 : その1(タグのまとめ).
コンピュータ プレゼンテーション.
ウェッブページ書法の復習 ネットワーク論以前のお話.
構造的類似性を持つ半構造化文書における頻度分析
独習XML ~第1章 XMLの基礎~ 1.1 XML文書の基礎 1.2 XMLとHTML
第14回放送授業.
情報ネットワークと コミュニケーション 数学領域3回 山本・野地.
医療科学B演習のおさらい 杏林大学医学図書館 医療科学B.
情報処理の概念 #0 概説 / 2002 (秋) 一般教育研究センター 安田豊.
Presentation transcript:

情報処理の概念 #5 HTMLにおける構造と表現、アーカイブ / 2003 (秋) 一般教育研究センター 安田豊

Webと電子出版 まず出版過程の電子化から 成果物の電子化 - 紙との決別 1450 年頃:グーテンベルグの活版 1960 年代:電算写植の導入 日本では 70 年代に新聞CTSで活版から移行 (Cold Type System、Hot な鉛を使わない) 1980 年代:DTP の登場 1986 年:Macintosh / LaserWriter WYSIWYG システムとPostScriptの出会い 成果物の電子化 - 紙との決別 1990 年代:CD-ROM 出版、PDF、Web等 多様なメディア

PDF と電子出版との関係 出版過程の電子化の一段階 特徴:紙のイメージを保持 難点:機械可読性が弱い 紙を出力対象とした印刷技術の変遷の最終形態(かもしれない) 最後に紙のイメージを電子的に表現する レイアウトを完全に保持して再現 難点:機械可読性が弱い データとして扱えるという意味で可読だが 本来ドキュメントがもっている文章の意味や構造を無視して文字の並びだけを扱う傾向がある

PDF と対比した Web 共通項 PDFの弱み 紙ではなくデジタルデータとして出力 文字情報については機械可読 文書の構造などを汲み出せない (タグつきPDFも Acrobat 5 から用意されたが) 文字情報は印刷のため 可読とはいえ再利用性が低い 機械で読むのは再利用、加工のためでは?

情報加工、再利用 例:PDFドキュメントから第 3 章だけ抜き出しなさい どこからどこまでが該当部分かわからない 人間は見たらわかる(意味を理解している) 機械にはわからない(アラビア語Web page を見た時に似る = 文字は見えるが再利用できない) ページの切れ目を変えて再構成できない あくまで「見ため」を残しているのであって、文章の構造は消えている

情報加工、再利用 例:サブタイトルが「印刷技術」の章を抜き出しなさい じゃあWebはできるのか? タイトルが飛び跳ねてたら? 「見ため」としての文字は残るが文は消える じゃあWebはできるのか? Yes, HTMLがテキストの構造を記述するから SGML の本来の価値に注目

Webにおける構造と表現 HTML (Hyper Text Markup Language) とは何か 本を SGML で記述する SGML (Standard Generalized Markup Language) の一つの例 コンピュータ間でデータを交換するために 情報の属性を記述する 本を SGML で記述する これがタイトル これがパラグラフ ということがわかるように

SGML による記述例 構造が残されていることに注目 これなら「三章を抜け」も可能 <BOOK> <HEAD>   <TITLE>情報処理の概念</TITLE>   <AUTHOR>安田豊</AUTHOR>  </HEAD>  <BODY>   <ABSTRACT>    情報処理技術の様々な応用、すなわちコンピュータやネットワークの    利用が 進んだ結果、、、、   </ABSTRACT>   <SECTION>SGMLについて</SECTION>   <SUBSECTION>文法</SUBSECTION>   <PARAGRAPH>SGML はタグと呼ばれる、、、</PARAGRAPH>   <PARAGRAPH>このとき、ドキュメントは、、</PARAGRAPH>   <SUBSECTION>目的</SUBSECTION>    .......  </BODY> </BOOK> 構造が残されていることに注目 これなら「三章を抜け」も可能

情報加工、再利用 溢れる情報 新しいモデル 情報発信者の激増 通信環境の改善、能力アップ 将来流れる情報はまず機械が読む 個人向けに再編成してから読む 興味のあるニュースだけ集めるシステム 「新しい本の情報を見つけたらABSTRACTだけ集めて見せてくれ」 「ABSTRACTにこのキーワードがあるものだけ」

アプリケーション例 機械翻訳 ロボット型検索エンジン HTMLのまずさが問題に Webページ自動翻訳 HTMLの機械可読性が活きている 一次情報はまず機械が読むという感覚 HTMLのまずさが問題に 視覚的表現に重点が移行

HTMLのまずさ 理想 現実 構造を表現すればそれなりに見せてくれる 構造の記述と好ましい表現の両立 より良い見た目のために記述を工夫する 構造の表現が崩れても構わない 一文字ずつ離して配置する 絵で文字を代行させる(見出しなど) プログラムで表現(Java, Flash など)

情報処理の概念 情報処理の概念 安田豊 / 2003.11.11 安田豊 / 2003.11.11 SGMLとは 文法  SGMLはタグと呼ばれる < > 記号で囲まれた目印によって、情報の属性を表現する。 安田豊 / 2003.11.11 情報処理の概念 SGMLは文書の構造を残したまま情報を記録できるため、あとから機械的に再利用する可能性が広がる。 SGML とは  SGML が情報交換用のフォーマットとして開発されたことから来る自然な結果である。 本来  SGMLはタグと呼ばれる < > 記号で囲まれた目印によって、情報の属性を表現する。 文法

HTMLのまずさ 長さの問題 構造をどこで表現するか? 見た目上の理由でページを分けてしまう 短すぎるページ構成となる(細分化されすぎ) 本来は巨大なマニュアル本を一つのSGML文書で表現するような設計目標だった 構造をどこで表現するか? 建前:一つの文書内でタグによって表現 現実:リンク関係によって表現 「画面一枚の情報に、書くべき構造なんて無い」

HTMLのまずさ Googleの的確な候補表示はどこから? それでも機械可読であることの重要性 必要なキーワードを含んでいるページのリンク関係を見て、 人気があり、 入り口と思われるページを割り出す それでも機械可読であることの重要性 本来の設計目標とは違っても、機械可読である限り工夫は可能 まだまだ Web を有効に利用するためのアプリケーションはある

HTMLのまずさ 完成、版という概念がない 利点 欠点 HyperText は本来そうではなかった 即時性は高い 融通も利く リンクが切れる 固定できないため、相互参照に意味がない 情報が失われる HyperText は本来そうではなかった

HyperText のアイディア 1981, Literary Machines - Ted Nelson Xanadu - 完成していないプロトタイプ 出版すると同時に固定され、改変不可 改訂版は簡単に出せるが、旧版も残る リンクが切れず、意味も変わらずに使える 明確な文書の境界線 ページ単位ではなく文書単位で出版(登録) 外部参照(リンク)と引用(トランスクルージョン)の使い分け HTMLでは他の文書へのリンクと、自文書の一部分へのリンクに区別がない はじめから永続的アーカイブが前提だった

HyperText のアイディア T.B. Lee は ‘89にWebを開発したが Web保存計画はその反動である 提案 構造の記述と見た目の表現の混在 文書の固定とリンクの消滅の関係 の二点について解決せずに Web/HTML をリリースした Web保存計画はその反動である 例えばWARP 提案 Webではない新しいシステムの開発 Web/HTMLでも構造記述と表現の両立を目指す

その他の電子アーカイブ 過去の著作物から積極的に電子化 著作権法の期限外のものから グーテンベルグ計画 エキスパンドブック 青空文庫

グーテンベルグ計画 http://promo.net/pg/ イリノイ・ベネディクティン大学マイケル・ハートが推進 1971年開始 2001年までに10,000タイトル電子化目標 2003.10現在 5800 超ほど テキストのみ (ASCII 以外に Swedish などもあり)

Bible のグーテンベルグ例 単なるテキスト情報のみ Bible Genesis Chapter 1 God createth Heaven and Earth, and all things therein, in six days. 1:1. In the beginning God created heaven, and earth. 1:2. And the earth was void and empty, and darkness was upon the face of the deep; and the spirit of God moved over the waters. .... 単なるテキスト情報のみ

エキスパンドブック www.voyager.co.jp 対象 テキスト中心の電子出版 動画、音声なども含めたマルチメディア出版 縦・横組、文字サイズ、行間、字間の指定等さまざまな文字組が可能。 ルビ、禁則に対応。 指定した通りのデザインを、WinでもMacでも、読者のマシンで忠実に再現

グーテンベルグ21 http://www.gutenberg21.co.jp/ 「怒りのぶどう」スタインベック 100円文庫 (上)エキスパンドブック / 408KB テキストファイル 271KB (下)エキスパンドブック / 392KB テキストファイル 257KB 本体価格:各700円 100円文庫 シャーロック・ホームズの、あの作品だけ読みたい PcketPC、Palm、Clie、Zaurus、Visor、WorkPad、TRG Pro、Cassiopeia、GFORT、jornada などモバイル環境で文庫本がわりに 部分的閲覧(購入)は電子図書の重要な特徴

青空文庫 http://www.aozora.gr.jp/ 特徴 利用に対価を求めない、インターネット電子図書館 著作権の切れたもの、自由に出せるものを対象 テキストとHTML、エキスパンドブックで提供 1997年スタート ボランタリで入力、校閲 収録作品数 3162 本(2003.10 現在) 世界に誇れる日本発のプロジェクトとなるかも ネットワークに散在する力を集めたという意味で極めてインターネット的 (「むしとりあみ」という誤植連絡窓口の価値)