情報処理の概念 #7 HTML における構造と表現、アーカイブ / 2002 ( 秋 ) 一般教育研究センター 安田豊.

Slides:



Advertisements
Similar presentations
ウィキについて 1 1040431 1 1040431 植木貴宏 植木貴宏. ウィキとは? ウェブブラウザを利用して Web サーバ 上のハイパーテキスト文書を書き換え るシステムの一種。 ウェブブラウザを利用して Web サーバ 上のハイパーテキスト文書を書き換え るシステムの一種。 Wiki とは、ハワイ語で「速い」を意味.
Advertisements

図書館活用法 Ⅰ 第8講 インターネット情報とその利用法 (1) (明治大学図書館庶務課 菊池).
1 情報処理基礎 2006 年 7 月 6 日. 2 本日の学習項目 HTML 文書の基礎知識を習得する。 ホームページ・ビルダーの基本的な使 い方を習得する。 ホームページの作成 自己紹介のためのホームページを作成する。
人間とコンピュータ インターネット検索 11 月 10 日, 11 月 17 日, 11 月 24 日.
Word で XML マニュアルを編集 し、 XML を自動組版する 1. XML の自動組版概要 2. Word での原稿入力 アンテナハウス株式会社 2004/09/03.
XML ゼミ 独習 XML ~ 第 6 章 XHTML~ 6.1 XHTML の概要 6.2 XHTML の構造 谷津 哲平.
1 1)外部の図書館の利用のしかた ①国立国会図書館 ( 東京本館・・・千代田区永田町 ) 国会議事堂の近く。 ● 満 18 歳以上であれば、だれでも施設・資料を利用することができる。 ● インターネットによる複写サービスもある。 ●NDL-OPAC というシステムから、インターネットを使ってどこからでも.
コーパス言語学実践 2006 年度 2 学期 第 2 回. 2 本日の内容 前半の作業について – 語彙調査の演習 – 用語の説明 語彙,単位語,延べ語,異なり語,見出し 語 作成作業 その1 – データ収集開始.
情報処理の概念 #6 HTML における構造と表現、アーカイブ Yutaka Yasuda, Kyoto Sangyo University.
Microsoft Office 2010 クイックガイド ~OneNote編~
第9回放送授業.
(実はアイコンは単なる飾りで、この縦書きの部分のどこをクリックしても次のページに移動します。)
情報基礎A 情報科学研究科 徳山 豪.
本日のスケジュール 14:45~15:30 テキストの講義 15:30~16:15 設計レビュー 16:15~16:30 休憩
HG/PscanServシリーズ Acrobatとなにが違うのか?
MS-Word ⇒ XML 2001/10 マウスをクリックしてください。(カーソルはどこにあっても結構です。)次ページが表示されます。
画像展示サイト“Fragments” 『閲覧しやすさ』と『デザイン性』を両立させた Webデザイン
電子書籍を さがす どんな書籍があるの? Maruzen eBook Libraryは、学術機関向け和書の電子書籍提供サービスです。
情報処理の概念 #3 電子出版、Web、PDF、電子図書
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
CEC公開授業 Webサイト制作にチャレンジ! 2007年11月20日 於:東京都立板橋有徳高校 学校インターネット教育推進協会.
第1回レポートの課題 6月19日出題 今回の課題は1問のみ 第2回レポートと併せて本科目の単位を認定 第2回は7月に出題予定
情報技術と著作権.
小説形式文章とDTMの制作 およびWebページ作成
DRMのコンセプト 2004/01/15 DRM 入江 伸.
HTMLの記述と WWWにおける情報公開 遠藤
CG作品展示サイト”Fragments” ~ 『閲覧しやすさ』と『デザイン性』を両立させた Webデザイン~
早稲田大学大学院理工学研究科 情報科学専攻修士2年 後藤滋樹研究室 坂本義裕
実行時のメモリ構造(1) Jasminの基礎とフレーム内動作
ホームページの作り方.
経営情報 #1 デジタル表現 / 2003 (春) 安田豊 1.
簡単な画像処理 通信教育学部 コンピュータ演習 遠藤美純.
XMLについて 蔡柏東.
ユーリテクノスのFlashテクノロジーを 利用した様々なサービスのご提案
情報処理の概念 #5 HTMLにおける構造と表現、アーカイブ / 2003 (秋)
Webサイト制作の流れ CEC公開授業 ~テーマ決定からサイト公開まで~ 2007年11月20日 於:東京都立板橋有徳高校
Webを利用した授業支援システムの開発 北海道工業大学 電気電子工学科 H 渋谷 俊彦.
変数のスコープの設計判断能力 を育成するプログラミング教育
コンピュータ基礎実習上級 #10 絶対パスによる指定
コンピュータ基礎実習上級 #1 概要説明と基礎体力テスト
情報処理の概念 #6 電子出版、Web、PDF、電子図書館 / 2002 (秋)
サイト運営者へむけて、CMS管理画面をつかって サイト運営していく方法を紹介します。
SGMLについて 2年8組  原口 文晃.
パートナー様向け 仕事のご説明資料 関係者外秘 (他の方に絶対に開示しないでください).
基礎プログラミング演習 第1回.
Microsoft Office 2010 クイックガイド ~OneNote編~
Microsoft PowerPoint98 Netscape Communicator 4.06[ja]
HTTPとHTML 技術領域専攻 3回 中川 晃.
All IP Computer Architecture
独習XML 第2章 XML文書の構成要素 2.1 XMLの文字と文字列 2.2 コメント
ご利用説明 2018年10月 (株)紀伊國屋書店.
第3章 第2節 ネットワークを活用した 情報の収集・発信(2) 4 文書の構造と表現
情報検索(6) メディア検索の仕組み 教員 岩村 雅一
情報スキル活用 第3週 基礎技術ー3 : 学部・学科紹介のページ作成.
情報スキル活用 第2週 基礎技術ー2 : Webページの基本形.
HTML の成り立ち 惑星物理学研究室 4年 安達 俊貴.
Maruzen eBook Libraryは、学術機関向け和書の電子書籍提供サービスです。 rev 電子書籍を さがす
ルーブリック・チャート(評価) の活用と課題
Maruzen eBook Libraryは、学術機関向け和書の電子書籍提供サービスです。 rev 電子書籍を さがす
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
情報スキル活用 第4週 基礎技術-4 : その1(タグのまとめ).
コンピュータ プレゼンテーション.
国立国会図書館の インターネット上の 情報資源に対する取り組み
基礎技術ー3 : Webページの標準規格について
独習XML ~第1章 XMLの基礎~ 1.1 XML文書の基礎 1.2 XMLとHTML
自然言語処理2015 Natural Language Processing 2015
情報ネットワークと コミュニケーション 数学領域3回 山本・野地.
医療科学B演習のおさらい 杏林大学医学図書館 医療科学B.
自然言語処理2016 Natural Language Processing 2016
情報処理の概念 #0 概説 / 2002 (秋) 一般教育研究センター 安田豊.
Presentation transcript:

情報処理の概念 #7 HTML における構造と表現、アーカイブ / 2002 ( 秋 ) 一般教育研究センター 安田豊

Web と電子出版 出版=著作物を世に出すこと より多くの読者のために複製を作る形をとる – はじまりは 15 世紀のグーテンベルグから – 写経(写本)から大量複製の時代へ 出版物と複製の関係 – 電子出版は出版に大きなインパクトを与える – デジタル化=完全な複製可能性 – より多くの読者のために利用しない方法はない

Web と電子出版 まず出版過程の電子化から –1450 年頃:グーテンベルグの活版 –1960 年代:電算写植の導入 日本では 70 年代に新聞 CTS で活版から移行 (Cold Type System 、 Hot な鉛を使わない ) –1980 年代: DTP の登場 1986 年: Macintosh / LaserWriter WYSIWYG システムと PostScript の出会い 成果物の電子化 - 紙との決別 –1990 年代: CD-ROM 出版、 PDF 、 Web 等 多様なメディア

PDF と電子出版との関係 出版過程の電子化の一段階 特徴:紙のイメージを保持 – 紙を出力対象とした印刷技術の変遷の最終形態 (かもしれない) – 最後に紙のイメージを電子的に表現する – レイアウトを完全に保持して再現 難点:機械可読性が弱い – データとして扱えるという意味で可読だが – 本来ドキュメントがもっている文章の意味や構造 を無視して文字の並びだけを扱うしかない

PDF と対比した Web 共通項 – 紙ではなくデジタルデータとして出力 – 文字情報については機械可読 PDF の弱み – 文書の構造などを汲み出せない – 文字情報は印刷のため – 可読とはいえ再利用性が低い – 機械で読むのは再利用、加工のためでは?

情報加工、再利用 例: PDF ドキュメントから第 3 章だけ抜き出 しなさい – どこからどこまでが該当部分かわからない – 人間は見たらわかる(意味を理解している) – 機械にはわからない(アラビア語 Web page を見た 時に似る = 文字は見えるが再利用できない) – ページの切れ目を変えて再構成できない – あくまで「見ため」を残しているのであって、文 章の構造は消えている

情報加工、再利用 例:サブタイトルが「印刷技術」の章を抜き 出しなさい – タイトルが飛び跳ねてたら? – 「見ため」としての文字は残るが文は消える じゃあ Web はできるのか? –Yes, HTML がテキストの構造を記述するから –SGML の本来の価値に注目

Web における構造と表現 HTML (Hyper Text Markup Language) とは何か –SGML (Standard Generalized Markup Language) の一つの例 – コンピュータ間でデータを交換するために – 情報の属性を記述する 本を SGML で記述する – これがタイトル – これがパラグラフ – ということがわかるように

SGML による記述例 情報処理の概念 安田豊 情報処理技術の様々な応用、すなわちコンピュータやネットワークの 利用が 進んだ結果、、、、 SGML について 文法 SGML はタグと呼ばれる、、、 このとき、ドキュメントは、、 目的 構造が残されていることに注目 これなら「三章を抜け」も可能

情報加工、再利用 溢れる情報 – 情報発信者の激増 – 通信環境の改善、能力アップ 新しいモデル – 将来流れる情報はまず機械が読む – 個人向けに再編成してから読む – 興味のあるニュースだけ集めるシステム – 「新しい本の情報を見つけたら ABSTRACT だけ集 めて見せてくれ」 – 「 ABSTRACT にこのキーワードがあるものだけ」

アプリケーション例 機械翻訳 –Web ページ自動翻訳 ロボット型検索エンジン –HTML の機械可読性が活きている – 一次情報はまず機械が読むという感覚 HTML のまずさが問題に – 視覚的表現に重点が移行

HTML のまずさ 理想 – 構造を表現すればそれなりに見せてくれる – 構造の記述と好ましい表現の両立 現実 – より良い見た目のために記述を工夫する – 構造の表現が崩れても構わない – 一文字ずつ離して配置する – 絵で文字を代行させる(見出しなど) – プログラムで表現( Java, Flash など)

情報処理の概念 安田豊 / SGML とは SGML は文書の構造を残し たまま情報を記録できるため、 あとから機械的に再利用する 可能性が広がる。 本来 SGML が情報交換用の フォーマットとして開発され たことから来る自然な結果で ある。 文法 SGML はタグと呼ばれる 記号で囲まれた目印によっ て、情報の属性を表現する。 安田豊 / SGML とは SGML は文書の構造を残 したまま情報を記録で きるため、あとから機 械的に再利用する可能 性が広がる。 SGML が情報交換用の フォーマットとして開発 されたことから来る自然 な結果である。 SGML はタグと呼ば れる 記号で囲まれ た目印によって、情報 の属性を表現する。 文法 本来

HTML のまずさ 長さの問題 – 見た目上の理由でページを分けてしまう – 短すぎるページ構成となる(細分化されすぎ) –HTML は一文書で完結する設計 – 本来は巨大なマニュアル本を一つの SGML 文書で 表現するような設計目標だった 構造をどこで表現するか? – 建前:一つの文書内でタグによって表現 – 現実:リンク関係によって表現 – 「画面一枚の情報に、書くべき構造なんて無い」

HTML のまずさ Google の的確な候補表示はどこから? – 必要なキーワードを含んでいるページのリンク関 係を見て、 – 人気があり、 – 入り口と思われるページを割り出す それでも機械可読であることの重要性 – 本来の設計目標とは違っても、機械可読である限 り工夫は可能 – まだまだ Web を有効に利用するためのアプリケー ションはある

HTML のまずさ 完成、版という概念がない 利点 – 即時性は高い – 融通も利く 欠点 – リンクが切れる – 固定できないため、相互参照に意味がない – 情報が失われる HyperText は本来そうではなかった

HyperText のアイディア 1981, Literary Machines - Ted Nelson –Xanadu - 完成していないプロトタイプ 出版すると同時に固定され、改変不可 – 改訂版は簡単に出せるが、旧版も残る – リンクが切れず、意味も変わらずに使える 明確な文書の境界線 – ページ単位ではなく文書単位で出版(登録) – 外部参照(リンク)と引用(トランスクルージョン)の使 い分け –HTML では他の文書へのリンクと、自文書の一部分へのリン クに区別がない はじめから永続的アーカイブが前提だった

HyperText のアイディア T.B. Lee は ‘89 に Web を開発したが 1. 構造の記述と見た目の表現の混在 2. 文書の固定とリンクの消滅の関係 の二点について解決せずに Web/HTML をリリース した Web 保存計画はその反動である – 例えば WARP 提案 –Web ではない新しいシステムの開発 –Web/HTML でも構造記述と表現の両立を目指す

その他の電子アーカイブ 過去の著作物から積極的に電子化 著作権法の期限外のものから – グーテンベルグ計画 – エキスパンドブック – 青空文庫

グーテンベルグ計画 イリノイ・ベネディクティン大学マイケル・ ハートが推進 1971 年開始 2001 年までに 10,000 タイトル電子化目標 現在 5000 超ほど テキストのみ (ASCII 以外に Swedish などもあり)

Bible のグーテンベルグ例 Bible Genesis Chapter 1 God createth Heaven and Earth, and all things therein, in six days. 1:1. In the beginning God created heaven, and earth. 1:2. And the earth was void and empty, and darkness was upon the face of the deep; and the spirit of God moved over the waters..... 単なるテキスト情報のみ

エキスパンドブック 対象 – テキスト中心の電子出版 – 動画、音声なども含めたマルチメディア出版 – 縦・横組、文字サイズ、行間、字間の指定等さま ざまな文字組が可能。 – ルビ、禁則に対応。 – 指定した通りのデザインを、 Win でも Mac でも、 読者のマシンで忠実に再現

グーテンベルグ 21 「怒りのぶどう」スタインベック –( 上 ) エキスパンドブック / 408KB テキストファイル 271KB –( 下 ) エキスパンドブック / 392KB テキストファイル 257KB – 本体価格:各 700 円 100 円文庫 – シャーロック・ホームズの、あの作品だけ読みたい –PcketPC 、 Palm 、 Clie 、 Zaurus 、 Visor 、 WorkPad 、 TRG Pro 、 Cassiopeia 、 GFORT 、 jornada などモバイル環境で文庫本がわ りに 部分的閲覧 ( 購入 ) は電子図書の重要な特徴

青空文庫 特徴 – 利用に対価を求めない、インターネット電子図書館 – 著作権の切れたもの、自由に出せるものを対象 – テキストと HTML 、エキスパンドブックで提供 –1997 年スタート – ボランタリで入力、校閲 – 収録作品数 2066 本( 現在) – 世界に誇れる日本初のプロジェクトとなるかも – ネットワークに散在する力を集めたという意味で極めてイ ンターネット的