11 回 6 Web 情報の特質 7 Web 情報の信頼性 8 課題3の確認 9. Web 情報の量 1
6. Web 情報の特徴 (1) ハイパーリンクによる原文へのアクセス (2) 一次情報と二次情報の混在 (3) 匿名の情報発信 (4) 書誌事項の欠如 (5) 断片的な内容 (6) 審査を受けない情報発信 (7) 「現時点」の情報 (8) 分類のない ( 全分野の ) 情報 2
(1) ハイパーリンクによる 原文へのアクセス Yahoo や Google などの検索エンジン – 検索エンジンと原文 (Web ペー ) がネット上に存在する – ハイパーリンクにより検索結果から原文を確認でき る – 検索エンジンの利便性が非常に高い データベース – 原文が印刷物のため、情報検索の結果をもとに、再 度図書館などで原文を探し出す必要(図書・雑誌記 事) 3
(1) ハイパーリンクによる原文情報への アクセス Yahoo や Google などの検索エンジン – 検索エンジンと原文 Web ページが同じネット上に存在 する – ハイパーリンクにより検索結果から原文を確認でき る – 検索エンジンが扱った原文Web情報を確認できる – 検索エンジンの利便性は非常に高い 多くの有料データベース – 原文が印刷物のため、情報検索の結果をもとに、再 度図書館などで原文を探し出す必要 – 原文へのアクセスに多くの労力を必要とする 4
(2) 一次情報と二次情報の混在 Web 情報は匿名で情報発信が容易 – Web 情報は著者が作成した一次情報と、 伝聞情報である二次情報が混在する – 原文である Web ページを閲覧できても、 著者が自ら創作した一次情報とは限らな い Web 情報の活用にあたっては慎重な扱 いが求められる – 伝聞情報や不正確な情報の割合が高い – 有料のデータベースの原文は全て雑誌記 事などの一次情報である。 5
(3) 匿名の情報発信 Web 情報では著者名が記述されない場合が多い – 情報の内容に責任をもつ人を特定できない情報が多 くなる – 著者に関する記載があっても現実社会における実態 と一致しない場合も多い 匿名情報が Web 情報の信頼性低下につながる – 情報は人により創造される – 著者が明示されることは情報の内容についての責任 の所在が明らかにされることになる – Web 情報の活用にあたって著者や所属に関する情報が 記載されているか確認する必要がある 有料データベース – 書誌事項の一部として著者や所属は必ず明示されて いる 6
(4) 書誌事項の欠如 検索エンジン – データベースの書誌事項がない 表題 著者 出版者 出版年 分類 – 著者・出版年が確認できない情報が多いことを認識 したうえで Web 情報を活用する 一般のデータベース – 検索データとして書誌事項が整備されているのは必 須の要件である。 7
(5) 断片的な内容 Web 情報 – サイト毎ではなく1ページ単位で構成されている。 – 1ページに 1000 文字を超える文章が記述されるようなペー ジは少ない。 印刷物 – 雑誌記事情報 1 つの話題について 2000 字から 字程度の文章からなる – 図書情報 数万字からなる 印刷情報に比べると Web 情報の内容は断片的 – まとまりのある知識や情報を Web ページから得ることは困 難 – 簡単な情報やデータを得るには問題ない 8
(6) 審査を受けない情報発信 Web 情報 – 著者自身の判断に従って発信される情報が多い(ブ ログ) – 他人によるチェックが無いため、信頼性の低い情報 が混在 – 二次情報も混在する可能性が高い Web 情報の信頼性を判断する材料 – ページ作成者、サイト管理者などが特定できること – 比較的信頼性の高いドメイン go.jp, ac.jp, co.jp ドメイン、 gov, edu ドメイン 有料のデータベース – 出版社や査読者による事前審査をうけて発信される 情報 9
(7) 「現時点」の情報 Web 情報の出版年月日 – 基本的に現時点における最新情報 – 「現時点」の情報が主体となっているので遡及検索 に対応できない – Search tools で対応できるが1ページに1時点 (8) 全分野の情報 Web のページの情報は全ての分野の情報 検索エンジンの検索結果にはあらゆる分野の情報が表示 される 有料のデータベースではデータベース毎に扱う情報の分 野は限定されている 10
表 6 情報をまとめた良い表現と悪い表現 例 ≪再確認≫ × 「~について記載されていた」 – 「ついて」という表現は得られた情報の内容を何も 表現していないに等しい – 具体的な内容を示す、事実や、数値データなどを使 用して概要を記述することが必要 目的や目標の達成に役立つようにまとめる – 情報検索を行う前に目的や目標を設定 – 設定した目的と目標を意識してまとめる 11
7 Web 情報の信頼性 サイトの信頼性を推定できる付帯情報 ドメイン – edu, gov, ac.jp, go.jp, co.jp 著者 / 機関名 > 匿名 ファイルの作成年月日 – プロパティで確認 一次情報 > 2次情報 複数の情報源の存在 情報発信の背景(意志の推定) 12
書誌事項に相当する付帯している – 著者 – 所属 – 発信日 – 連絡先 13
サイトの信頼度 – 信頼できると判断した理由 – 例: サイトのドメインが ac.jp であった。 著者名が明記されていた。 引用が明記されていた。 1次情報であった(と推定でき) 14
8.課題3の確認 3 種類の Web 情報検索 – 同一課題について3種類の検索を実施する – 検索方法毎に5サイト以上の情報収集を行う 【検索1】 Google による日本語キーワード 検索 【検索2】 Google 以外の日本語キーワード 検索 【検索3】 英語検索エンジンによる英語キ ーワード検索 15
使用する 3 種類の検索エンジン 論理式を使った検索機能&検索件数表示機 能 16 日本語検索エンジン英語検索エンジン 1 検索1 Google.co.jp Google.co.jp (○ 論理式・ ○ 件数表示 ) 検索3 Google / webhp?hl=en を指定 Google / webhp?hl=en を指定 Google.com では不十分 2 検索2 Bing Bing (× 論理式・ ○ 件数表示 ) Bing (× 論理式・ ○ 件数表示 ) Bing.com in English 3 Yahoo.co.jp (Google と同じ(Google と同じため対象外 ) (○ 論理式・ ○ 件数表示 ) ) (○ 論理式・ ○ 件数表示 ) Yahoo yahoo.com (○ 論理式・ × 件数表示 ) 4 ASK (× 検索表示・ × 論理式 ) (× 検索表示・ × 論理式 ) ask.co.jp ASK (× 検索表示・ × 論理式 ) ask.com 6 Baidu ( ○ 論理式・ ○ 件数表示 ) 1件選択1件選択 1件選択1件選択
9. Web 情報の量 17 サーバ数とドメイン数 インターネットのホスト数 2012 年 全世界で 888,239,420 台 図 9Internet Systems Consortium, Inc. の Internet Domain Survey サーバ数とドメイン数 インターネットのホスト数 2012 年 全世界で 888,239,420 台
Web情報の利用 the number of people in the United States who visit each site within a month. – The top 500 sites on the web –
19 1Yahoo.co.jp 2Google.co.jp 3Google.com 4Amazon.co.jp 5Youtube.com 6Fc2.com 7Facebook.com 8Rakuten.co.jp 9Ameblo.jp 10Wikipedia.org 11Livedoor.com 12Nicovideo.jp 13Naver.jp 14Goo.ne.jp 15Twitter.com 16Dmm.co.jp 17Xvideos.com 18Msn.com 19Kakaku.com 20Ameba.jp 21Baidu.com 22Amazon.com 23Doorblog.jp 24Seesaa.net 252ch.net 1 google.com203,096,048 2 youtube.com182,911,200 3 facebook.com141,367,664 4 microsoft.com128,084,456 5 msn.com117,656,392 6 twitter.com93,224,080 7 yahoo.com92,955,640 8 Hidden profile— 9 amazon.com76,170, yelp.com75,096, ebay.com70,379, buzzfeed.com63,666, pinterest.com60,891, Hidden profile— 15 bing.com54,536, wordpress.com53,794, wikipedia.org53,289, live.com51,407, about.com48,664, linkedin.com46,912, blogger.com41,288, wikia.com39,862, nbcnews.com39,660, blogspot.com38,497, adobe.com36,173,248 Ask 30
ISC Domain Survey 第一水準のドメイン 位.Net 319,311,234 ( , 253,853,098/204,683,342/190,267,719) 台 2 位.com 156,860,679 ( – 142,526,322/ 123,324,475/95,448,209) 台、 3 位.jp 63,465,680 ( 59,968,541 – 52,081,808 / 43,461,277/36,803,719) 台 国別ドメインは.jp (日本)が第 1 位 全ホスト に 占める割合は 7.14 (7.32/7.10/6.95/6.79)% 2012 年 –.net,.com,.edu の Web サーバはアメリカの情報 日本語より多い英語情報が Web 情報として流 通 本格的な情報検索では英語情報も必要 20
Web情報検索で信頼性の高いドメイン – 情報発が明示されている公共性の高いサ イト – gov – edu – co.jp – ac.jp – go.jp 21
TLDと jp ドメイン gTLD – gov – edu – org – int JP ドメイン名の分類 – AC.JP – CO.JP – GO.JP – OR.JP 22
Web ページ数 Google ( 2008 年) – 1,000,000,000,000 ページを集めたと報告 – その後総ページ数の公表は中止 Cuil ( 2010/4/20 現在) – 1,270 億 web pages 検索可能 – cuil は 2010 年 9 月にサービスを終了 Google の件数 –A 約 25,270,000,000 件 2012/5/7 –A 約 12,100,000,000 件 2014/6/10 – あ約 557,000,000 件 2012/5/7 (あ /a = 2.2% ) 総ページ数の表示が停止 – データベースの処理能力の限界 23
11回.理解度テスト Web情報の特徴 Web情報の信頼性 24
12. 次回の準備 課題4(最終課題) 教科書を読んで概要を理解する。 複合情報検索: 情報源の見極め 3人のグループ課題 実行計画の作成 課題の決定 分担 25