Download presentation
Presentation is loading. Please wait.
1
ビッグデータとオープンデータ(2) メディアコミュニケーション論Ⅲ 第13回
2
(M2M-Machine To Machine)
ビッグデータとは(1) 人が作り出している (ソーシャルデータ) 大量のデータのことであるが, 売上データ(日付と金額の組み)のような,“型が決まった”ものだけでない 動画 Twitterなど センサー(位置情報,温度,…) 多様なデータでもある 機械が作り出している (M2M-Machine To Machine)
3
ビッグデータとは(2) 大量・多様なデータで 発生速度が早い 次から次へと発生する
4
ビッグデータとは(3) 特徴 大量のデータ(Volumue) 多様なデータ(Variety) 従来のデータベースでは管理が困難
発生速度が速い(Velocity)
5
ビッグデータの処理(従来) 大量のデータをすべて処理する能力(コンピュータのパワー)がなかった 一部だけを取り出して処理 サンプリング
処理に時間がかかる 月末にバッチ処理
6
ビッグデータの処理(今では) クラウドの利用 大量のデータを全件処理可能 迅速に処理可能 発生した情報を直ぐに処理し,その結果を活用できる
データが“新鮮”な うちに,活用できる
7
ビッグデータは処理可能 ビッグデータだから,“見えてくること” 少ないデータからでは,分からないこと 従来は処理できないデータ
あっても,“存在しない”データ 新たなビジネス
8
具 体 例
9
具 体 例(1-1) 販売データ 顧客の様々な情報(年齢,性別,住所など)と購入した商品 次に何が売れるか? 品揃えの充実・売上げ増加
コンビニで生鮮食料品 顧客の詳細情報から,“売れる”と判断 ポイントカードの活用
10
具 体 例(2) ソーシャルデータ 自社製品を含むデータ(“つぶやき”) 消費者の(個人)情報と結びつける
分析することで,新製品の開発・既存製品の改良
11
具 体 例(3-1) 検索キーワード 特定のカテゴリーに属するものが増加 “せき”,“熱”など 何を意味するのか? 風邪の流行
12
具 体 例(3-2) Twitterでも同様 ツイートに含まれる,“せき”,熱“など
13
具 体 例(4-1) リアルタイム人口 いつ,どこに何人いるか 時間帯(昼と夜) 場所(住宅街とオフイス街)
災害が発生した際,帰宅困難者を見積もることが可能
14
具 体 例(4-2) モバイル空間統計に関する情報(NTTドコモ) 基地局の管理エリア内の携帯電話の数が分かる 人の数が分かる 時間とともに,どのように変化するか分かる 人の移動が分かる
15
具 体 例(5) 犯罪対策 1日1億件,年間18テラバイトのカード利用データから不正使用を検知(IBM)
16
具 体 例(6) カーナビからの走行データ “通れた道マップ” 震災後,どの道路が通行可能かどうか 危険箇所の発見 急ブレーキが多発
そこに何か原因がある
17
具 体 例(7) 天気予報 ウェザーニューズ 会員が,自分のいる場所の天気を報告 現在の状況から,予報を迅速に
18
具 体 例(8) 医療情報 カルテだけでない 患者の諸々の情報 次の発病を防ぐ
19
具 体 例(9) 遺伝子情報(DNA) 究極の個人情報 1人の情報を完全に解析 多数の人の情報を収集
遺伝子情報から,将来発症する可能性が高い疾病が判明
20
ビッグデータの入手方法
21
自分で 持っているものを使う 従来は,使わなかった(使えなかった) 新たに集める センサー Web2.0的な方法は?
22
買う(売る)(1) NTTデータが国内全ツイート情報を再販、TwitterとのFirehose契約で
23
買う(売る - 売れない)(2) 交通系ICカードのビッグデータ利活用による 駅エリアマーケティング情報提供サービスを開始 Suicaに関するデータの社外への提供について
24
オープンデータ(1) 自由に使うことができるデータ 注目されているのが,“行政機関がもつ大量のデータ”
一般に公開(コンピュータで処理可能な形式) 新たなビジネス
25
オープンデータ(2) 電子行政オープンデータ戦略
26
ビッグデータ・オープンデータの 問題点 ー まとめに代えて
順不同 ビッグデータと言っているが オープンデータも含む
27
ビッグデータの問題(1) ビッグデータを活用するビジネス データに欠損がある データの使い方が分からない 人材不足 データサイエンティスト
28
ビッグデータの問題(2) “ビッグ”であっても“オール”ではない Twitterのつぶやきが“すべて”か? 落とし穴が潜んでいるかも知れない
29
ビッグデータの問題(3) ビッグデータに含まれる個人情報の取扱い DNAなどは,もっとも典型的な例
30
ビッグデータの問題(4) 先のNTTドコモの場合
モバイル空間統計では、運用データのうち電話番号の様な個人を識別できる情報を使用しません。また、生年月日を年齢層に変換するなど情報の要約を行います。この処理を「非識別化処理」と呼びます。 少人数エリアの数値を除去します。この処理を「秘匿処理」と呼びます。秘匿処理は、統計的に少数であることで個人を推測されやすくなる場合があり、これを防ぐために行います。 匿名化
31
ビッグデータの問題(5) 単独のデータなら問題ない,としても しかし,複数の(ビッグ)データを併せると,浮かび上がる情報もある
ビッグデータ活用の本質の一つ 匿名化したはずなのに,個人が見えてくる可能性(再識別) 今日は大丈夫だが,明日は…
32
ビッグデータの問題(6) まとめ 個人データの活用が大きなポイント プライバシー保護との兼ね合い 匿名化 簡単ではない
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.