ビッグデータとオープンデータ(2) メディアコミュニケーション論Ⅲ 第13回
(M2M-Machine To Machine) ビッグデータとは(1) 人が作り出している (ソーシャルデータ) 大量のデータのことであるが, 売上データ(日付と金額の組み)のような,“型が決まった”ものだけでない 動画 Twitterなど センサー(位置情報,温度,…) 多様なデータでもある 機械が作り出している (M2M-Machine To Machine) IoT
ビッグデータとは(2) 大量・多様なデータで 発生速度が早い 次から次へと発生する
ビッグデータとは(3) 特徴 大量のデータ(Volumue) 多様なデータ(Variety) 従来のデータベースでは管理が困難 発生速度が速い(Velocity) 三つの“V”
ビッグデータの処理(従来) 大量のデータをすべて処理する能力(コンピュータのパワー)がなかった 一部だけを取り出して処理 サンプリング 処理に時間がかかる 月末にバッチ処理
ビッグデータの処理(今では) クラウドの利用 大量のデータを全件処理可能 迅速に処理可能 発生した情報を直ぐに処理し,その結果を活用できる データが“新鮮”な うちに,活用できる
ビッグデータは処理可能 ビッグデータだから,“見えてくること” 少ないデータからでは,分からないこと 従来は処理できないデータ あっても,“存在しない”データ 新たなビジネス
具 体 例 ビデオにあったもの・ないもの
具 体 例(1-1) 販売データ 顧客の様々な情報(年齢,性別,住所など)と購入した商品 次に何が売れるか? 品揃えの充実・売上げ増加 コンビニで生鮮食料品 顧客の詳細情報から,“売れる”と判断 ポイントカードの活用
具 体 例(1-2) 販売データ 自動販売機 JR 東日本ウォータービジネス社 http://itpro.nikkeibp.co.jp/article/COLUMN/20120123/379107/ スイカや顔認識で顧客の属性を把握、自販機の品ぞろえや商品開発に生かす
具 体 例(2) ソーシャルデータ 自社製品を含むデータ(“つぶやき”) 消費者の(個人)情報と結びつける 分析することで,新製品の開発・既存製品の改良
具 体 例(3-1) 検索キーワード 特定のカテゴリーに属するものが増加 “せき”,“熱”など 何を意味するのか? 風邪の流行
具 体 例(3-2) Twitterでも同様 ツイートに含まれる,“せき”,熱“など http://kazemiru.jp/
具 体 例(4-1) リアルタイム人口 いつ,どこに何人いるか 時間帯(昼と夜) 場所(住宅街とオフイス街) 災害が発生した際,帰宅困難者を見積もることが可能
具 体 例(4-2) モバイル空間統計に関する情報(NTTドコモ) http://www.nttdocomo.co.jp/corporate/disclosure/mobile_spatial_statistics/ 基地局の管理エリア内の携帯電話の数が分かる 人の数が分かる 時間とともに,どのように変化するか分かる 人の移動が分かる
具 体 例(5) 犯罪対策 1日1億件,年間18テラバイトのカード利用データから不正使用を検知(IBM) http://www-06.ibm.com/innovation/jp/technologies/bigdata2/card.shtml
具 体 例(6) カーナビからの走行データ “通れた道マップ” 震災後,どの道路が通行可能かどうか 危険箇所の発見 急ブレーキが多発 そこに何か原因がある ビッグデータの活用 カーナビデータによる道路危険箇所の解消
具 体 例(7) 天気予報 ウェザーニューズ 会員が,自分のいる場所の天気を報告 現在の状況から,予報を迅速に
具 体 例(8) 医療情報 カルテだけでない 患者の諸々の情報 次の発病を防ぐ
具 体 例(9) 遺伝子情報(DNA) 究極の個人情報 1人の情報を完全に解析 多数の人の情報を収集 遺伝子情報から,将来発症する可能性が高い疾病が判明
ビッグデータの入手方法
自分で 持っているものを使う 従来は,使わなかった(使えなかった) 新たに集める センサー Web2.0的な方法は?
買う(売る)(1) NTTデータが国内全ツイート情報を再販、TwitterとのFirehose契約でhttp://internet.watch.impress.co.jp/docs/news/20121119_574028.html 2015年8月頃に変更
買う(売る - 売れない)(2) 交通系ICカードのビッグデータ利活用による 駅エリアマーケティング情報提供サービスを開始 http://www.hitachi.co.jp/New/cnews/month/2013/06/0627a.html Suicaに関するデータの社外への提供について http://www.jreast.co.jp/pdf/20140320_suica.pdf
オープンデータ(1) 自由に使うことができるデータ 注目されているのが,“行政機関がもつ大量のデータ” 一般に公開(コンピュータで処理可能な形式) 新たなビジネス
オープンデータ(2) 電子行政オープンデータ戦略 http://www.kantei.go.jp/jp/singi/it2/pdf/120704_gaiyou.pdf
ビッグデータ・オープンデータの 問題点 ー まとめに代えて 順不同 ビッグデータと言っているが オープンデータも含む
ビッグデータの問題(1) ビッグデータを活用するビジネス データに欠損がある データの使い方が分からない 人材不足 データサイエンティスト
ビッグデータの問題(2) “ビッグ”であっても“オール”ではない Twitterのつぶやきが“すべて”か? 落とし穴が潜んでいるかも知れない
ビッグデータの問題(3) 先のNTTドコモの場合 http://www.nttdocomo.co.jp/corporate/technology/rd/tech/main/mobile_spatial_statistics/how_to_produce/ モバイル空間統計では、運用データのうち電話番号の様な個人を識別できる情報を使用しません。また、生年月日を年齢層に変換するなど情報の要約を行います。この処理を「非識別化処理」と呼びます。 少人数エリアの数値を除去します。この処理を「秘匿処理」と呼びます。秘匿処理は、統計的に少数であることで個人を推測されやすくなる場合があり、これを防ぐために行います。 匿名化
ビッグデータの問題(4) 単独のデータなら問題ない,としても しかし,複数の(ビッグ)データを併せると,浮かび上がる情報もある 個人のデータを 対象にする場合 “名寄せ” 単独のデータなら問題ない,としても しかし,複数の(ビッグ)データを併せると,浮かび上がる情報もある ビッグデータ活用手段一つ より価値の高い情報になる 匿名化したはずなのに,個人が見えてくる可能性(再識別) 今日は大丈夫だが,明日は…
ビッグデータの問題(6) 遺伝子情報 から分かること(すべて)知りたいか? は,誰のものか? を使った“広告”に是非
ビッグデータの問題(7) プライバシー権 自分の情報の流れをコントロールする権利 しかし,現状は 自分について,誰かが自分以上に知っているかも知れない
ビッグデータの問題(8) まとめ 個人データの活用が大きなポイント であるが,プライバシー保護との兼ね合い 匿名化と仮名化 しかし,簡単ではない 個人情報保護法改正
ビッグデータの問題(9) 補 足 Suica問題 ベネッセ漏洩事件 ビッグデータではないが いろいろ示唆に富む問題・事件