流言情報クラウド: 人間の発信した訂正情報の抽出による 流言収集 宮部 真衣 † 梅島 彩奈 ‡ 灘本 明代 ‡ 荒牧 英治 † † 東京大学知の構造化センター ‡ 甲南大学知能情報学部
Center for Knowledge Structuring, The University of Tokyo. Outline 1. 背景と目的 2. 流言情報クラウド 3. 訂正情報分類器 4. 実験 5. まとめ 2
Center for Knowledge Structuring, The University of Tokyo. 背景 マイクロブログの普及 –Twitter 利用者数: 1455 万人( 2011 年 10 月) 東日本大震災( 2011 年 3 月 11 日) –Twitter などのマイクロブログが重要な情報イン フラの 1 つとして活用された – 重要な情報の共有・伝搬が行われた一方で,多 くの流言も拡散された 3 流言の拡散しにくい環境の構築が必要 1. 背景と目的
Center for Knowledge Structuring, The University of Tokyo. 流言の拡散防止 流言の拡散 – 人は,その情報が正しいと思って発信する – つまり,流言であることを認識していない 流言に関する情報(訂正情報)の提供 – 東日本大震災では,流言に関する情報が人手で まとめられ,提供されていた 4 発信する前に,ユーザに対して その情報が流言である可能性を提示する 1. 背景と目的
Center for Knowledge Structuring, The University of Tokyo. 東日本大震災における流言拡散の例 5 流言ツイート訂正ツイート 訂正情報がうまくユーザに伝わっていない 2011/3/11 Twitter 上のドワンゴ社員によるデマ 1. 背景と目的 地震が起きた時、社内サーバールームにいたのだが、ラックが倒壊した。 腹部を潰され、血が流れている。痛い、誰か助けてくれ。
Center for Knowledge Structuring, The University of Tokyo. ユーザへの訂正情報の提供 人手による訂正情報提供の問題点 – 誰かがまとめない限り,情報は提供されない – 情報をまとめる人に負荷がかかる –1 つの情報サイトに全ての情報が集まるとは限らない – ある情報が流言かどうかは,まとめサイトや Web な どで自分で調べなければならない 6 流言に関する情報収集の自動化 課題1 流言に関する情報提供方法の改善 課題2 流言に関する情報を 自動的に収集・提供するサービスを提案 流言に関する情報を 自動的に収集・提供するサービスを提案 1. 背景と目的
Center for Knowledge Structuring, The University of Tokyo. Outline 1. 背景と目的 2. 流言情報クラウド 3. 訂正情報分類器 4. 実験 5. まとめ 7
Center for Knowledge Structuring, The University of Tokyo. 流言情報クラウドの概要 流言に関する情報を収集し,ユーザの流言 拡散防止を支援するサービス 8 流言に関する 情報を収集 流言情報を提供し 流言拡散を防止 自動収集 手動登録 2. 流言情報クラウド ・・ ・・ ・
Center for Knowledge Structuring, The University of Tokyo. 流言収集の自動化 (1/4) 流言を収集・蓄積するためには, その情報の真偽を判別する必要がある 9 情報の真偽判定は 可能か? 2. 流言情報クラウド
Center for Knowledge Structuring, The University of Tokyo. Question 1 10 ゴム報知新聞 という 専門紙があるらしい. TRUE or FALSE? 2. 流言情報クラウド
Center for Knowledge Structuring, The University of Tokyo. Question 2 11 TRUE or FALSE? 月刊手摺 という 業界誌があるらしい. 2. 流言情報クラウド
Center for Knowledge Structuring, The University of Tokyo. Question 3 12 TRUE or FALSE? NLP2012 では, セッション A4 の会場 にはかなり人が集 まっているらしい. 2. 流言情報クラウド
Center for Knowledge Structuring, The University of Tokyo. CASE 2 (ある時点で)誰も真偽を 知らない情報 ( 現在発生中の事象 など ) (誰かが作成するまで) 正しい情報は存在しないため, 情報の真偽判定は不可能 CASE 1 (ある時点で)誰かが真偽を 知っている情報 情報の真偽は判定可能 だが,正しい情報を 含むリソースが不可欠 流言収集の自動化 (2/4) 情報の真偽は,人間でも判別が困難 13 情報の真偽を判定するためには, 正しい情報が蓄積されていなければならない 2. 流言情報クラウド
Center for Knowledge Structuring, The University of Tokyo. 流言収集の自動化 (3/4) 流言情報の内容は多岐にわたる 14 流言ツイート例ツイート数 ドワンゴ社員による 流言 拡散して!近くの人誰か気づいて! 地震が起きた 時、社内サーバールームにいたのだが、ラックが倒壊した。 腹部を潰され、血が流れている。痛い、誰か助けてくれ。 約 2500 件 命の三角形に関する 流言 命の三角形、ためになりました。地震では机の下にすぐ入 る事を考えがちだけど、机等のすぐ横のほうがつぶされな い三角形の空間になり、助かる可能性が高いんだね。 約 1400 件 関西電力の節電呼び かけに関する流言 【拡散希望】中の人が今友達からメールで回ってきました。 関西地区にお住まいのみなさん。地震に伴い、関西電力が 電力の提供を始めたようです。少しの節電でも立派な支援 になります。電子レンジや炊飯器など、普段さしっぱなし のコンセントを今日だけでも抜いて節電しましょう。 約 500 件 ある情報が流言であることを 単純に判定するのは容易ではない 2. 流言情報クラウド
Center for Knowledge Structuring, The University of Tokyo. 流言収集の自動化 (4/4) 15 本研究では,流言訂正情報に着目 2. 流言情報クラウド
Center for Knowledge Structuring, The University of Tokyo. 流言訂正情報とは? 本研究における定義 – ある情報に関する不確かさの記述が含まれる情報 – 流言に関するまとめ 16 このツイートはデマです。 RT xxx: 〇〇〇 〇〇〇は本当なの?デマじゃないの? 〇〇〇というデマを広げた人間がいるみたいだね 地震に関するデマ 2. 流言情報クラウド
Center for Knowledge Structuring, The University of Tokyo. 流言訂正情報の傾向 訂正していることを明示する用語 (流言マーカー)が含まれる場合が多い – デマ – 間違い – ガセ – 誤り – 嘘 17 流言を直接検出するよりも 訂正情報の方が容易に検出できる可能性がある 流言を直接検出するよりも 訂正情報の方が容易に検出できる可能性がある 2. 流言情報クラウド
Center for Knowledge Structuring, The University of Tokyo. 本研究のアプローチ (1/2) 18 流言 情報 訂正 情報 ○○○○○ は, デマらしいです. ○○○○○ は, デマらしいです. 流言 情報 訂正情報を収集することにより,間接的に流言を収集 2. 流言情報クラウド
Center for Knowledge Structuring, The University of Tokyo. 本研究のアプローチ (2/2) 19 流言ツイート 流言訂正ツイート 1. 流言訂正情報を検出し, リアルタイムに情報を蓄積 2. 流言訂正情報出現以降の 流言拡散を防止 2. 流言情報クラウド
Center for Knowledge Structuring, The University of Tokyo. Outline 1. 背景と目的 2. 流言情報クラウド 3. 訂正情報分類器 4. 実験 5. まとめ 20
Center for Knowledge Structuring, The University of Tokyo. 流言訂正情報の分類 本研究では,流言訂正情報を Twitter から収集 流言マーカーを含むツイートを訂正情報として収集 – 流言マーカーとして,「デマ」を利用 21 ツイート例 千葉のコスモ石油、有害な雨が … の件、 デマ 確定です。拡散しないようにご注意。 → 【東北地方太平洋沖地震】コスモ石油、「有害物質が降る」メールに注意呼びかけ 近畿の地震 デマ だったんだ~複雑だけどよかった 千葉の有害雨もプレート型による深夜の地震も デマ か デマ ゴギーって何? デマ の省略前の言葉? なにか デマ 騒動があったのかな? 明らかな デマ であったなら、論外だけど、そうでないんだから、頭使えよ!、って かんじだよね。 訂正 情報 その他 訂正情報かどうか判定する必要がある 3. 訂正情報分類器
Center for Knowledge Structuring, The University of Tokyo. 分類器の構築 (1/2) コーパス(「デマ」を含むツイート) – 平常時データ: 2010 年 3 月のツイート – 災害時データ: 2011 年 3 月のツイート 「地震」というキーワードを含むツイート 22 データツイート数 訂正情報 (正例) 平常時 1000 件 187 件 災害時 1000 件 602 件 3. 訂正情報分類器
Center for Knowledge Structuring, The University of Tokyo. 分類器の構築 (2/2) 素性 – 流言マーカー「デマ」 の周辺文脈 両側, 1 ~ 3 形態素 – ツイートの形態素数 –URL の有無 – 引用( )の有無 学習アルゴリズム – SVM (多項カーネル, d=2 )を利用 23 ウィンドウサイズ 3. 訂正情報分類器
Center for Knowledge Structuring, The University of Tokyo. Outline 1. 背景と目的 2. 流言情報クラウド 3. 訂正情報分類器 4. 実験 5. まとめ 24
Center for Knowledge Structuring, The University of Tokyo. 検証項目 25 訂正情報分類器によって, 訂正情報は判定できるか? 平常時のデータを用いた分類器は, 災害時にも性能を発揮できるか? Q1. 判定精度 Q2. 教師データの影響 4. 実験
Center for Knowledge Structuring, The University of Tokyo. Q1 と Q2 に関する検証の概要 Q1 .判定精度 – 各データについて, 10 分割交差検定により検証 平常時データ 災害時データ 平常時+災害時データ Q2 .教師データの影響 – 以下の条件で,それぞれの精度を検証 1. 教師データ:平常時データ, テストデータ:災害時データ 2. 教師データ:災害時データ, テストデータ:平常時データ 実験
Center for Knowledge Structuring, The University of Tokyo. Q1 :判定精度 27 訂正情報分類器によって, 訂正情報は判定できるか? 80% 程度の精度で 判定可能 4. 実験
Center for Knowledge Structuring, The University of Tokyo. Q2 :教師データの影響 28 平常時のデータを用いた分類器は, 災害時にも性能を発揮できるか? 平常時のデータから 80% 程度判定可能 4. 実験
Center for Knowledge Structuring, The University of Tokyo. Outline 1. 背景と目的 2. 流言情報クラウド 3. 訂正情報分類器 4. 実験 5. まとめ 29
Center for Knowledge Structuring, The University of Tokyo. 本発表のまとめ 概要 – 流言拡散を防ぐ仕組みとして,流言情報クラウド を提案 流言を収集する方法として,流言訂正情報に着目 – 流言訂正情報分類器を構築し,精度を評価 結果 – 流言訂正情報は, 80% 程度の精度で判定可能 – 平常時のデータをもとに,災害時の流言訂正情報 を判定可能 まとめ
Center for Knowledge Structuring, The University of Tokyo. 今後の課題 精度の向上 サービスの運用 まとめ
Center for Knowledge Structuring, The University of Tokyo. 32 ご清聴ありがとうございました 本研究で用いた地震に関するツイートデータは, 以下の URL から取得・利用できます.