Presentation is loading. Please wait.

Presentation is loading. Please wait.

東北大学電気・情報 東京フォーラム 2013年11月21日 ビッグデータから知をつむぐ 自然言語処理 ご紹介いただき 東北大学の

Similar presentations


Presentation on theme: "東北大学電気・情報 東京フォーラム 2013年11月21日 ビッグデータから知をつむぐ 自然言語処理 ご紹介いただき 東北大学の"— Presentation transcript:

1 乾 健太郎 東北大学 情報科学研究科 inui@ecei.tohoku.ac.jp
東北大学電気・情報 東京フォーラム 2013年11月21日 ビッグデータから知をつむぐ 自然言語処理 ご紹介いただき 東北大学の 本日はこのように講演の機会をいただき - 本日は「行間を読む」 大先生達のご講演、中休み 仙台に移って4年目 仙台の中でも様々なところから講演の依頼 形態素・構文解析器を知っている? 使ったことがある? ロボットと会話したことがある? 自然言語処理も大きく発展しつつあることを さてその自然言語処理ですが、東北大でも研究チームが少しずつ育ってきて 乾 健太郎 東北大学 情報科学研究科

2 コミュニケーション あらゆる社会活動の根幹 最も重要なメディアは 言語 (ことば)
さて、私たちは、毎日、家庭で、学校で、会社で、ネットで、さまざまな人とコミュニケーションしています。 コミュニケーションなしには そして、そのコミュニケーションでもっとも重要なメディアはやはり何と言っても言語です。 私たちは言語で この言葉によるコミュニケーションの形が大きく変わろうとしています

3 ソーシャルメディアの爆発的普及

4 言葉(=自然言語)で伝達される情報を 理解・検索・抽出・翻訳・整理・分析し、 地球規模のコミュニケーションを支援するソフトウェア技術
自然言語処理 人工知能 言葉がわかる賢いコンピュータを作る 言葉(=自然言語)で伝達される情報を 理解・検索・抽出・翻訳・整理・分析し、 地球規模のコミュニケーションを支援するソフトウェア技術 自然言語処理 こうした背景の中、本日のトピックであります、自然言語処理の役割が

5 言語意味解析による情報の編集 ウェブ・SNS 談話解析 情報検索 リンク解析 言語解析 情報・意見の整理・集約・可視化 知識獲得 意味解析
マスメディア 政府・会社 大学・ 研究機関 国民 談話解析 情報検索 リンク解析 言語解析 情報・意見の整理・集約・可視化 知識獲得 意味解析 デマ検出 信憑性分析 根拠検索 健康・危機管理 行動決定支援 アプリケーション 情報リテラシー 解析・集約 高度言語意味解析技術による ビッグデータの利活用 ウェブ・SNS

6 東北大学 自然言語処理研究室 研究スタッフ VACANT VACANT 乾健太郎 教授 岡崎直観 渡邉陽太郎 松林優一郎 水野淳太
研究員 募集中 VACANT 乾健太郎 教授 岡崎直観 准教授 渡邉陽太郎 助教 松林優一郎 特任助教 水野淳太 (NICT研究員) 井之上直也 研究員 C. Kruengkrai 研究員 スタッフ 大活躍、 カーペットのことじゃないですよ すばらしい人材を輩出していただいた情報理工には 研究生 博士 修士 学部

7 東北大学 自然言語処理研究室 2010年9月 言語処理学会 第16回年次大会 最優秀発表賞 2011年2月 CICLing-2011 Best Paper Award (First Place) 2011年3月 言語処理学会 2010年度 最優秀論文賞 2011年6月 日本経済新聞社 技術トレンド調査 総合3位 2011年9月 NLP若手の会 第6回シンポジウム 奨励賞 2012年5月 情報処理学会 自然言語処理研究会 学生奨励賞 2012年9月 情報処理学会 2012年度 山下記念研究賞 2012年9月 言語処理学会 第18回年次大会 優秀賞 2012年9月 NLP若手の会 第7回シンポジウム 奨励賞 2013年3月 東北大学 情報科学研究科長賞 2013年3月 情報処理学会 第75回全国大会 学生奨励賞 2013年3月 情報処理学会 東北支部 学生奨励賞 2013年9月 言語処理学会 第19回年次大会 優秀賞 まだ国内のものがほとんどですが、一定の評価をいただけるようになってきて、 仙台からも国内外に発信していきたいと思っています。 そういう意味でも今日のような機会をいただきましたことは大変ありがたいです。

8 ビッグデータと対話する自然言語処理 自然言語処理 話題① 知識の編集 知識の獲得 話題②

9 福島の桃 with NHK ツイートデータの解析例① 2013.9.8
ビッグデータ解析によるソーシャルリスニング ビッグデータ×自然言語処理 =新しいソーシャルリスニング ご紹介いただき 本日はこのように講演の機会をいただき - 形態素・構文解析器を知っている? 使ったことがある? ロボットと会話したことがある? 自然言語処理も大きく発展しつつあることを さてその自然言語処理ですが、東北大でも研究チームが少しずつ育ってきて

10 「福島産のモモを買うこと、食べること」に肯定的か否定的か
ツイート数の推移(肯定・否定別) 「福島産のモモを買うこと、食べること」に肯定的か否定的か 福島の桃は市場に出ているものはしっかりと調べられているので安全です!何よりこんな笑顔が素敵なおじちゃんおばちゃんの愛がつまってるのでめちゃめちゃ美味しいです! 肯定側ツイート 福島では山梨からトラックが桃を安値で買い占めに来ている。山梨産といっても安心はできない。 否定側ツイート

11 RTネットワーク RTネットワーク上で2つのクラスタ(グループ)に分離 反対の立場のツイートはあまりRTされない
リツイート 否定的な意見が強い 肯定的な意見が強い RTネットワーク上で2つのクラスタ(グループ)に分離 肯定・否定の推測結果に一致する 反対の立場のツイートはあまりRTされない 反対側のツイートは拡散させたいと思われない

12 肯定派・否定派はそれぞれムラを作っている 両者の意見交換は少ない → 風評対策の難しさ
肯定派・否定派はそれぞれムラを作っている 両者の意見交換は少ない → 風評対策の難しさ 人々の空気 これまでの取材や世論調査とは違う方法で

13 参議院選挙 with 朝日新聞 (2013年7月3日, 22日,26日 朝日新聞掲載)
ツイートデータの解析例② 参議院選挙 with 朝日新聞 (2013年7月3日, 22日,26日 朝日新聞掲載) ビッグデータ解析によるソーシャルリスニング ビッグデータ×自然言語処理 =新しいソーシャルリスニング ご紹介いただき 本日はこのように講演の機会をいただき - 形態素・構文解析器を知っている? 使ったことがある? ロボットと会話したことがある? 自然言語処理も大きく発展しつつあることを さてその自然言語処理ですが、東北大でも研究チームが少しずつ育ってきて

14 参議院選挙のツイート分析 ( 2013年7月3日 朝日新聞掲載)
分析内容 政策・政党名でツイートを検索し,日々のツイート数,関連語を分析 知見 ツイート総数が衆院選前と比べ 3割減(参院選への関心低い) 共産党に関するツイートが増加 維新の会のツイートは激減 ネット選挙に関連して,未成年 のリツイート問題が話題に 原発を含むツイートが依然多い

15 世の中の関心を自動的に掘り起こす ( 2013年7月26日 朝日新聞掲載)
分析内容         記者のフィルターを介さずに,ツイートから社会の論点・関心を抽出 結果と課題 「児童ポルノ禁止法改正案」「Jリーグの2ステージ制」など,新聞が取り上げていない話題を抽出 分析結果がそのまま新聞記事に掲載された 賛否を分離して数を出すことは出来なかった

16 信頼できる情報を 見分けるための支援 情報の「背景」の可視化 ビッグデータ解析によるソーシャルリスニング ビッグデータ×自然言語処理
=新しいソーシャルリスニング ご紹介いただき 本日はこのように講演の機会をいただき - 形態素・構文解析器を知っている? 使ったことがある? ロボットと会話したことがある? 自然言語処理も大きく発展しつつあることを さてその自然言語処理ですが、東北大でも研究チームが少しずつ育ってきて

17 言論マップ イソジンで被曝を防げる? 被曝を軽減するにはイゾジンがいい イソジンは被曝対策には使えません 質問 肯定 否定
東北大では、すでにこうした技術について成果を上げてきておりまして、 例えば、このシステムは、東日本大震災直後のツイートデータ、約2億ツイートのデータに対して 「イソジンで被曝を防げるか」のような質問をしますと、 肯定しているツイート、否定しているツイートを整理して、表示します。 「被曝を防げる」「被曝を軽減する」「被爆対策に使える、使えない」といった違った言い回しが認識できているところがポイントです。 イソジンは被曝対策には使えません 否定

18 平時の一般のトピックでも

19 同意・対立・根拠の認識 (Φが) コラーゲンをサプリメントで飲んでも、 Even when taken as a supplement,
事実性(モダリティ)解析 + 構造的アライメント + 関係パターン認識 対立意見の根拠 evidence of opposing opinion Collagen has beautiful skin effects. コラーゲンには美肌効果がある 肌を美しくする to beautify skin 美しい→きれい beautiful→pretty 美肌=肌を美しくする beautiful skin = to beautify skin 対立 conflict +存在 + existence − 存在 − existence (Φが) コラーゲンをサプリメントで飲んでも、 Even when taken as a supplement, 途中でアミノ酸に分解されてしまうので、 (collagen) ends up broken down into amino acids so, 肌をきれいにする効果は期待できません。 we cannot expect (collagen) to be effective at making skin pretty. 大量の知識をどうやって溜め込むか? 柔軟なアライメント,あるいは失敗を許す柔軟な定理証明 →学習による最適化 根拠 evidence

20 CICLing Best Paper Award(2011)
2017年2月27日 賛否によるネット情報の自動分析は世界初 言語処理学会 最優秀発表賞(2010) 言語処理学会 若手奨励賞(2010) CICLing Best Paper Award(2011) 日経新聞技術トレンド調査 総合3位(2011) 情報処理学会 山下記念研究賞(2012) これは世界的に見ても先進的な技術でありまして、国内外で高いの評価を得ております。 本研究ではこれを発展させて、防災情報の構造化を実現します。 乾健太郎

21 ウェブの情報の流れを変える 論理的な 言論空間 現在の Web空間 訂正情報 デマ まとめ 訂正情報 デマ まとめ 対立 批判 賛成 ①
_____ 対立 訂正情報 発信 デマ _____ 批判 賛成 まとめ _____ ハイパー リンク 訂正情報 デマ ハイパー リンク 現在の Web空間 まとめ

22 「裏を取る」を支援 対立 根拠 深海魚油 ソフトカプセル Deep sea Fish Oil Soft Capsules
あれ? ちがうのかぁ 深海魚油 ソフトカプセル ○○社によって製造された深海魚油のソフトカプセルです。... 主な成分であるω-3脂肪酸は,血液のより良い循環を促進し,高コレステロールの改善,血栓の防止,高血圧の改善,心臓の健康維持をサポートします。また、双極性障害,ADHDの改善に有効です。 Deep sea Fish Oil Soft Capsules [ロイター] 英国で行われた研究によると、魚油に含まれるオメガ3脂肪酸は、心臓の健康のためには良いが、脳の機能を高める効果はないという。ロンドン大学の研究者らが専門誌「アメリカン・ジャーナル・オブ・クリニカル... 魚油のオメガ3脂肪酸、頭を良くする効果ない=英研究 [独立行政法人 国立栄養研究所] 小児のADHDは血中DHAレベルの低さと関連があるが、 DHAは小児の注意欠陥多動性障害(ADHD)に対して、経口摂取で効果がないことが示唆されている。DHAを1日あたり345mg摂取しても改善はみられなかった... 健康食品データベース DHA.. 生活習慣をサポートする 『オメガ3脂肪酸 (後編)』 [サプマートUSA] ... ADHD、統合失調症、アルツハイマー疾患のような精神・認知に関する疾患を患う人は、血中のオメガ3脂肪酸レベルが低い人が多いことから、このような精神・認知に関係する疾患に対し、オメガ3脂肪酸は有効性が期待できます。... 「ω-3脂肪酸はADHDの改善に有効」 の対立ページ 「ω-3脂肪酸はADHDの改善に有効」 の根拠ページ 対立 根拠

23 その先の言語理解研究へ 「行間を読む」言語処理への挑戦

24 「行間を読む」 週末に母とやなぎに行ってみました。 私は評判のきつねうどんを頼んだのですが、期待通りの味に大満足。 うどん屋の名前 やなぎで
うどんを食べるために 私はうどんを食べた やなぎで うどんが美味しいと きつねうどんの

25 庭に洗濯物を干したとたんに雨が降ってきた
乾 ・岡崎 研究室 「行間を読む」 常識に基づく推論 庭に洗濯物を干したとたんに雨が降ってきた ガッカリ 庭に洗濯物を干す 雨が降る こうした行間を読む、深い言語理解はまだほとんど何もできていません 常識的な 知識 〈洗濯物を干す〉 〈洗濯物を乾かす〉 目的 〈晴れ〉 〈洗濯物が乾く〉 条件

26 大問題! 膨大な知識をどうやって集めるか 言葉の理解に必要な知識 「洗濯物を干す」目的は「洗濯物を乾かす」こと
「洗濯物が乾く」条件は「晴れている」こと 「うどん」は,「レストラン(うどん屋)で食べる」 「(料理を)注文する」ことを「頼む」とも言う 「レストラン」では,「料理を注文」して,しばらく すると料理が「出て」きて,それを「食べる」

27 常識もビッグデータから集める 天気が良い(晴れる) → 洗濯物がよく乾く 天気が良いので,洗濯物がよく乾く
最近,晴れが続いているので,洗濯物がよく乾く 日が当たらないので,洗濯物が乾くのもままならず お天気は晴れマークが多かったから,洗濯物が乾く 湿度はなかったから,洗濯物が乾く 今日は,空気が乾燥していて,洗濯物がよく乾く 梅雨空が続いたため,洗濯ものが乾かず 天気が良い(晴れる) → 洗濯物がよく乾く

28 「行間を読む」仮説推論 ∪ = | 母とやなぎに行った。 評判のきつねうどんを頼んだ。 y=w w=v 評判(z) 食べる(x, z) 仮説
背景知識 「何かを食べる」には「飲食店に行って、それを注文」すればよい 「(店で)注文する」ことを「頼む」とも言う 「ある食べ物が評判」なら「それを食べたい」と思う B 背景知識 O 観測 H 仮説 | = 食べる(x, z) → 飲食店(w) ∧ 行く(x, w) ∧ 注文する(x, z, w) ③ 言語処理への応用: NLP若手の会 奨励賞 (2011) 注文する(x, z, w) → 頼む(x, z, w) 評判(z) → 食べる(x, z) 評判(z) ① 世界最速の推論エンジン 7分(US) → 3秒(東北大) 情報処理学会 山下記念賞 (2012) 言語処理学会 年次大会優秀賞 (2012) 評判だから食べに行った 食べる(x, z) きつねうどんを食べた ② 仮説の評価関数の学習(世界初) NLP若手の会 奨励賞 (2012) 自然言語処理研究会 学生奨励賞 (2012) IBIS 2012 Honorable Mention (2012) 仮説 飲食店(w) 注文する(x, z, w) 食べる目的 で行った 「頼む」= やなぎで注文する やなぎ=飲食店 y=w w=v 観測 私(x) ∧ やなぎ(y) ∧ 行く(x, y) ∧ きつねうどん(z) ∧ 頼む(x, z, v) ∧ 評判(z) 母とやなぎに行った。  評判のきつねうどんを頼んだ。

29 (S1: A lot of traffic once used Folsom Dam Road. )
S2: Right now, the road is closed. S3: Most of the people who used the road every day are angry.

30 ま と め グーテンベルク以来の情報爆発 地球規模のコミュニケーションの支援へ 鍵は自然言語処理による情報・知識編集
ソーシャルリスニングとメディエーション 言語処理技術自身もビッグデータで飛躍 「行間を読む」言語処理は知識×推論 言語処理から人工知能にブレークスルーを


Download ppt "東北大学電気・情報 東京フォーラム 2013年11月21日 ビッグデータから知をつむぐ 自然言語処理 ご紹介いただき 東北大学の"

Similar presentations


Ads by Google