東北大学電気・情報 東京フォーラム 2013年11月21日 ビッグデータから知をつむぐ 自然言語処理 ご紹介いただき 東北大学の

Slides:



Advertisements
Similar presentations
屋敷公民館 公共施設説明会におけ る 会場での質問・意見 1. ● アンケートには、「機能統合に賛成し、施設を新しくした方がよい」というところ に ○ をつけた。 ● 総合的なことはよく理解できたが、駐車場について触れていない気がする。違う資 料によると、勤労会館寄りの方に計画されているが、かなりの距離があると思う。公.
Advertisements

平成 15 年度エネルギー教育調査普及事業 研究活動報告 名古屋工業大学エネルギー教育研究会 高校生のエネルギー・環境についての 意識に関するアンケート調査 高校生のエネルギー・環境についての意識に関するアンケート調査.
第34回安全工学シンポジウム, 日本学術会議, 安全知の体系化
第1節 問題解決の工夫 1 情報を活用しよう 2 問題解決の工夫.
W e b 2.0 メディアコミュニケーション論Ⅲ 第4回.
ウェブの時空間解析技術 東京大学生産技術研究所 戦略情報融合国際研究センター 成果概要 ウェブアーカイブ ウェブ空間解析 ウェブ時系列解析
プログラマのレベルアップ.
脱・受容人 【人と地球が泣いている】 高崎経済大学 経済学部 経営学科 関根ゼミナール 経営戦略A班 
今の投票率はどれくらい? 「投票率が低いとどうなるか」 直近に行われた東京都での各選挙の投票率 1 衆院選 参院選 都知事選 都議選
われらクリーン調査隊 きみたちが 今日から調査隊だ!.
子ども達への科学実験教室の運営方法論 -環境NGO「サイエンスEネット」の活動事例をとおして- 川村 康文
メ デ ィ ア ・ リ テ ラ シ ー.
どうしてメタボは       なくならないのか? メタボって 最低よね?❤ えっ!!?.
座 席 表(CP教室) 出席番号.
ワークシート6 社会科.
教育心理学 学習と認知プロセス 伊藤 崇 北海道大学大学院教育学研究院.
テキストから獲得可能な因果関係知識の類別 およびその自動獲得の試み -接続助詞「ため」を含む文を中心に-
Webネットワークにおける 研究者間の分析
環境教育用E-Learningシステム の開発 平成19年度環境教育実践専修構想発表会 環境教育実践専修 鵜川研究室 彭艶萍
まめまめフーズ(有) アレルギー対策食品の自社開発・販売 角田 健治   佐竹 亜沙美   松崎 敦志   高味 良樹.
重点目標 ことばを 大切にし  共に高まろう 受信→熟考→発信.
新しい環境行動のスタイル 環境市民「グリーンコンシューマーガイド」から
経済データのダウンロードと グラフの作成 経済データ解析 2011年度.
自治体における震災アーカイブとは 東北大学災害科学国際研究所 災害アーカイブ研究分野 柴山明寛 東北大学災害科学国際研究所.
14回. まとめ 情報のまとめかた DBの利用 情報検索の留意点 情報検索と情報収集 68 基礎知識の必要性 68
メ デ ィ ア ・ リ テ ラ シ ー 情報社会と情報倫理 第2回.
自然災害と気象情報 自然がおこす災害には、どんなものがあるだろうか? 台風 こう水 大雪 かみなり つ波 たつまき 地震
SS2009 形式手法の適用ワーキング グループの報告
ま と め メディアコミュニケーション論Ⅲ 第15回.
環境の世紀17  第13回 駒場の電気を考える.
ヘルスプロモーションのための ヘルスリテラシーと 聖路加看護大学『看護ネット』
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
火山噴火時の災害軽減行動のための 学術情報の 伝達・発信ルールの検討
東京大学空間情報科学研究センターを 中心とした空間情報データベースの整備
2004年度 サマースクール in 稚内 JavaによるWebアプリケーション入門
2003年度 データベース論 安藤 友晴.
4.生活習慣病と日常の生活行動 PET/CT検査の画像 素材集-生活習慣病 「がん治療の総合情報センターAMIY」 PET/CT検査の画像
経済データのダウンロードと グラフの作成 経済データ解析 2009年度.
環境リスクマネジメントに関する 検索システム
卒論の書き方: 参考文献について 2017年9月27日 小尻智子.
只見町 インターネット・エコミュージアムの「キーワード」検索の改善
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
ソフトウェア設計検証 研究室の紹介 知能情報学部 准教授 新田直也.
リーダーの役割 総合政策学部3年 鋤先麻美 環境情報学部3年 生田目啓
中級日本語 第 10 課  天気のことわざを考える 吉林華橋外国語学院 日本語学部 製作.
Webネットワークにおける 研究者間の分析
(1)序論 人工知能とは 歴史 方法論 人工知能の基礎 問題解決 探索 推論 知識.
単元の学習地図で目指す「深い学び」 ~「知識の構造化」の視点を取り入れた学習~
早稲田大学大学院 基幹理工学研究科 情報理工学専攻 後藤研究室 修士1年 魏 元
『組織の限界』 第1章 個人的合理性と社会的合理性 前半
コンピュータにログイン 第1章 コンピュータにログイン 啓林館 情報A最新版 (p.6-13)
地域ベンチャー留学 【成果報告会】 横浜国立大学経営学部2年 熊谷ほのか.
~求められる新しい経営観~ 経済学部 渡辺史門
理論研究:言語文化研究 担当:細川英雄.
我が国の自殺死亡の推移 率を実数で見ると: 出典:警察庁「自殺の概要」
西田関係の受賞 参考; ・wiki UEI
Webからの 人間関係ネットワークの抽出と 情報支援
優生思想とデフコミュニティ.
先進予防医学共同専攻臨床疫学 臨床疫学とは 現在の取り組みと成果 研究材料・手法 未来のあるべき医療を見つめて改革の手法を研究します。 特徴
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
4919(食育)for Ikoma 防災 減災 少子 高齢 産業 創出 4919(食育)for Ikoma 誕生のキッカケ
自然言語処理2015 Natural Language Processing 2015
Googleマップを活用した 生物調査データベースの構築
仮説演繹法 思考 経験 問題 : あるべき姿と現状のギャップ 課題 : 問題解決のために成すべきこと 問題 19世紀 あるべき姿(予想)
自然言語処理2016 Natural Language Processing 2016
ソーシャルコミュニケーション研究室 仲谷 善雄.
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
オープンアクセスウィーク? どうやってOAにする? 自分ができることは何? 日本の大学・研究機関では? それでオープンアクセスって?
資料 1 コンテンツの 取引市場形成について ~データベース議論の概観と、議論の進め方について ~
Presentation transcript:

乾 健太郎 東北大学 情報科学研究科 inui@ecei.tohoku.ac.jp 東北大学電気・情報 東京フォーラム 2013年11月21日 ビッグデータから知をつむぐ 自然言語処理 ご紹介いただき 東北大学の 本日はこのように講演の機会をいただき - 本日は「行間を読む」 大先生達のご講演、中休み 仙台に移って4年目 仙台の中でも様々なところから講演の依頼 形態素・構文解析器を知っている? 使ったことがある? ロボットと会話したことがある? 自然言語処理も大きく発展しつつあることを さてその自然言語処理ですが、東北大でも研究チームが少しずつ育ってきて 乾 健太郎 東北大学 情報科学研究科 inui@ecei.tohoku.ac.jp

コミュニケーション あらゆる社会活動の根幹 最も重要なメディアは 言語 (ことば) さて、私たちは、毎日、家庭で、学校で、会社で、ネットで、さまざまな人とコミュニケーションしています。 コミュニケーションなしには そして、そのコミュニケーションでもっとも重要なメディアはやはり何と言っても言語です。 私たちは言語で この言葉によるコミュニケーションの形が大きく変わろうとしています

ソーシャルメディアの爆発的普及 http://internet.watch.impress.co.jp/docs/event/itweek12/20120511_532162.html

言葉(=自然言語)で伝達される情報を 理解・検索・抽出・翻訳・整理・分析し、 地球規模のコミュニケーションを支援するソフトウェア技術 自然言語処理 人工知能 言葉がわかる賢いコンピュータを作る 言葉(=自然言語)で伝達される情報を 理解・検索・抽出・翻訳・整理・分析し、 地球規模のコミュニケーションを支援するソフトウェア技術 自然言語処理 こうした背景の中、本日のトピックであります、自然言語処理の役割が

言語意味解析による情報の編集 ウェブ・SNS 談話解析 情報検索 リンク解析 言語解析 情報・意見の整理・集約・可視化 知識獲得 意味解析 マスメディア 政府・会社 大学・ 研究機関 国民 談話解析 情報検索 リンク解析 言語解析 情報・意見の整理・集約・可視化 知識獲得 意味解析 デマ検出 信憑性分析 根拠検索 健康・危機管理 行動決定支援 アプリケーション 情報リテラシー 解析・集約 高度言語意味解析技術による ビッグデータの利活用 ウェブ・SNS

東北大学 自然言語処理研究室 研究スタッフ VACANT VACANT 乾健太郎 教授 岡崎直観 渡邉陽太郎 松林優一郎 水野淳太 研究員 募集中 VACANT 乾健太郎 教授 岡崎直観 准教授 渡邉陽太郎 助教 松林優一郎 特任助教 水野淳太 (NICT研究員) 井之上直也 研究員 C. Kruengkrai 研究員 スタッフ 大活躍、 カーペットのことじゃないですよ すばらしい人材を輩出していただいた情報理工には 研究生 博士 修士 学部

東北大学 自然言語処理研究室 2010年9月 言語処理学会 第16回年次大会 最優秀発表賞 2011年2月 CICLing-2011 Best Paper Award (First Place) 2011年3月 言語処理学会 2010年度 最優秀論文賞 2011年6月 日本経済新聞社 技術トレンド調査 総合3位 2011年9月 NLP若手の会 第6回シンポジウム 奨励賞 2012年5月 情報処理学会 自然言語処理研究会 学生奨励賞 2012年9月 情報処理学会 2012年度 山下記念研究賞 2012年9月 言語処理学会 第18回年次大会 優秀賞 2012年9月 NLP若手の会 第7回シンポジウム 奨励賞 2013年3月 東北大学 情報科学研究科長賞 2013年3月 情報処理学会 第75回全国大会 学生奨励賞 2013年3月 情報処理学会 東北支部 学生奨励賞 2013年9月 言語処理学会 第19回年次大会 優秀賞 まだ国内のものがほとんどですが、一定の評価をいただけるようになってきて、 仙台からも国内外に発信していきたいと思っています。 そういう意味でも今日のような機会をいただきましたことは大変ありがたいです。

ビッグデータと対話する自然言語処理 自然言語処理 話題① 知識の編集 知識の獲得 話題②

福島の桃 with NHK ツイートデータの解析例① 2013.9.8 ビッグデータ解析によるソーシャルリスニング ビッグデータ×自然言語処理 =新しいソーシャルリスニング ご紹介いただき 本日はこのように講演の機会をいただき - 形態素・構文解析器を知っている? 使ったことがある? ロボットと会話したことがある? 自然言語処理も大きく発展しつつあることを さてその自然言語処理ですが、東北大でも研究チームが少しずつ育ってきて http://www.youtube.com/watch?v=RwIjlqDVNdg 2013.9.8

「福島産のモモを買うこと、食べること」に肯定的か否定的か ツイート数の推移(肯定・否定別) 「福島産のモモを買うこと、食べること」に肯定的か否定的か 福島の桃は市場に出ているものはしっかりと調べられているので安全です!何よりこんな笑顔が素敵なおじちゃんおばちゃんの愛がつまってるのでめちゃめちゃ美味しいです! 肯定側ツイート 福島では山梨からトラックが桃を安値で買い占めに来ている。山梨産といっても安心はできない。 否定側ツイート

RTネットワーク RTネットワーク上で2つのクラスタ(グループ)に分離 反対の立場のツイートはあまりRTされない リツイート 否定的な意見が強い 肯定的な意見が強い RTネットワーク上で2つのクラスタ(グループ)に分離 肯定・否定の推測結果に一致する 反対の立場のツイートはあまりRTされない 反対側のツイートは拡散させたいと思われない

肯定派・否定派はそれぞれムラを作っている 両者の意見交換は少ない → 風評対策の難しさ 肯定派・否定派はそれぞれムラを作っている 両者の意見交換は少ない → 風評対策の難しさ 人々の空気 これまでの取材や世論調査とは違う方法で

参議院選挙 with 朝日新聞 (2013年7月3日, 22日,26日 朝日新聞掲載) ツイートデータの解析例② 参議院選挙 with 朝日新聞 (2013年7月3日, 22日,26日 朝日新聞掲載) ビッグデータ解析によるソーシャルリスニング ビッグデータ×自然言語処理 =新しいソーシャルリスニング ご紹介いただき 本日はこのように講演の機会をいただき - 形態素・構文解析器を知っている? 使ったことがある? ロボットと会話したことがある? 自然言語処理も大きく発展しつつあることを さてその自然言語処理ですが、東北大でも研究チームが少しずつ育ってきて

参議院選挙のツイート分析 ( 2013年7月3日 朝日新聞掲載) 分析内容 政策・政党名でツイートを検索し,日々のツイート数,関連語を分析 知見 ツイート総数が衆院選前と比べ 3割減(参院選への関心低い) 共産党に関するツイートが増加 維新の会のツイートは激減 ネット選挙に関連して,未成年 のリツイート問題が話題に 原発を含むツイートが依然多い

世の中の関心を自動的に掘り起こす ( 2013年7月26日 朝日新聞掲載) 分析内容         記者のフィルターを介さずに,ツイートから社会の論点・関心を抽出 結果と課題 「児童ポルノ禁止法改正案」「Jリーグの2ステージ制」など,新聞が取り上げていない話題を抽出 分析結果がそのまま新聞記事に掲載された 賛否を分離して数を出すことは出来なかった

信頼できる情報を 見分けるための支援 情報の「背景」の可視化 ビッグデータ解析によるソーシャルリスニング ビッグデータ×自然言語処理 =新しいソーシャルリスニング ご紹介いただき 本日はこのように講演の機会をいただき - 形態素・構文解析器を知っている? 使ったことがある? ロボットと会話したことがある? 自然言語処理も大きく発展しつつあることを さてその自然言語処理ですが、東北大でも研究チームが少しずつ育ってきて

言論マップ イソジンで被曝を防げる? 被曝を軽減するにはイゾジンがいい イソジンは被曝対策には使えません 質問 肯定 否定 東北大では、すでにこうした技術について成果を上げてきておりまして、 例えば、このシステムは、東日本大震災直後のツイートデータ、約2億ツイートのデータに対して 「イソジンで被曝を防げるか」のような質問をしますと、 肯定しているツイート、否定しているツイートを整理して、表示します。 「被曝を防げる」「被曝を軽減する」「被爆対策に使える、使えない」といった違った言い回しが認識できているところがポイントです。 イソジンは被曝対策には使えません 否定

平時の一般のトピックでも

同意・対立・根拠の認識 (Φが) コラーゲンをサプリメントで飲んでも、 Even when taken as a supplement, 事実性(モダリティ)解析 + 構造的アライメント + 関係パターン認識 対立意見の根拠 evidence of opposing opinion Collagen has beautiful skin effects. コラーゲンには美肌効果がある 肌を美しくする to beautify skin 美しい→きれい beautiful→pretty 美肌=肌を美しくする beautiful skin = to beautify skin 対立 conflict +存在 + existence − 存在 − existence (Φが) コラーゲンをサプリメントで飲んでも、 Even when taken as a supplement, 途中でアミノ酸に分解されてしまうので、 (collagen) ends up broken down into amino acids so, 肌をきれいにする効果は期待できません。 we cannot expect (collagen) to be effective at making skin pretty. 大量の知識をどうやって溜め込むか? 柔軟なアライメント,あるいは失敗を許す柔軟な定理証明 →学習による最適化 根拠 evidence

CICLing Best Paper Award(2011) 2017年2月27日 賛否によるネット情報の自動分析は世界初 言語処理学会 最優秀発表賞(2010) 言語処理学会 若手奨励賞(2010) CICLing Best Paper Award(2011) 日経新聞技術トレンド調査 総合3位(2011) 情報処理学会 山下記念研究賞(2012) これは世界的に見ても先進的な技術でありまして、国内外で高いの評価を得ております。 本研究ではこれを発展させて、防災情報の構造化を実現します。 乾健太郎

ウェブの情報の流れを変える 論理的な 言論空間 現在の Web空間 訂正情報 デマ まとめ 訂正情報 デマ まとめ 対立 批判 賛成 ① _____ 対立 訂正情報 発信 デマ _____ 批判 賛成 まとめ ④ _____ ① ② ③ ハイパー リンク 訂正情報 デマ ハイパー リンク 現在の Web空間 まとめ

「裏を取る」を支援 対立 根拠 深海魚油 ソフトカプセル Deep sea Fish Oil Soft Capsules あれ? ちがうのかぁ 深海魚油 ソフトカプセル ○○社によって製造された深海魚油のソフトカプセルです。... 主な成分であるω-3脂肪酸は,血液のより良い循環を促進し,高コレステロールの改善,血栓の防止,高血圧の改善,心臓の健康維持をサポートします。また、双極性障害,ADHDの改善に有効です。 Deep sea Fish Oil Soft Capsules [ロイター] 英国で行われた研究によると、魚油に含まれるオメガ3脂肪酸は、心臓の健康のためには良いが、脳の機能を高める効果はないという。ロンドン大学の研究者らが専門誌「アメリカン・ジャーナル・オブ・クリニカル... 魚油のオメガ3脂肪酸、頭を良くする効果ない=英研究 [独立行政法人 国立栄養研究所] 小児のADHDは血中DHAレベルの低さと関連があるが、 DHAは小児の注意欠陥多動性障害(ADHD)に対して、経口摂取で効果がないことが示唆されている。DHAを1日あたり345mg摂取しても改善はみられなかった... 健康食品データベース DHA.. 生活習慣をサポートする 『オメガ3脂肪酸 (後編)』 [サプマートUSA] ... ADHD、統合失調症、アルツハイマー疾患のような精神・認知に関する疾患を患う人は、血中のオメガ3脂肪酸レベルが低い人が多いことから、このような精神・認知に関係する疾患に対し、オメガ3脂肪酸は有効性が期待できます。... 「ω-3脂肪酸はADHDの改善に有効」 の対立ページ 「ω-3脂肪酸はADHDの改善に有効」 の根拠ページ 対立 根拠

その先の言語理解研究へ 「行間を読む」言語処理への挑戦

「行間を読む」 週末に母とやなぎに行ってみました。 私は評判のきつねうどんを頼んだのですが、期待通りの味に大満足。 うどん屋の名前 やなぎで うどんを食べるために 私はうどんを食べた やなぎで うどんが美味しいと きつねうどんの

庭に洗濯物を干したとたんに雨が降ってきた 乾 ・岡崎 研究室 「行間を読む」 常識に基づく推論 庭に洗濯物を干したとたんに雨が降ってきた ガッカリ 庭に洗濯物を干す 雨が降る こうした行間を読む、深い言語理解はまだほとんど何もできていません 常識的な 知識 〈洗濯物を干す〉 〈洗濯物を乾かす〉 目的 〈晴れ〉 〈洗濯物が乾く〉 条件

大問題! 膨大な知識をどうやって集めるか 言葉の理解に必要な知識 「洗濯物を干す」目的は「洗濯物を乾かす」こと 「洗濯物が乾く」条件は「晴れている」こと 「うどん」は,「レストラン(うどん屋)で食べる」 「(料理を)注文する」ことを「頼む」とも言う 「レストラン」では,「料理を注文」して,しばらく すると料理が「出て」きて,それを「食べる」

常識もビッグデータから集める 天気が良い(晴れる) → 洗濯物がよく乾く 天気が良いので,洗濯物がよく乾く 最近,晴れが続いているので,洗濯物がよく乾く 日が当たらないので,洗濯物が乾くのもままならず お天気は晴れマークが多かったから,洗濯物が乾く 湿度はなかったから,洗濯物が乾く 今日は,空気が乾燥していて,洗濯物がよく乾く 梅雨空が続いたため,洗濯ものが乾かず 天気が良い(晴れる) → 洗濯物がよく乾く

「行間を読む」仮説推論 ∪ = | 母とやなぎに行った。 評判のきつねうどんを頼んだ。 y=w w=v 評判(z) 食べる(x, z) 仮説 背景知識 「何かを食べる」には「飲食店に行って、それを注文」すればよい 「(店で)注文する」ことを「頼む」とも言う 「ある食べ物が評判」なら「それを食べたい」と思う B 背景知識 O 観測 H 仮説 ∪ | = 食べる(x, z) → 飲食店(w) ∧ 行く(x, w) ∧ 注文する(x, z, w) ③ 言語処理への応用: NLP若手の会 奨励賞 (2011) 注文する(x, z, w) → 頼む(x, z, w) 評判(z) → 食べる(x, z) 評判(z) ① 世界最速の推論エンジン 7分(US) → 3秒(東北大) 情報処理学会 山下記念賞 (2012) 言語処理学会 年次大会優秀賞 (2012) 評判だから食べに行った 食べる(x, z) きつねうどんを食べた ② 仮説の評価関数の学習(世界初) NLP若手の会 奨励賞 (2012) 自然言語処理研究会 学生奨励賞 (2012) IBIS 2012 Honorable Mention (2012) 仮説 飲食店(w) 注文する(x, z, w) 食べる目的 で行った 「頼む」= やなぎで注文する やなぎ=飲食店 y=w w=v 観測 私(x) ∧ やなぎ(y) ∧ 行く(x, y) ∧ きつねうどん(z) ∧ 頼む(x, z, v) ∧ 評判(z) 母とやなぎに行った。  評判のきつねうどんを頼んだ。

(S1: A lot of traffic once used Folsom Dam Road. ) S2: Right now, the road is closed. S3: Most of the people who used the road every day are angry.

ま と め グーテンベルク以来の情報爆発 地球規模のコミュニケーションの支援へ 鍵は自然言語処理による情報・知識編集 ソーシャルリスニングとメディエーション 言語処理技術自身もビッグデータで飛躍 「行間を読む」言語処理は知識×推論 言語処理から人工知能にブレークスルーを