<日本語教育とAI:研究実践例と今後の課題 > 読解支援システムへのAI活用の可能性と留意点

Slides:



Advertisements
Similar presentations
多言語版「チュウ太の web 辞 書」を用いた語彙学習 川村よし子 東京国際大学 共同研究者 金庭久美子・前田ジョイス・保原麗・川村ヒ サオ 各言語版辞書編集グループ.
Advertisements

英作文支援システムの 構築に関する研究 平成 15 年 11 月 18 日 ( 火 ) A1 グループ M2 永易 稔 中間発表.
日本語 WWW 情報を用いた COCET3300 英単語学習支援に関する研究 情報・知能工学専攻 博士前期課程2年 渡邉 雄大 指導教員 河合 和久.
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
オートデスク・コラボレーション・サービス オートデスク株式会社
東京工科大学 コンピュータサイエンス学部 亀田弘之
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
最大エントロピーモデルに基づく形態素解析と辞書による影響
「わかりやすいパターン認識」 第1章:パターン認識とは
ヘルスケア連動型 市販薬検索システム 研究者 : 加納 えり 指導教員 : 越田 高志.
ICT時代の漢字・語彙教育への一提言 川村よし子(東京国際大学)
Twitterの発言に基づくウェブページ推薦システム
言語体系とコンピュータ 第5回.
国内線で新千歳空港を利用している航空会社はどこですか?
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
情報学類 吉田光男 アドバイザー教官: 山本幹雄 先生
JavaによるCAI学習ソフトウェアの開発
Fiery Color Profiler Suite v4.7
オンライン英単語・リスニング 学習ソフト 佐々木研究室 N02k1114 北隅 麻実.
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
実験 関数・記号付き文型パターンを用いた機械翻訳の試作と評価 石上真理子 水田理夫 徳久雅人 村上仁一 池原悟 (鳥取大) ◎評価方法1
2 プログラムの基本 本時のねらい 「① プロラムのはたらきを知ろう。」 「② 仕事の流れを図に表そう。」
欧州評議会から外国語教室にいた るまで…『言語・文化への多元的ア プローチ』への長い道のり (1)
逆引き辞書の作成を可能にする 対訳辞書編集システムの構築
テキストマイニング, データマイニングと 社会活動のトレース
インターネットを使った日本語教育 川村よし子(東京国際大学)
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
部分形態素解析を用いた コーパスの品詞体系変換
4Y-4 印象に残りやすい日本語パスワードの合成法
共同ローカリゼーション フレームワーク 井上 謙次.
東京工科大学 コンピュータサイエンス学部 亀田弘之
図書館ツール発想日記 ~「東京大学内のサイトから関連学術用語のデータを得る」(仮称)システムへの寄り道思考経路~
形態素解析および係り受け解析・主語を判別
DixChange プロジェクト ~辞書共通化の試み~
『談話研究と日本語教育の有機的統合のための
日本語読解支援システム 『リーディング・チュウ太』の 難易度判定ツール
2011年6月24日(金) 於 名桜大学言語学習センター 国際学群 伊藤孝行
日本語解析済みコーパス管理ツール 「茶器」
C-2 導入プレゼン1 国際交流って何?.
平成22年6月15日 図書系職員のための アプリケーション開発講習会
日本言語政策学会第7回大会 2005年11月19日(京都大学) 西山教行(京都大学)
自然言語処理及び実習 第11回 形態素解析.
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
複数の言語情報を用いたCRFによる音声認識誤りの検出
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への 簡易ナビゲーションシステム-
大規模データによる未知語処理を統合したスケーラブルな仮名漢字変換
東京工科大学 コンピュータサイエンス学部 亀田弘之
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
『談話研究と日本語教育の有機的統合のための
海外のお客様とのコミュニケーションが可能!
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
中京大学 情報理工学部 情報知能学科 H 中畑 淳貴 H 堀田 将克
音声認識・翻訳 Android アプリケーション制作
テキストマイニング, データマイニングと 社会活動のトレース
東京工科大学 コンピュータサイエンス学部 亀田弘之
早稲田大学大学院 基幹理工学研究科 情報理工学専攻 後藤研究室 修士1年 魏 元
東京工科大学 コンピュータサイエンス学部 亀田弘之
  JSTChina         中国文献データベース.
東京工科大学 コンピュータサイエンス学部 亀田弘之
論文のタイトル 言語 単語数 音節数 日本語 英語 韓国語 インドネシア語
大規模コーパスに基づく同義語・多義語処理
自然言語処理2015 Natural Language Processing 2015
第7回 Q&A メール講座 Next Stage:翻訳力アップ自己トレ(1)
シソーラス情報を用いた童話文章登場人物の 感情情報読み取りシステム
形態素解析と構文解析 金子邦彦.
自然言語処理2016 Natural Language Processing 2016
mi-8. 自然言語処理 人工知能を演習で学ぶシリーズ(8)
識別子の読解を目的とした名詞辞書の作成方法の一試案
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
Presentation transcript:

<日本語教育とAI:研究実践例と今後の課題 > 読解支援システムへのAI活用の可能性と留意点 東京国際大学 川村よし子 

読解支援システムへのAI活用の可能性と留意点 はじめに 1.読解支援システムと自然言語処理技術 2.『リーディング・チュウ太』 3.『チュウ太のWeb辞書』 4.『チュウ太のやさしくなーれ』 5.AI活用の可能性と留意点

はじめに はじめに ☆AI(人工知能)とは? HAL=AI ELIZAは? Google Tranlsateは?

1.読解支援システムと自然言語処理技術 共通している自然言語処理技術:形態素解析 1998年 Web上にある膨大な量の日本語情報      日本語教育や自律学習の教材として活用可能 読解学習支援システム『リーディング・チュウ太』 辞書ツールの多言語化:『チュウ太のWeb辞書』 共生社会への対応: 『チュウ太のやさしくなーれ』 共通している自然言語処理技術:形態素解析

2.『リーディング・チュウ太』 ⇒日本語の文章の分析には形態素解析が不可欠 読みたい文章を入力すれば、本文中の全ての単語の  読みたい文章を入力すれば、本文中の全ての単語の  辞書引きやレベル判定が自動で行える ◎辞書ツール    入力された文章⇒形態素解析Chasen⇒辞書と照合     結果画面:本文中の単語と辞書情報がリンク     学習履歴:「あなたの単語リスト」を自動生成  ◎レベル判定ツール    入力された文章⇒形態素解析Chasen⇒単語リストと照合     結果画面:本文中の単語や漢字の難易度レベルを表示  ⇒日本語の文章の分析には形態素解析が不可欠

「形態素解析」を活用する際の工夫と留意点 ・読みが複数ある場合   ⇒Chasenの読み情報をすべて出すことで対応 ・意味が複数ある場合   ⇒辞書情報をすべて出すことで対応    (辞書ツールは翻訳ツールではない) ・形態素解析の誤解析(解析精度は98.5%)   ⇒Chasenが解析に用いている形態素辞書に依存           

・形態素解析の誤解析(解析精度は98.5%)   Chasenが解析に用いている形態素辞書に依存    例1:語彙的複合動詞は1語扱い       (押し出す・取り乱す・気が付く etc.)     ⇒辞書に当該語がなければ、表示不能      ⇒レベル分けリストになければ「級外」    例2:「締約国会議」⇒「締約+国会+議」     ⇒単語ごとの重みづけを変更して対応    例3:「行った」⇒「行う+た」     ⇒プログラムで前接助詞とセットにして対応   平仮名の「べた書き」は苦手     ⇒利用の際は、できるだけ漢字かな交じり文を入力      

3.『チュウ太のWeb辞書』 多言語版の辞書ツール 読みたい文章を入力すれば、本文中の全ての 単語の辞書引きが自動で行える仕組み    読みたい文章を入力すれば、本文中の全ての     単語の辞書引きが自動で行える仕組み 文章⇒形態素解析MeCab⇒辞書と照合 本文中の単語と辞書情報がリンク 意味ごとに例文も表示 「あなたの単語リスト」作成 (復習が可能) 複数言語版の辞書を同時表示可能 ふりがな機能も搭載

「チュウ太のWeb辞書」の 多言語辞書編集チーム 対訳辞書編集チーム 25言語 (編集完了語数順)    ロシア語 英語 スロヴェニア語 ハンガリー語   ベトナム語 トルコ語 ブルガリア語 中国語 韓国語          タイ語  ポルトガル語  スペイン語  チェコ語     ドイツ語  キルギス語  マレー語  マラティ語   スロヴァキア語 ルーマニア語 フランス語  イタリア語  フィンランド語 インドネシア語 タガログ語 アラビア語                   (2018年3月22日現在)

ミニ辞書も搭載 ☆ニーズ:簡易版でもいいので早く欲しい ・1語1訳の形のミニ辞書を作成 ・旧 『日本語能力試験出題基準』の語彙:8,600語   ・1語1訳の形のミニ辞書を作成   ・旧 『日本語能力試験出題基準』の語彙:8,600語    ・ミニ辞書が完成した言語     インドネシア語・タガログ語・英語・スペイン語・タイ語     中国語(簡体字・繁体字)・韓国語・クロアチア語   ・ミニ辞書編集中の言語     ルーマニア語・フィンランド語・アルメニア語

『チュウ太のWeb辞書』の結果画面

ふりがな機能を使った結果画面

  「MeCab」を活用する際の工夫と留意点 ・ 意味が複数ある場合    ⇒辞書情報をすべて出すことで対応 ・ 読みが複数ある場合    ⇒辞書情報に複数の読みを併記することで対応 ・ 形態素解析の誤解析    解析精度を上げるための工夫    ⇒MeCab辞書に単語を追加できる仕組みを搭載       例: 単語:  うがい・ペットボトル・人件費          複合語:  好奇心・一方的・かっこ悪い          専門用語: 清拭・解毒剤・認知症    但し、ひらがなのべた書きは極めて低い解析精度 。        

  「MeCab」を活用する際の工夫と留意点 ・ 意味が複数ある場合    ⇒辞書情報をすべて出すことで対応 ・ 読みが複数ある場合    ⇒辞書情報に複数の読みを併記することで対応 ・ 形態素解析の誤解析    解析精度を上げるための工夫    ⇒MeCab辞書に単語を追加できる仕組みを搭載       例: 単語:  うがい・ペットボトル・人件費          複合語:  好奇心・一方的・かっこ悪い          専門用語: 清拭・解毒剤・認知症    但し、ひらがなのべた書きは極めて低い解析精度 にっぽんでは、さかなをなまのままたべるさしみやすしなどはにんきのあるりょうりです。        

Mecabの 解析結果

  「MeCab」を活用する際の工夫と留意点 ・ 意味が複数ある場合    ⇒辞書情報をすべて出すことで対応 ・ 読みが複数ある場合    ⇒辞書情報に複数の読みを併記することで対応 ・ 形態素解析の誤解析    解析精度を上げるための工夫    ⇒MeCab辞書に単語を追加できる仕組みを搭載       例: 単語:  うがい・ペットボトル・人件費          複合語:  好奇心・一方的・かっこ悪い          専門用語: 清拭・解毒剤・認知症    ひらがなのべた書きは極めて低い解析精度     ⇒通常の書き方の(漢字かな交じり)文を入力する            

4.『チュウ太のやさしくなーれ』 入力文中の難しい単語を自動でやさしく書き換える 文章⇒形態素解析MeCab⇒書き換え辞書と照合 やさしい単語への書き換え(活用の変化にも対応) 元の文と書き換えた文を併記(ふりがなも付与) 説明的になる語はバルーンで表示 名詞+名詞の複合語もバルーンで表示 多義語もバルーンで表示

やさしくなーれの結果画面 緑:書き換えた語  青:バルーン表示の語  黒:書き換えない語  赤:リストにない語

4.『チュウ太のやさしくなーれ』 難しい単語を自動でやさしく書き換える 文章⇒形態素解析MeCab⇒書き換え辞書と照合 やさしい単語への書き換え(活用の変化にも対応) 元の文と書き換えた文を併記(ふりがなも付与) 説明的になる語はバルーンで表示 名詞+名詞の複合語もバルーンで表示 多義語もバルーンで表示  <問題点> バルーン表示の語が多くなる

 <問題点> バルーン表示の語が多くなる 文脈にあわせた多義語の書き換え ・「サ変動詞+名詞」の書き換え   <動詞の時制の決定>     例: 調査結果 ⇒ 調べた結果       選考方法⇒ 選ぶやり方       入居者⇒ 入っている人   <Google N-gramを活用した対応>   1.「書き換え候補の動詞の3種類の活用+名詞」を検索   2.コーパスに当該の組み合わせがあれば書き換え   3.複数候補ある時には、多いほうで書き換え

 <問題点> バルーン表示の語が多くなる 文脈にあわせた多義語の書き換え ・「名詞+助詞+サ変動詞(多義語)+する」の書き換え  <サ変動詞の意味の決定>    事件が発生する⇒事件が起きる    大量の蚊が発生する⇒多くの蚊が生まれる   <Google N-gramを活用した対応> 1.「当該名詞&書き換え候補ABC」をコーパスで検索 2.その組み合わせがヒットすれば、当該動詞に書き換え 3.複数候補がヒットすれば、多いほうで書き換え           

 <コーパスの活用の問題点>  文脈にあわせた多義語の書き換え             <コーパス利用の際に考えるべき問題>     ・同一文の複数コピーが含まれる可能性     ・誤った使い方をしている文が含まれる可能性     ・偏った領域の表現が含まれる可能性  

コーパス利用(作成)における課題 日本語ウェブコーパス 2010 (矢田晋 2010) 日本語ウェブコーパス 2010 (矢田晋 2010) 2010 年 6 月から 9 月にかけて収集した約 1 億件のウェブページから作成したコーパス   http://s-yata.jp/corpus/nwc2010/ngrams/ 例: 「技術」という単語のNグラム検索の結果   「日本 技術 総業 の 菊池 政美 」という文字列が    9940件もヒット

Web上の情報収集で起きる問題の一例 http://mizusato. at. webry. info/200801/article_22   日本 技術 総業 の 菊池 政美 と  という文字列が9940件もヒットしていて、 個人への誹謗中傷が異常に繰り返されていた様子。

 <コーパスの作成(活用)の問題点>    ・同一文の複数コピーが含まれる可能性   一部改変の場合、同一文の排除ではチェック不能   ⇒ 適切な対応が不可欠 ・誤った使い方をしている文が含まれる可能性   自動翻訳の結果等の混在への配慮 ・偏った領域の表現が含まれる可能性   収集源の吟味 (⇔ Webコーパスの危険性)  

5.AI活用の可能性と留意点 読解支援システムへのAI活用の可能性 <例 1> 『チュウ太のやさしくなーれ』の現状 活用⇒日本語の活用を個々にプログラミング 書き換え⇒品詞の組み合わせごとに対応 コロケーションに配慮した「意味」の決定⇒対応は困難 AI(ディープラーニング)による多義語の意味の決定に期待

5.AI活用の可能性と留意点 学習支援システムへのAI活用の可能性 <例 2> 『チュウ太のWeb辞書』 言語ごとに対訳辞書を作成 各言語の辞書ツールがほしいとの要望 AI(ディープラーニング)を活用して 各言語ごとの対訳辞書の自動生成 各言語の形態素解析システムの開発 そのほかにもいろいろな可能性があるが。。。

5.AI活用の可能性と留意点 <言語教育分野でAIを活用する際の留意点> 日本語教育に活用するには… ・模範的な日本語を提示できること ・誤りを極力減らすこと 読解支援システムに活用するには… ・辞書(単語・コロケーション・文型etc.) ・コーパス(日本語として違和感のない文の集合体) ・形態素解析(誤解析を減らす改良ができる仕組み) そして。。。

NINJAL-LWP for BCCWJ (例:オノマトペ)

5.AI活用の可能性と留意点 <言語教育分野でAIを活用する際の留意点> 日本語教育に活用するには… ・模範的な日本語を提示できること ・誤りを極力減らすこと 読解支援システムに活用するには… ・辞書(単語・コロケーション・文型etc.) ・コーパス(日本語として違和感のない文の集合体) ・形態素解析(誤解析を減らす改良ができる仕組み) ・出力結果の適切な活用(十二分の配慮と検証と吟味)

5.AI活用の可能性と留意点 <言語教育分野でAIを活用する際の留意点> 日本語教育に活用するには… ・模範的な日本語を提示できること ・誤りを極力減らすこと 読解支援システムに活用するには… ・辞書(単語・コロケーション・文型etc.) ・コーパス(日本語として違和感のない文の集合体) ・形態素解析(誤解析を減らす改良ができる仕組み) ・出力結果の適切な活用(十二分の配慮と検証と吟味) ・AIの判断の根拠を明らかにできる仕組み

おわりに AIの言語教育への活用に期待 AI導入に際しては十二分の配慮と検証と吟味が必要 AIの可能性と課題についての認識 日本語教師とコンピュータ技術者との密な連携が必要                ご清聴ありがとうございました。