Download presentation
Presentation is loading. Please wait.
1
<日本語教育とAI:研究実践例と今後の課題 > 読解支援システムへのAI活用の可能性と留意点
東京国際大学 川村よし子
2
読解支援システムへのAI活用の可能性と留意点
はじめに 1.読解支援システムと自然言語処理技術 2.『リーディング・チュウ太』 3.『チュウ太のWeb辞書』 4.『チュウ太のやさしくなーれ』 5.AI活用の可能性と留意点
3
はじめに はじめに ☆AI(人工知能)とは? HAL=AI ELIZAは? Google Tranlsateは?
4
1.読解支援システムと自然言語処理技術 共通している自然言語処理技術:形態素解析 1998年 Web上にある膨大な量の日本語情報
日本語教育や自律学習の教材として活用可能 読解学習支援システム『リーディング・チュウ太』 辞書ツールの多言語化:『チュウ太のWeb辞書』 共生社会への対応: 『チュウ太のやさしくなーれ』 共通している自然言語処理技術:形態素解析
5
2.『リーディング・チュウ太』 ⇒日本語の文章の分析には形態素解析が不可欠 読みたい文章を入力すれば、本文中の全ての単語の
読みたい文章を入力すれば、本文中の全ての単語の 辞書引きやレベル判定が自動で行える ◎辞書ツール 入力された文章⇒形態素解析Chasen⇒辞書と照合 結果画面:本文中の単語と辞書情報がリンク 学習履歴:「あなたの単語リスト」を自動生成 ◎レベル判定ツール 入力された文章⇒形態素解析Chasen⇒単語リストと照合 結果画面:本文中の単語や漢字の難易度レベルを表示 ⇒日本語の文章の分析には形態素解析が不可欠
13
「形態素解析」を活用する際の工夫と留意点 ・読みが複数ある場合 ⇒Chasenの読み情報をすべて出すことで対応 ・意味が複数ある場合 ⇒辞書情報をすべて出すことで対応 (辞書ツールは翻訳ツールではない) ・形態素解析の誤解析(解析精度は98.5%) ⇒Chasenが解析に用いている形態素辞書に依存
14
・形態素解析の誤解析(解析精度は98.5%) Chasenが解析に用いている形態素辞書に依存 例1:語彙的複合動詞は1語扱い (押し出す・取り乱す・気が付く etc.) ⇒辞書に当該語がなければ、表示不能 ⇒レベル分けリストになければ「級外」 例2:「締約国会議」⇒「締約+国会+議」 ⇒単語ごとの重みづけを変更して対応 例3:「行った」⇒「行う+た」 ⇒プログラムで前接助詞とセットにして対応 平仮名の「べた書き」は苦手 ⇒利用の際は、できるだけ漢字かな交じり文を入力
15
3.『チュウ太のWeb辞書』 多言語版の辞書ツール 読みたい文章を入力すれば、本文中の全ての 単語の辞書引きが自動で行える仕組み
読みたい文章を入力すれば、本文中の全ての 単語の辞書引きが自動で行える仕組み 文章⇒形態素解析MeCab⇒辞書と照合 本文中の単語と辞書情報がリンク 意味ごとに例文も表示 「あなたの単語リスト」作成 (復習が可能) 複数言語版の辞書を同時表示可能 ふりがな機能も搭載
16
「チュウ太のWeb辞書」の 多言語辞書編集チーム
対訳辞書編集チーム 25言語 (編集完了語数順) ロシア語 英語 スロヴェニア語 ハンガリー語 ベトナム語 トルコ語 ブルガリア語 中国語 韓国語 タイ語 ポルトガル語 スペイン語 チェコ語 ドイツ語 キルギス語 マレー語 マラティ語 スロヴァキア語 ルーマニア語 フランス語 イタリア語 フィンランド語 インドネシア語 タガログ語 アラビア語 (2018年3月22日現在)
17
ミニ辞書も搭載 ☆ニーズ:簡易版でもいいので早く欲しい ・1語1訳の形のミニ辞書を作成 ・旧 『日本語能力試験出題基準』の語彙:8,600語
・1語1訳の形のミニ辞書を作成 ・旧 『日本語能力試験出題基準』の語彙:8,600語 ・ミニ辞書が完成した言語 インドネシア語・タガログ語・英語・スペイン語・タイ語 中国語(簡体字・繁体字)・韓国語・クロアチア語 ・ミニ辞書編集中の言語 ルーマニア語・フィンランド語・アルメニア語
19
『チュウ太のWeb辞書』の結果画面
21
ふりがな機能を使った結果画面
22
「MeCab」を活用する際の工夫と留意点 ・ 意味が複数ある場合 ⇒辞書情報をすべて出すことで対応 ・ 読みが複数ある場合 ⇒辞書情報に複数の読みを併記することで対応 ・ 形態素解析の誤解析 解析精度を上げるための工夫 ⇒MeCab辞書に単語を追加できる仕組みを搭載 例: 単語: うがい・ペットボトル・人件費 複合語: 好奇心・一方的・かっこ悪い 専門用語: 清拭・解毒剤・認知症 但し、ひらがなのべた書きは極めて低い解析精度 。
23
「MeCab」を活用する際の工夫と留意点 ・ 意味が複数ある場合 ⇒辞書情報をすべて出すことで対応 ・ 読みが複数ある場合 ⇒辞書情報に複数の読みを併記することで対応 ・ 形態素解析の誤解析 解析精度を上げるための工夫 ⇒MeCab辞書に単語を追加できる仕組みを搭載 例: 単語: うがい・ペットボトル・人件費 複合語: 好奇心・一方的・かっこ悪い 専門用語: 清拭・解毒剤・認知症 但し、ひらがなのべた書きは極めて低い解析精度 にっぽんでは、さかなをなまのままたべるさしみやすしなどはにんきのあるりょうりです。
24
Mecabの 解析結果
25
「MeCab」を活用する際の工夫と留意点 ・ 意味が複数ある場合 ⇒辞書情報をすべて出すことで対応 ・ 読みが複数ある場合 ⇒辞書情報に複数の読みを併記することで対応 ・ 形態素解析の誤解析 解析精度を上げるための工夫 ⇒MeCab辞書に単語を追加できる仕組みを搭載 例: 単語: うがい・ペットボトル・人件費 複合語: 好奇心・一方的・かっこ悪い 専門用語: 清拭・解毒剤・認知症 ひらがなのべた書きは極めて低い解析精度 ⇒通常の書き方の(漢字かな交じり)文を入力する
26
4.『チュウ太のやさしくなーれ』 入力文中の難しい単語を自動でやさしく書き換える 文章⇒形態素解析MeCab⇒書き換え辞書と照合
やさしい単語への書き換え(活用の変化にも対応) 元の文と書き換えた文を併記(ふりがなも付与) 説明的になる語はバルーンで表示 名詞+名詞の複合語もバルーンで表示 多義語もバルーンで表示
27
やさしくなーれの結果画面 緑:書き換えた語 青:バルーン表示の語 黒:書き換えない語 赤:リストにない語
28
4.『チュウ太のやさしくなーれ』 難しい単語を自動でやさしく書き換える 文章⇒形態素解析MeCab⇒書き換え辞書と照合
やさしい単語への書き換え(活用の変化にも対応) 元の文と書き換えた文を併記(ふりがなも付与) 説明的になる語はバルーンで表示 名詞+名詞の複合語もバルーンで表示 多義語もバルーンで表示 <問題点> バルーン表示の語が多くなる
29
<問題点> バルーン表示の語が多くなる 文脈にあわせた多義語の書き換え ・「サ変動詞+名詞」の書き換え <動詞の時制の決定> 例: 調査結果 ⇒ 調べた結果 選考方法⇒ 選ぶやり方 入居者⇒ 入っている人 <Google N-gramを活用した対応> 1.「書き換え候補の動詞の3種類の活用+名詞」を検索 2.コーパスに当該の組み合わせがあれば書き換え 3.複数候補ある時には、多いほうで書き換え
30
<問題点> バルーン表示の語が多くなる 文脈にあわせた多義語の書き換え ・「名詞+助詞+サ変動詞(多義語)+する」の書き換え <サ変動詞の意味の決定> 事件が発生する⇒事件が起きる 大量の蚊が発生する⇒多くの蚊が生まれる <Google N-gramを活用した対応> 1.「当該名詞&書き換え候補ABC」をコーパスで検索 2.その組み合わせがヒットすれば、当該動詞に書き換え 3.複数候補がヒットすれば、多いほうで書き換え
31
<コーパスの活用の問題点> 文脈にあわせた多義語の書き換え <コーパス利用の際に考えるべき問題> ・同一文の複数コピーが含まれる可能性 ・誤った使い方をしている文が含まれる可能性 ・偏った領域の表現が含まれる可能性
32
コーパス利用(作成)における課題 日本語ウェブコーパス 2010 (矢田晋 2010)
日本語ウェブコーパス 2010 (矢田晋 2010) 2010 年 6 月から 9 月にかけて収集した約 1 億件のウェブページから作成したコーパス 例: 「技術」という単語のNグラム検索の結果 「日本 技術 総業 の 菊池 政美 」という文字列が 9940件もヒット
33
Web上の情報収集で起きる問題の一例 http://mizusato. at. webry. info/200801/article_22
日本 技術 総業 の 菊池 政美 と という文字列が9940件もヒットしていて、 個人への誹謗中傷が異常に繰り返されていた様子。
34
<コーパスの作成(活用)の問題点> ・同一文の複数コピーが含まれる可能性 一部改変の場合、同一文の排除ではチェック不能 ⇒ 適切な対応が不可欠 ・誤った使い方をしている文が含まれる可能性 自動翻訳の結果等の混在への配慮 ・偏った領域の表現が含まれる可能性 収集源の吟味 (⇔ Webコーパスの危険性)
35
5.AI活用の可能性と留意点 読解支援システムへのAI活用の可能性 <例 1> 『チュウ太のやさしくなーれ』の現状 活用⇒日本語の活用を個々にプログラミング 書き換え⇒品詞の組み合わせごとに対応 コロケーションに配慮した「意味」の決定⇒対応は困難 AI(ディープラーニング)による多義語の意味の決定に期待
36
5.AI活用の可能性と留意点 学習支援システムへのAI活用の可能性 <例 2> 『チュウ太のWeb辞書』 言語ごとに対訳辞書を作成 各言語の辞書ツールがほしいとの要望 AI(ディープラーニング)を活用して 各言語ごとの対訳辞書の自動生成 各言語の形態素解析システムの開発 そのほかにもいろいろな可能性があるが。。。
37
5.AI活用の可能性と留意点 <言語教育分野でAIを活用する際の留意点> 日本語教育に活用するには… ・模範的な日本語を提示できること ・誤りを極力減らすこと 読解支援システムに活用するには… ・辞書(単語・コロケーション・文型etc.) ・コーパス(日本語として違和感のない文の集合体) ・形態素解析(誤解析を減らす改良ができる仕組み) そして。。。
38
NINJAL-LWP for BCCWJ (例:オノマトペ)
39
5.AI活用の可能性と留意点 <言語教育分野でAIを活用する際の留意点> 日本語教育に活用するには… ・模範的な日本語を提示できること ・誤りを極力減らすこと 読解支援システムに活用するには… ・辞書(単語・コロケーション・文型etc.) ・コーパス(日本語として違和感のない文の集合体) ・形態素解析(誤解析を減らす改良ができる仕組み) ・出力結果の適切な活用(十二分の配慮と検証と吟味)
40
5.AI活用の可能性と留意点 <言語教育分野でAIを活用する際の留意点> 日本語教育に活用するには… ・模範的な日本語を提示できること ・誤りを極力減らすこと 読解支援システムに活用するには… ・辞書(単語・コロケーション・文型etc.) ・コーパス(日本語として違和感のない文の集合体) ・形態素解析(誤解析を減らす改良ができる仕組み) ・出力結果の適切な活用(十二分の配慮と検証と吟味) ・AIの判断の根拠を明らかにできる仕組み
41
おわりに AIの言語教育への活用に期待 AI導入に際しては十二分の配慮と検証と吟味が必要 AIの可能性と課題についての認識
日本語教師とコンピュータ技術者との密な連携が必要 ご清聴ありがとうございました。
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.