単語親密度と頻度情報を活用した 難易度判定システム 川村よし子(東京国際大学) 北村達也(甲南大学) 冨岡洋介・林真一 (甲南大学理工学部 4 回生)

Slides:



Advertisements
Similar presentations
多言語版「チュウ太の web 辞 書」を用いた語彙学習 川村よし子 東京国際大学 共同研究者 金庭久美子・前田ジョイス・保原麗・川村ヒ サオ 各言語版辞書編集グループ.
Advertisements

日本語教育概論Ⅲ 日本語の語彙と意味 語彙とは? – 彙:集める、なかま – 語: word, 単語、一定の意味を持ち文を組み 立てる最小の独立した単位 – 語彙: vocabulary, 単語の集まり.
名前:りくよう 番号 : 学習目標 現在日本の子供たちの考える力と学習意欲の状況 学力調査 を分析する その結果と原因を分析する 文法を活用.
インドネシアの高等教育における 日本語教育の現状と問題 Wawan Danasasmita インドネシア教育大学( UPI )
日本語教授法 & 日本語教育とは  外国語としての日本語、 第二言語としての日本語 についての教育の総称である。
日本語 WWW 情報を用いた COCET3300 英単語学習支援に関する研究 情報・知能工学専攻 博士前期課程2年 渡邉 雄大 指導教員 河合 和久.
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
日語課程設計與研究 (大学院) 2月15日(水・三)~  担当 神作晋一.
最大エントロピーモデルに基づく形態素解析と辞書による影響
MS-Word ⇒ XML 2001/10 マウスをクリックしてください。(カーソルはどこにあっても結構です。)次ページが表示されます。
ICT時代の漢字・語彙教育への一提言 川村よし子(東京国際大学)
コーパス言語学実践 2006年度2学期 第10回.
英語学習についての信念 ―現職教員研修のための基礎研究
日本の高校における英語の授業は 英語で行うのがベストか? 日本語の介在の意義
Excel による データベース入門 Ver /9.
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
日本語教育における 発音指導の到達目標を考える
Toshihiko SHIOTSU 塩津敏彦
日本の高校における英語の授業は英語でがベストか?
逆引き辞書の作成を可能にする 対訳辞書編集システムの構築
J-GAP 香港-日本チーム 『日本語教育の連関に関する実態調査』 結果報告
インターネットを使った日本語教育 川村よし子(東京国際大学)
日本語複合動詞の習得研究 ―使用実態の調査を中心に
中学部の生徒に対して、 平仮名の拗音単語を読むことが できるための支援
4Y-4 印象に残りやすい日本語パスワードの合成法
日本の高校における英語の授業を 英語で行うべきか
2016年3月10日(木) 内閣官房 情報通信技術(IT)総合戦略室
卒業論文 最終発表 WWW情報検索 ナビゲーションシステムの設計と実装
図書館システムの歴史と 日本語処理を考える
日本語教育は 多言語化した日本語を教えられるのか
日本語教育グローバルネットワーク J-GAP
情報検索演習 第2回 前から4列目までに着席すること 2005年10月05日 後期 水曜5限 江草由佳 国立教育政策研究所
13回目 複合情報検索 13-1 課題の概要 13-2 EBSCOhost の使用方法 13-3 ProQuestの使用方法
形態素解析および係り受け解析・主語を判別
チュートリアル EBSCOhostの概要
インターネット大学へ向かって ムードルにいたるまでの道.
大阪教育大学大学院教育学研究科 総合基礎科学専攻 中窪 仁
アンケートの対象設定・実施・データの分析について
日本語読解支援システム 『リーディング・チュウ太』の 難易度判定ツール
細川 英雄 (言語文化教育研究所・代表/早稲田大学名誉教授)
2011年6月24日(金) 於 名桜大学言語学習センター 国際学群 伊藤孝行
平成22年6月15日 図書系職員のための アプリケーション開発講習会
日本社会福祉士会方式 ケアマネジメント実践記録様式
Android端末によるロボット制御とその評価
日本言語政策学会第7回大会 2005年11月19日(京都大学) 西山教行(京都大学)
自然言語処理及び実習 第11回 形態素解析.
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
ICT活用指導力向上のための ICT教育研修と校内研修
ワークショップ型研修の進め方 .
東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への 簡易ナビゲーションシステム-
石崎研究室、南口研究室学生のための 文献検索および入手の上級講習
文字エンコーディング 2010年7月.
<日本語教育とAI:研究実践例と今後の課題 > 読解支援システムへのAI活用の可能性と留意点
音声認識・翻訳 Android アプリケーション制作
日本の表音文字(ひらがな、かたかな)と漢字
2003年度 図書館活用論 Ⅰ 第9講 検索エンジンの仕組みと活用 (明治大学図書館庶務課システム担当 中林)
英語学習者のためのオンライン自学自習ソリューション
疫学概論 情報の要約 Lesson 3. 情報の要約 (率、比、割合) S.Harano,MD,PhD,MPH.
日本語の関係節の処理に有生性が及ぼす影響―セルフペーストリーディング実験による日本語母語話者と中国語母語話者との比較を通して―
電子出版連係システム “知のコンシェルジュ” の概要
  JSTChina         中国文献データベース.
理論研究:言語文化研究 担当:細川英雄.
ブースティングとキーワードフィルタリング によるシステム要求検出
2015 The 10th International Symposium on Oral Proficiency Interview
岩手県立大学ソフトウエア情報学部 3年 鈴木研究室所属 井ノ上 憲司
テキストマイニングによる看護専門領域別実習に関する研究動向の分析
社会情報システム学講座4年 赤平健太 指導教員:阿部昭博 市川尚
韓国人日本語学習者による多義動詞の習得における母語の影響 ―典型性と転移可能性の観点から―
一般会計1975年及び1999年国家予算 エ ネ リ ギ ー 対 策 費 中 小 企 業 対 策 費 . 6 % . 3 % 中 小 企 業
平成20・21年度 国立教育政策研究所・教育課程研究センター指定
Presentation transcript:

単語親密度と頻度情報を活用した 難易度判定システム 川村よし子(東京国際大学) 北村達也(甲南大学) 冨岡洋介・林真一 (甲南大学理工学部 4 回生)

1.日本語読解学習支援環境の再構築 日本語学習者のための日本語読解学習支援環境 読解学習支援システム「リーディング・チュ ウ太」 ・辞書引きツール ・レベル判定ツール ・リンク集 ・読解教材バンク 辞書ツールの多言語化 → 文型検索のシステム 新基準のレベル判定

2.新基準のレベル判定 レベル判定ツール ・入力された文章の形態素解析 ・分析結果を日本語能力試験の出題基準と 照合 ・本文中の単語と漢字のレベル情報を表示 語彙チェッカー・漢字チェッカー ↓ 新基準の導入 単語親密度 単語出現頻度 → 親密度チェッカー → 頻度チェッカー

地球規模土壌劣化評価会議( GLASOD )による と、過去 45 年間のうち、土地劣化の影響を受け ている世界 19 億 ha の土地のうち、最大の面積で ある 5 億 5000 万 ha はアジア太平洋地域に存在し ます。また

2.新基準のレベル判定 レベル判定ツール ・入力された文章の形態素解析 ・分析結果を日本語能力試験の出題基準と 照合 ・本文中の単語と漢字のレベル情報を表示 語彙チェッカー・漢字チェッカー ↓ 新基準の導入 単語親密度 単語出現頻度 → 親密度チェッカー → 頻度チェッカー

単語親密度を利用した語彙リストの見直し 新聞雑誌等文献中の出現頻度は低くても 実生活ではよく目や耳にする語: ラーメン、筆箱、包丁等 → 級外 ↓ 『日本語の語彙特性(第1期)』 NTT コミュニケーション科学基礎研究所 天野成昭ほか (1999)三省堂 3.単語親密度の活用

「単語親密度」とは何か 単語親密度: 個々の単語にどの程度なじみがあるかを7 段階 尺度で評定した値 調査方法: 対象語:新明解国語辞典見出し語約7万語 被験者:18歳以上の男女 40 名 評定:1(なじみがない)-7(なじみがあ る) の7段階で評定した値の平均値

単語親密度の信頼性 信頼性を高めるための方策 1)漢字単語の読み能力テスト「百羅漢」を元 に被験者の言語能力を測定 2)評定実験前の練習:9000試行 3)ポストテスト:実験後刺激セットの一部を 用いたポストテストを行い、結果の一致度が一 定以上の被験者のデータのみを採用

4.親密度チェッカーの開発 (1) 単語親密度 c. 音声文字同時提示 (単語数 69,084 語) 音声文字同時提示の単語親密度を採用 表記+読みが同じ項目については上位 の親密度を採用

4.親密度チェッカーの開発 (2) 1 ) 文字音声で親密度 5 以上の語 28,445 語 2) 同じ表記+同じ読みの語削除 (アクセントの異なり・品詞違い削除) 親密度の高いほうを残す 25,460 語 3) 異表記はすべてそのまま残す 例 あいさつ / 挨拶 (ひらが な表記) 合言葉 / 合い言葉 (送り仮 名違い) 車いす / 車椅子 (一部ひ らがな)

4.親密度チェッカーの開発 (3) 4) リストにある語のひらがな表記を追加 理由)ひらがなのあるものもある 「する」はリストになし。 5) ひらがなのみの時には音声親密度を採用 問題点)カタカナをどうするか 例 さざえ ひらがなのみ 音声文字 音声の み 現在はリストにないカタカナ表記の 追加なし

5.親密度レベルの決定 レベ ル 単語親密度 語数累計語数 A 6.3 以上 1,138 B 6.0 以上 6.3 未 満 3,0894,227 C 5.5 以上 6.0 未 満 9, D 5.0 以上 5.5 未 満 11,58225,460 E 5.0 未満

6.新しい親密度レベル案 レベル親密度語数累計語数 A 6.3 以上 1,138 B 6.2 以上 -6.3 未 満 728 1,866 C 6.1 以上 -6.2 未 満 865 2,731 D 6.0 以上 -6.1 未 満 1,496 4,227 E 5.5 以上 -6.0 未 満 9,651 13,878 F 5.0 以上 -5.5 未 満 11,582 25,460 G 5.0 未満

「単語頻度情報を利用した語彙のレベル判定ツー ル 「単語頻度データベース」を利用 新聞における出現頻度が高い単語 『日本語の語彙特性(第2期)』 NTT コミュニケーション科学基礎研究所 天野成昭ほか (2000)三省堂 7.頻度チェッカーの開発

「単語頻度データベース」とは何か 朝日新聞 14 年分のデータ 1985 年から 1998 年までの 14 年間のデー タ データベース構築方法: ・ 朝日新聞14年分のデータを、形態 素解析システム「すもも」によって解析 ・ 全ての活用形を終止形に変換 ・ 単語は表記と品詞のみによって区別 ・ 単語数は 341,771 語 (他に未定義語が 220,618 語あり)

異なり数で 341,771 語のうち、頻度1000 以上の語( 12,606 語)を 10 段階に分類 入力された文章を形態素解析システム茶筌 で解析 解析結果を頻度レベル別単語リストと照合 し、レベル判定 8.頻度チェッカーの仕組み

9.実験結果の分析 1) 3 種類のツールはそれぞれ異なった特 徴を持ち、学習レベル、学習目的によって適 宜組み合わせて利用する必要がある。 2) 非漢字圏学習者と漢字圏学習者とでは 難易度の判定基準が異なる可能性がある。 3) 日本語の母語話者と非母語話者とでは 難易度判定の基準が異なる。

9.実験結果の分析 ( 1 ) 1) 3 種類のツールはそれぞれ異なった特徴を持 ち、学習レベル、学習目的によって適宜組み合わせ て利用する必要がある。 親密度チェッカーで何ができるか 単語の難易度の判定 日本人: なじみのある語の選別 学習者: 日常生活に必要な語の選別 頻度チェッカーで何ができるか 単語の必要度の判定 新聞等を読むために必要な語の選別

9.実験結果の分析 ( 2 ) 2) 非漢字圏学習者と漢字圏学習者とでは 難易度の判定基準が異なる可能性がある。

頻度順 2000 番までに含まれる1級レベルの漢字 氏 2 織 1 条 3 迫 1 拒 1 惑 1 閥 1 源 1 統 4 授 2 善 1 避 1 狙 2 紀 1 房 1 抵 1 企 2 拡 1 益 1 描 1 証 2 修 1 戒 1 抗 3 策 3 系 1 請 3 契 1 視 3 訟 1 慎 1 併 1 挙 4 評 1 衆 1 憲 1 析 1 我 1 継 1 扱 1 討 1 監 2 基 5 僚 2 株 4 薦 1 歓 1 踏 2 派 5 督 1 裁 4 就 2 枠 1 及 3 還 1 控 1 案 4 故 1 核 2 攻 1 離 1 筋 1 躍 1 挑 1 幹 2 態 5 保 5 撃 1 緊 2 促 2 盤 1 己 1 渉 1 厳 1 護 3 廃 1 隊 3 項 1 奪 1 驚 1 施 2 提 5 展 5 激 1 祉 1 盟 2 壊 2 染 1 影 2 整 3 維 1 喪 1 需 1 貢 1 邦 1 執 1 響 1 措 1 票 2 致 1 債 2 献 2 是 1 撮 1 応 3 逮 1 昭 1 盛 1 抑 1 却 1 撤 1 宗 1 批 1 融 3 公 6 衛 2 為 1 健 1 壁 1 徴 1 価 5 削 1 模 2 功 1 従 2 康 1 崩 1 顧 1 環 1 訴 3 士 3 購 1 慮 1 範 1 皇 1 振 1 摘 1 遣 1 催 2 弁 1 掲 2 択 2 異 1 興 1 姿 2 閣 3 葬 1 宣 1 焦 1 障 2 誕 1 緩 1 張 2 標 1 儀 1 懸 1 銭 1 旬 2 載 1 充 1 援 2 審 3 推 2 繰 1 紛 1 獲 1 伴 1 納 1

9.実験結果の分析 ( 2 ) 2) 非漢字圏学習者と漢字圏学習者とでは 難易度の判定基準が異なる可能性がある。 対応方法 非漢字圏学習者の場合: 語彙チェッカー・親密度チェッカーの利 用には 漢字チェッカーとの組み合わせが不可欠

9.実験結果の分析 ( 3 ) 3) 日本語の母語話者と非母語話者とでは 難易度判定の基準が異なる。

親密度 6.0 以上で日能試の級外となっている 語

9.実験結果の分析 ( 3 ) 3) 日本語の母語話者と非母語話者とでは 難易度判定の基準が異なる。 対応方法 ・日本語能力試験の語彙リストに単語出 現頻 度の高い語を加える ・生活語彙としては、親密度の高い語を 語彙リストとして提示する

10.今後の課題(1) 日本語学習者のための難易度判定 日本語学習者のレベル・ニーズにあわせ た 出題基準・親密度・頻度情報の統合 日本語学習者向けの語彙リストの作成 日本語学習者向けレベル判定ツールの開 発

10.今後の課題(2) 語の出現頻度という視点から日本語能力試験出 題基準の見直しを行う。 親密度と出現頻度情報を活用して、日本語学習 者のための級別語彙リストを作成する。 親密度チェッカーと頻度チェッカーを 「 Reading Tutor 」に組み入れる。

参考文献 天野成昭他 (1999) 『 NTT データベースシリーズ日本語の語彙特性(第1 期)』三省堂 天野成昭他 (2000) 『 NTT データベースシリーズ日本語の語彙特性(第2 期)』三省堂 加藤彰彦 (1963,64) 「日本語教育における基礎学習語」『日本語教育』2,4, 5号 日本語教育学会 国際交流基金 (1986 )『基礎日本語学習辞典』凡人社 国際交流基金・日本国際教育協会 (1994,2002) 『日本語能力試験出題基準』 凡人社 国立国語研究所編 (1962) 『現代雑誌九十種の用語用字』 国立国語研究所編 (1964) 『分類語彙表』 国立国語研究所編( 1983,84 )『高校教科書の語彙調査Ⅰ、Ⅱ』 国立国語研究所編 (1984 )『日本語教育のための基本語彙調査』 国立国語研究所編 (1986,87 )『中学校教科書の語彙調査Ⅰ、Ⅱ』 (国立国語研究所編は全て秀 英出版) 土居光知 (1933) 『日本語基本語彙』六星館 徳弘康代 (2005) 「中上級学習者のための漢字語彙の選択とその提示法の研究 -学習指標値の設定と概念地図作成の試み」『日本語教育』 127 号 pp41-50 日本語教育学会 文化庁 (1971 )『外国人のための基本語用例辞典』大蔵省印刷局