効率的な語彙学習順序とは -コーパスに基づくアプローチ- 松下達彦(東京大学) 学習者コーパスから見た日本語習得の難易度に基づく 語彙・文法シラバスの構築 第12回共同研究会 2014年4月19日(国立国語研究所)
以下のスライドに関する補足(2017年2月23日)
概要 「効率的」とは 理論的背景(1)読解力に占める語彙力 理論的背景(2)既知語率と読解レベルの関係 共通ニーズ抽出の必要 領域特徴語の抽出:(1)学術共通語彙、 (2)限定学術領域語彙、(3)文芸語彙 テキストカバー効率(TCE)の提案 ジャンルによる効率的語彙学習順序の違い ニーズと「学習難易度」の視点 まとめ
1.「効率的」とは? 「学習の難易度」は・・・ここでは無視 どうすればより少ない語彙学習量で「読める(聞ける)」ようになるか 受容的活動(「聞く」「読む」)では難しいから無視するというわけにはいかない 読解(聴解)における既知語のテキストカバー率をできるだけ早く上げる 仮定:語彙習得はおおよそ頻度順に進む 一般的に・・・ 形式においては高頻度の語/字は易しいものが多い。が・・・ 意味・用法においては高頻度であるほど多義的・多用法の語・字が多い
2.理論的背景 (1)読解力に占める語彙力 語彙力が読解力に占める割合 英語では・・・約3割程度か(Bernhardt, 2005) 日本語ではもう少し高そう 漢字があるから? 55% Koda(1989)より計算 47% 小森ほか(2004) 40%以上 野口(2008)より計算 理論的には、読解も聴解も同じ ただし、 読解はリライトがしやすいが、聴解は難しい
3.理論的背景 (2)既知語率と読解レベルの関係 既知語の割合 Text coverage (テキストカバー率) by known words 英語では・・・既知語率95%と98%が一つの目安 95%:テキストがある程度理解できるレベル 98%:自力で読解を楽しめるレベル (Hu & Nation, 2000; Laufer & Ravenhorst-Kalovski, 2010など) 日本語では・・・もう少し低い既知語率でよいのでは? 96%程度に閾値? (小森ほか2004) 意味的透明度の高い多数の漢字語の存在 (Matsushita, 2011a=後述)
媒体による必要語数のちがい 日本語能力検定試験でいう初級・中級・上級とは? 英語教育では? (Nation, 2006) BCCWJ(2009年モニター版、書籍とYahoo知恵袋)では? Yahoo知恵袋を読むのに、約5300語で95%のカバー率 書籍等を含めて平均的に9500語で95% ・・・95%では、自力で読みこなすには少し足りないか(?)
どの程度の語彙量で生教材が読めるか
理解語彙量による直観的、暫定的なレベル分け (対象は日本の大学で学ぶ大学生で、文法、会話等の能力はここでは無視する。語数は書きことばの理解語数と考える。) 初級:「上位約1500語+α」で計3000語程度まで 中級:「上位約1500語+α」で計12000語程度まで ・・・非常に広い 上級:「上位約7000語+α」で計12000語以上 ・・・生教材(に近いテキスト)が使えるレベル 母語話者・・・研究予定 (従来言われている語数よりも少ないことを予想) 計数単位の問題:「富士山」の「山」や「大教室」の「大」を どう数えるか? ⇒「語」に準じるものとして数えるのが現実的 “学習負担の原則”
4.共通ニーズ抽出の必要 個別のニーズに応じて、ニーズ領域の頻度順に語彙学習をするのが一番効率的 しかし、クラス授業では・・・ 普通の機関では個別対応は難しい ニーズが明確でない学習者も多い ニーズが幅広い学習者も多い(例:ジャーナリスト志望) 大学では一般に、学術ニーズは少しずつ狭まっていく 教養 文系 社会科学 経済学
5.領域特徴語の抽出 使用したテキストと計数単位 『現代日本語書き言葉均衡コーパス』(BCCWJ) モニター公開データ(2009年版)(国立国語研究所2009) 書籍部分(約2800万語)+Yahoo知恵袋(約500万語)合計約3300万語 計数単位(語の区切り):UniDicの短単位 (ほぼ形態素レベル) 形態素解析器:MeCab(工藤2006) 解析用辞書:UniDic(伝ほか2009) (UniDicの出力をAntWordProfiler で使用するため, テキストエディタ上でマクロを作成して加工) (出版社の販売対象コード)
特徴語の抽出方法 特徴語の抽出には 対象コーパス 参照コーパス の二つが必要(対象語彙が含まれる割合を比較) AntConc (Anthony, 2007) のkeyness 機能を利用 特徴語の抽出には 対象コーパス 参照コーパス の二つが必要(対象語彙が含まれる割合を比較) 対数尤度比(log-likelihood ratio) (Dunning, 1993) (正規分布などの)特定の分布を要求しない テキストの大きさが異なる場合にも比較可能な値を返す(Leech, Rayson, & Wilson, 2001) 適度な割合で特徴語を抽出 (Chujo & Utiyama, 2006) 方法の詳細は松下(2011a; 2012b)を参照 (出版社の販売対象コード)
テストコーパス(特徴語抽出の際に使用していないコーパス) (MC) 会話:名大会話コーパス(日本語母語話者同士の雑談),約113万語 (BS) 一般書:『現代日本語書き言葉均衡コーパス』2009年モニター版(国立国語研究所2009)「ベストセラー」部分(文芸テキスト数が53%,専門テキストなし),約230万語 (PC) 一般書:「日英対訳文対応付けデータ」(内山・高橋2003)の日本語部分(文芸書,エッセイなど),210万語 (JN) 新聞:日英新聞記事対応付けデータ (JENAAD) (Utiyama & Isahara, 2003)の日本語部分(1989-2001の「読売新聞」記事)約568万語 (IS) 人文・社会系専門テキスト:新屋・松下編(未公刊)『日本語上級読解演習 国際学アラカルト』本文部分,約4万語 (TB) 社会系専門テキスト:「中・上級社会科学系読解教材テキストバンク」(東京外国語大学留学生日本語教育センター1998)本文部分,約19万語 (SS) 社会系専門テキスト:『留学生のための専門講義の日本語』(名古屋大学 国際化拠点整備事業2010 )全9冊中,社会系の3冊分の講義テキスト部分,約5万語 (TN) 理工系専門テキスト:『留学生のための専門講義の日本語』(同上)全9冊中,理工系の5冊分の講義テキスト部分,約7万語 (BM) 生物・医学系専門テキスト:『留学生のための専門講義の日本語』(同上)全9冊中,生物・医学系の1冊分の講義テキスト部分,約1万語
(1)学術共通語彙、(2)限定学術共通語彙 (JAWL = Japanese Academic Word List) 学術共通語彙リスト (JAWL = Japanese Academic Word List) 0~Ⅷ 9レベル,計2591語(表1) 中級の JAWLⅠ:学習・教育上,最も重要なリスト 初級には学術共通語彙の数も少ない JAWLⅠ 559語 Academic Word List (Coxhead, 2000)570語に近い語数 カバー率もAWLに非常に近い 抽出時使用の学術コーパスのカバー率 AWL: 10.0% JAWLⅠ: 11.1%
初級語彙(JAWL0含む) +JAWLⅠ 20.4% 人類学は一般に、人類の進化や生物学的側面を研究する自然人類学と、人類の社会的・文化的側面を研究する文化人類学(CulturalAnthropology)あるいは社会人類学(SocialAnthropology)に大別される。文化人類学の名称はアメリカにおいて用いられ、イギリスおよび多くのヨーロッパ諸国では「社会人類学」の名称が用いられてきた。他のヨーロッパ諸国や日本においては民族学(英語圏でのEthnology、ドイツ語圏でのEthnologie)の名称も用いられている(民族学を一分野とする場合も多い)。民俗学(Folklore)もまた隣接分野として共通の研究テーマを共有することが多い。 自然人類学は、人類を進化の過程によって形作られてきた生物学的側面から捉える。それに対して、文化人類学は自然の対義としての文化から人類を研究しようとする学問分野である。文化とは、進化の過程を経て形成された遺伝的な形質のことではなく、人類が後天的に学習した行動パターンや言語、人工物の総体を指している。したがって文化人類学の隣接科学には言語学と考古学があり、アメリカの学部ではこれらの学問に加えて自然人類学をあわせて総合的に教育されている。
初級語彙 (JAWL0含む) +JAWLⅠ 計78.1% 人類学は一般に、人類の進化や生物学的側面を研究する自然人類学と、人類の社会的・文化的側面を研究する文化人類学(CulturalAnthropology)あるいは社会人類学(SocialAnthropology)に大別される。文化人類学の名称はアメリカにおいて用いられ、イギリスおよび多くのヨーロッパ諸国では「社会人類学」の名称が用いられてきた。他のヨーロッパ諸国や日本においては民族学(英語圏でのEthnology、ドイツ語圏でのEthnologie)の名称も用いられている(民族学を一分野とする場合も多い)。民俗学(Folklore)もまた隣接分野として共通の研究テーマを共有することが多い。 自然人類学は、人類を進化の過程によって形作られてきた生物学的側面から捉える。それに対して、文化人類学は自然の対義としての文化から人類を研究しようとする学問分野である。文化とは、進化の過程を経て形成された遺伝的な形質のことではなく、人類が後天的に学習した行動パターンや言語、人工物の総体を指している。したがって文化人類学の隣接科学には言語学と考古学があり、アメリカの学部ではこれらの学問に加えて自然人類学をあわせて総合的に教育されている。
初級語彙(JAWL0含む)+JAWLⅠ+JAWLⅡ 6.4% 人類学は一般に、人類の進化や生物学的側面を研究する自然人類学と、人類の社会的・文化的側面を研究する文化人類学(CulturalAnthropology)あるいは社会人類学(SocialAnthropology)に大別される。文化人類学の名称はアメリカにおいて用いられ、イギリスおよび多くのヨーロッパ諸国では「社会人類学」の名称が用いられてきた。他のヨーロッパ諸国や日本においては民族学(英語圏でのEthnology、ドイツ語圏でのEthnologie)の名称も用いられている(民族学を一分野とする場合も多い)。民俗学(Folklore)もまた隣接分野として共通の研究テーマを共有することが多い。 自然人類学は、人類を進化の過程によって形作られてきた生物学的側面から捉える。それに対して、文化人類学は自然の対義としての文化から人類を研究しようとする学問分野である。文化とは、進化の過程を経て形成された遺伝的な形質のことではなく、人類が後天的に学習した行動パターンや言語、人工物の総体を指している。したがって文化人類学の隣接科学には言語学と考古学があり、アメリカの学部ではこれらの学問に加えて自然人類学をあわせて総合的に教育されている。
領域別の特徴 新聞には初級語彙が少なく, 中級の学術共通語彙が多い 理系(理工系,生物・医学系)には 文系(人文系,社会系)より上級の学術共通語彙が多い 3領域語(JAWLⅡなど)に欠けている1領域(一般テキストと比較して学術テキストで高い割合を示さなかった領域) 生物・医学系が1630語中613語(37.6%)と最多 以下,人文系440語(27.0%),理工系343語(21.0%),社会系234語(14.4%) 社会系は理工系や人文系との共通性が高い 生物・医学系は他の領域との共通性が相対的に低い
(3)文芸語彙 文芸語彙リスト (JLW = Japanese Literary Words) 5レベル,計1616語(表1) 中~上級に多く分布 名詞(39.9%)、動詞(34.0%) 学術共通語彙と比べ動詞、副詞、間投詞が多い 7割以上は和語 漢語が4分の3を占める学術共通語彙と対照的
日本語文芸語彙の特徴 1) 身体部位を表す語(「首」「指先」「まぶた」) 2) 身体動作を表す語(「立ち上がる」「 飛び出す」「 引っ張る」) 3) 陳述や様態の副詞(「ちっとも」「たちまち」「きらきら」) 4) 間投詞(「おや」「へー」「ほら」) 5) 縮約や地域語などの口語的表現(「こりゃ」「-ちまう」「-はる」「-さかい」) 6)比喩に用いられる語(「振り向く」「流れる」「かみしめる」) 7) 作品の背景(舞台装置・小道具)に用いられやすい物体を表す語(「ビール」「岩」「ソファー」) 総じて言えば「人間の感情や動作を生き生きと描写する語彙」 性的描写や殺人、戦争を連想させる語も目立つ。コーパスは厳密なサンプリングによるものなので、冒険、推理、サスペンス、歴史などが多く題材になっているためだと考えられる。
6.テキストカバー効率(TCE)の提案 E = 𝐹 𝑡 𝐿 𝑡𝑤 × 1,000,000 𝑁 𝑡 = 𝐹 𝑡 ×1,000,000 𝐿 𝑡𝑤 × 𝑁 𝑡 E: テキストカバー効率 = 対象となる語群の中のある1語の、対象領域テキスト100万語あたりに期待される延べ語数 𝐹 𝑡 :対象領域テキストにおける対象となる語群の延べ語数 𝐿 𝑡𝑤 :対象領域テキストにおける対象となる語群の異なり語数(異なり語彙素数) 𝑁 𝑡 : 対象テキストの延べ語数(テキストの長さ)
テキストカバー効率(TCE)の考え方 The idea behind TCE is simply that it is better to gain more text coverage by a smaller number of learned lexemes. In other words, even if a group of words provide high text coverage, it will not always be efficient to learn the group of words if the group has many lexemes to learn. Therefore, the average number of tokens to be covered by a word in the group needs to be calculated. High efficiency in vocabulary learning is that more words in a text are covered by fewer learned words. TCE is assumed to predict the average efficiency in gaining text coverage by learning a word of the group.
7.ジャンルによる効率的語彙学習順序の違い (1) TCE of the Grouped Words by Genre (Not Graded by Level) *Domain-unspecified
(2) Ranking for TCE of the Grouped Words in Each Genre (Not Graded by Level) *Domain-unspecified
TCE in Biological Natural Science Journal Articles by Type of and Level of Grouped Words TCE: Text Covering Efficiency = Expected number of tokens of a lexeme in the tested group in a one-million-token text in the target domain
TCE in Biological Natural Science Journal Articles by Type of and Level of Grouped Words TCE: Text Covering Efficiency = Expected number of tokens of a lexeme in the tested group in a one-million-token text in the target domain
8.ニーズと「学習難易度」の視点 (1)ニーズ分析の問題 母語話者中心のコーパスの分析はニーズ中心の考え方 学習者コーパスは語彙ニーズを反映するとは言い切れない 学習者の場面と話題のニーズを調査し、そこでの母語話者/学習者の両方のコーパスデータが望ましいのでは
(2)語の学習難易度の問題 単語の学習難易度は(接触頻度の問題を除けば)一般に初級ほど高い。多義語が多いため。 多義語の各用法を同時に初出で学ぶ必要はない。負担にならないのがよい。 (類義語を同時提出しがちだが)類義語を同時に初出で学ぶのは良くない。混乱する。(先行研究多数) 結局、ニーズ領域に沿って頻度の高いものから学ぶのがよい ある程度定着して、類義語の違いに意識が向いたところで学ぶのは効果があるはず
(A)類義・類形の語の学習 意味や用法の似ている語はいっしょに教える? 形の似ている語はいっしょに教える? 初出で、同時に二つ以上の類義語/類義字を教えるのは× *混乱を招きそうな既存教材が少なくない 一方が定着した後でもう一つを学ぶのは○ 疑問を感じたところで整理するのは○だが、まずは一方に力を入れる 形の似ている語はいっしょに教える? 初出で、同時に二つ以上の類形語、類形字を教えるのは× 同じ文脈で用いる語はいっしょに教える? Syntagmatic な関係(共起語)は○ Paradigmatic な関係(類義語/上位語・下位語)は基本的に×
(B) その他 Q.文脈と結びつけるか、切り離すか A.どちらも有効で、必要 Communicative な方法だけでは非常に効率が悪い A.どちらも有効で、必要 Communicative な方法だけでは非常に効率が悪い (付随的語彙学習では、平均して10回以上の encounter が必要だと考えられる (Waring & Takaki, 2003 ほか)) フラッシュカードなどの対連合学習も暗示的知識になりえる(Elgort, 2007)が、 Sequential Learning はダメ ⇒ノートよりカードの方がいいかもしれない・・・(?) Spaced Retrieval = 同じ語の学習間隔を少しずつ伸ばしていく さまざまな webツールや スマホのアプリの利用 ストラテジー教育は有効な場合が多い
(C) 結局・・・ 初めは、「ニーズ領域に合った」会話や読解などの素材で、文脈で学ぶのがよい 並行してフラッシュカードなどの Language-focused learning も入れる 一定期間(日/週/月/学期/年・・・)にどのぐらいの語数や漢字数を学習できるのか、おおよそ把握する(個人差が大きいが・・・) 教師にできることは・・・ 読解の素材の語彙レベルをコントロールし、段階的に語彙レベルを上げるように仕組むこと 聴解は、それがむずかしい。リライトできないので。中級レベルで使える、生に近い聴解素材を探す 例)NHK: NEWS WEB EASY 短いスパンで同一語を数回リサイクルするようなタスクを用意すること
(3)漢字の問題 漢字は書字形態の学習の難易に手がかりがある(画数、頻度、パーツの頻度など) しかし意味の学習単位はやはり語が中心であるべき まずは語でレベル付けをして、それから漢字のコントロール(書き換え/振り仮名など)を考える J-LEXは役に立つはず http://www17408ui.sakura.ne.jp/index.html
母語の影響 中国語系学習者(CBL)は“意味理解に限定すれば”日本語の初級、中級語彙の3分の1は基本義が理解できる (松下2011b, 2012a) CBLとnon-CBLの間で難易度の大きな差があったのはほとんどが中国語と同形同義の漢語 潜伏(する) 前途 反(政府) 共犯 貧困(な) 対決(する) 気温 元凶 故郷 未満 慈善 符合(する) 費用 肩 腸 学者 周期 炊飯 要領 粒子 外来語の理解における英語知識の影響は、英語が母語に近いレベルであればかなり大きい(カタカナから音韻のdecodingが正しくできれば低頻度語彙でも数パーセントの語彙が理解できる)
参考文献(1) Anthony, L. (2007). AntConc Version 3.2.1 (text analysis tool) http://www.antlab.sci.waseda.ac.jp/software.html (Version 1.0 first published in 2002) Anthony, L. (2009). AntWordProfiler 1.200w program. Downloaded from http://www.antlab.sci.waseda.ac.jp/software.html Bernhardt, E. (2005). Progress and procrastination in second language reading. Annual Review of Applied Linguistics, 25, 133–150. doi:10.1017/S0267190505000073 Chujo, K., & Utiyama, M. (2006). Selecting level-specific specialized vocabulary using statistical measures. System, 34, 255-269. Coxhead, A. (2000). A new academic word list. TESOL Quarterly, 34(2), 213-238. Dunning, T. (1993). Accurate methods for the statistics of surprise and coincidence. Computational Linguistics, 19, 61–74. Hu, M., & Nation, I. S. P. (2000). Vocabulary density and reading comprehension. Reading in a Foreign Language, 13(1), 403-430. Juilland, A., & Chang-Rodrigues, E. (1964). Frequency Dictionary of Spanish Words. London: Mouton & Co. Kawamura, Y., Kitamura, T., & Hobara, R. (1997). Reading Tutor (リーディング・チュー太). Cited from http://language.tiu.ac.jp/index_e.html Koda, K. (1989). The Effects of Transferred Vocabulary Knowledge on the Development of L2 Reading Proficiency. Foreign Language Annals, 22(6), 529–540. doi:10.1111/j.1944-9720.1989.tb02780.x Laufer, B. (1994). The lexical profile of second language writing: does it change over time? RELC Journal, 25(2), 21-33. Laufer, B., & Ravenhorst-Kalovski, G. C. (2010). Lexical threshold revisited: Lexical text coverage, learners’ vocabulary size and reading comprehension. Reading in a Foreign Language, 22(1), 15–30. Leech, G., Rayson, P., & Wilson, A. (2001). Word Frequencies in Written and Spoken English. Harlow: Longman.
参考文献(2) Matsushita, T. (2011a). Is the vocabulary learning burden of Japanese really heavier than that of English? The 17th Biennial Conference of the Japanese Studies Association of Australia. University of Melbourne, Melbourne, Australia, 6 July 2011. Matsushita, T. (2011b). Exploring the tiers of Japanese vocabulary: Academic, literary and beyond. The 2nd Combined Conference of Applied Linguistics Association of Australia & Applied Linguistics Association of New Zealand. Australian National University, Canberra, Australia, 2 December 2011. Matsushita, T. (2012) In What Order Should Learners Learn Japanese Vocabulary? A Corpus-based Approach. PhD dissertation, Victoria University of Wellington, Wellington. Nation, I.S.P. (2006). How Large a Vocabulary Is Needed for Reading and Listening? The Canadian Modern Language Review, 63(1): 59-82 Nation, P., & Beglar, D. (2007). A vocabulary size test. The Language Teacher, 31(7), 9–13. Utiyama, M. and Isahara, H. (2003) Reliable Measures for Aligning Japanese-English News Articles and Sentences. ACL-2003, 72-79. Waring, R., & Takaki, M. (2003). At what rate do learners learn and retain new vocabulary from reading a graded reader? Reading in a Foreign Language, 15(2), 130-163. 工藤 拓 (2006). MeCab Ver. 0.98pre3(形態素解析器) http://mecab.sourceforge.net/ 2009年7月10日 小森和子・三國純子・近藤安月子 (2004)「文章理解を促進する語彙知識の量的側面 ―既知語率の閾値探索の試み―」『日本語教育』 125, 83-92.
参考文献(3) 伝 康晴・山田 篤・小椋秀樹・小磯花絵・小木曽智信 (2009). UniDic version 1.3.12(解析辞書) http://www.tokuteicorpus.jp/dist/ (Ver. 1.3.0.は 2007) 野口裕之 (2008)「試験結果の分析」国際交流基金・日本国際教育支援協会『平成17年度日本語能力試験 分析評価に関する報告書』 45–111、凡人社 松下達彦 (2010) 「日本語を読むために必要な語彙とは? -書籍とインターネットの大規模コーパスに基づく語彙リストの作成-」『2010年度日本語教育学会春季大会予稿集』335-336. 松下達彦 (2011a) 日本語を読むための語彙データベース (The Vocabulary Database for Reading Japanese). http://www.geocities.jp/tatsum2003/ 2011年5月22日 松下達彦 (2011b) 「複数の語彙リストの比較による、日本語の常用語に含まれる日中同形漢語の量的検証 -学習開始時点で、受容的語彙知識は、学習者の母語によりどのぐらい異なるか-」The 4th Annual North East Asian Region (N.E.A.R.) Language Education Conference, International University of Japan, Niigata, Japan, 28 May 2011. 松下達彦 (2011c) 「日本語の学術共通語彙(アカデミック・ワード)の抽出と妥当性の検証」『2011年度 日本語教育学会春季大会 予稿集』 244–249. 松下達彦 (2012a)「日本語を読むための語彙量テスト」の開発」『2012年日本語教育国際研究大会予稿集第一分冊』 310. 松下達彦 (2012b) 「日本語文芸語彙の抽出と検証 ―コーパスに基づくアプローチ―」第九回国際日本語教育・日本研究シンポジウム、香港城市大学、2012年11月24日
ホームページ (「松下」「言語」で検索してください) http://www17408ui.sakura.ne.jp/tatsum/