効率的な語彙学習順序とは -コーパスに基づくアプローチ-

Slides:



Advertisements
Similar presentations
ゲームプログラミング講習 第2章 関数の使い方
Advertisements

サービス管理責任者等研修テキスト 分野別講義    「アセスメントと        支援提供の基本姿勢」 <児童発達支援管理責任者> 平成27年10月1日.
ヒトの思考プロセスの解明を目的とするワーキングメモリの研究
第27講 オームの法則 電気抵抗の役割について知る オームの法則を使えるようにする 抵抗の温度変化を理解する 教科書P.223~226
コラッツ予想の変形について 東邦大学 理学部 情報科 白柳研究室 山中 陽子.
コンパイラ 第3回 字句解析 ― 決定性有限オートマトンの導出 ―
第5章 家計に関する統計 ー 経済統計 ー.
公共財 公共経済論 II no.3 麻生良文.
VTX alignment D2 浅野秀光 2011年12月15日  放射線研ミーティング.
冷却フランシウム原子を用いた 電子の永久電気双極子能率探索のための ルビジウム磁力計の研究
生命情報学 (8) スケールフリーネットワーク
前半戦 「史上最強」風 札上げクイズ.

認知症を理解し 環境の重要性について考える
フッ化ナトリウムによる洗口 2010・9・13 宮崎市郡東諸県郡薬剤師会 学校薬剤師  日高 華代子.
食品の安全性に関わる社会システム:総括 健康弱者 ハイリスク集団 HACCP (食肉処理場・食品工場) 農場でのQAP 一般的衛生管理
規制改革とは? ○規制改革の目的は、経済の活性化と雇用の創出によって、   活力ある経済社会の実現を図ることにあります。
地域保健対策検討会 に関する私見(保健所のあり方)
公共政策大学院 鈴木一人 第8回 専門化する政治 公共政策大学院 鈴木一人
医薬品ネット販売規制について 2012年5月31日 ケンコーコム株式会社.
平成26年8月27日(水) 大阪府 健康医療部 薬務課 医療機器グループ
平成26年度 呼吸器学会からの提案結果 (オレンジ色の部分が承認された提案) 新規提案 既収載の変更 免疫組織化学染色、免疫細胞化学染色
エナジードリンクの危険性 2015年6月23日 経営学部市場戦略学科MR3195稲沢珠依.
自動吸引は 在宅を変えるか 大分協和病院 院長         山本 真.
毎月レポート ビジネスの情報 (2016年7月号).
医療の歴史と将来 医療と医薬品産業 個人的経験 3. 「これからの医療を考える」 (1)医薬品の研究開発 -タクロリムスの歴史-
社会福祉調査論 第4講 2.社会調査の概要 11月2日.
2015年12月28日-2016年3月28日 掲載分.
2010度 民事訴訟法講義 補論 関西大学法学部教授 栗田 隆.
腫瘍学概論 埼玉医科大学国際医療センター 包括的がんセンター 緩和医療科/緩和ケアチーム 奈良林 至
“企業リスクへの考え方に変化を求められています。 トータルなリスクマネジメント・サービスをプロデュースします。“
情報漏えい 経済情報学科 E  西村 諭 E  釣 洋平.
金融班(ミクロ).
第11回 2009年12月16日 今日の資料=A4・4枚+解答用紙 期末試験:2月3日(水)N2教室
【ABL用語集】(あいうえお順) No 用語 解説 12 公正市場価格 13 債権 14 指名債権 15 事業収益資産 16 集合動産 17
基礎理論(3) 情報の非対称性と逆選択 公共政策論II No.3 麻生良文.
浜中 健児 昭和42年3月27日生まれ 東京都在住 株式会社ピー・アール・エフ 代表取締役 (学歴) 高 校:千葉県立東葛飾高校 卒業
COPYRIGHT(C) 2011 KYUSHU UNIVERSITY. ALL RIGHTS RESERVED
Blosxom による CMS 構築と SEO テクニック
記入例 JAWS DAYS 2015 – JOB BOARD 会社名 採用職種 営業職/技術職/その他( ) 仕事内容 待遇 募集数
ネットビジネスの 企業と特性 MR1127 まさ.
Future Technology活用による業務改革
ネットビジネス論(杉浦) 第8回 ネットビジネスと情報技術.
g741001 長谷川 嵩 g740796 迫村 光秋 g741000 西田 健太郎 g741147 小井出 真聡
自然独占 公共経済論 II no.5 麻生良文.
Autonomic Resource Provisioning for Cloud-Based Software
Webショップにおける webデザイン 12/6 08A1022 甲斐 広大.
物理的な位置情報を活用した仮想クラウドの構築
ハイブリッドクラウドを実現させるポイントと SCSKのOSSへの取組み
寺尾 敦 青山学院大学社会情報学部 第12回 情報デザイン(4) 情報の構造化と表現 寺尾 敦 青山学院大学社会情報学部
【1−1.開発計画 – 設計・開発計画】 システム開発計画にはシステム開発を効率的、効果的に実行する根拠(人員と経験、開発手順、開発・導入するシステム・アプリケーション・サービス等)を記述すること。 システム開発の開始から終了までの全体スケジュールを記載すること。 アプリケーション機能配置、ソフトウェア、インフラ構成、ネットワーク構成について概要を示すこと。
6 日本のコーポレート・ガバナンス 2008年度「企業論」 川端 望.
急成長する中国ソフトウェア産業 中国ソフトウェアと情報サービス産業の規模 総売上高は5年間で約5.3倍の成長
米国ユタ州LDS病院胸部心臓外科フェローの経験
公益社団法人日本青年会議所 関東地区埼玉ブロック協議会 JCの情熱(おもい)育成委員会 2011年度第1回全体委員会
次世代大学教育研究会のこれまでの活動 2005年度次世代大学教育研究大会 明治大学駿河台校舎リバティタワー9階1096教室
子どもの本の情報 大阪府内の協力書店の情報 こちらをクリック 大阪府内の公立図書館・図書室の情報
第2回産業調査 小島浩道.
〈起点〉を示す格助詞「を」と「から」の選択について
広東省民弁本科高校日語専業骨幹教師研修会 ①日本語の格助詞の使い分け ②動詞の自他受身の選択について   -日本語教育と中日カルチャーショックの観点から- 名古屋大学 杉村 泰.
■5Ahバッテリー使用報告 事例紹介/東【その1】 ■iphon4S(晴れの昼間/AM8-PM3) ◆約1時間で68%⇒100%
『ワタシが!!』『地域の仲間で!!』 市民が始める自然エネルギー!!
ポイントカードの未来形を形にした「MUJI Passport」
SAP NetWeaver を支える Microsoft テクノロジーの全貌 (Appendix)
ガイダンス(内業) 測量学実習 第1回.
Python超入門 久保 幹雄 東京海洋大学.
熱力学の基礎 丸山 茂夫 東京大学大学院 工学系研究科 機械工学専攻
京都民医連中央病院 CHDF学習推進委員会
資料2-④ ④下水道.
Accessによる SQLの操作 ~実際にテーブルを操作してみよう!~.
Presentation transcript:

効率的な語彙学習順序とは -コーパスに基づくアプローチ- 松下達彦(東京大学) 学習者コーパスから見た日本語習得の難易度に基づく 語彙・文法シラバスの構築 第12回共同研究会 2014年4月19日(国立国語研究所)

以下のスライドに関する補足(2017年2月23日)

概要 「効率的」とは 理論的背景(1)読解力に占める語彙力 理論的背景(2)既知語率と読解レベルの関係 共通ニーズ抽出の必要 領域特徴語の抽出:(1)学術共通語彙、  (2)限定学術領域語彙、(3)文芸語彙 テキストカバー効率(TCE)の提案 ジャンルによる効率的語彙学習順序の違い ニーズと「学習難易度」の視点 まとめ

1.「効率的」とは? 「学習の難易度」は・・・ここでは無視 どうすればより少ない語彙学習量で「読める(聞ける)」ようになるか 受容的活動(「聞く」「読む」)では難しいから無視するというわけにはいかない 読解(聴解)における既知語のテキストカバー率をできるだけ早く上げる 仮定:語彙習得はおおよそ頻度順に進む 一般的に・・・ 形式においては高頻度の語/字は易しいものが多い。が・・・ 意味・用法においては高頻度であるほど多義的・多用法の語・字が多い

2.理論的背景 (1)読解力に占める語彙力 語彙力が読解力に占める割合 英語では・・・約3割程度か(Bernhardt, 2005) 日本語ではもう少し高そう 漢字があるから? 55%    Koda(1989)より計算 47%    小森ほか(2004) 40%以上 野口(2008)より計算 理論的には、読解も聴解も同じ ただし、 読解はリライトがしやすいが、聴解は難しい

3.理論的背景 (2)既知語率と読解レベルの関係 既知語の割合 Text coverage (テキストカバー率) by known words 英語では・・・既知語率95%と98%が一つの目安 95%:テキストがある程度理解できるレベル 98%:自力で読解を楽しめるレベル (Hu & Nation, 2000; Laufer & Ravenhorst-Kalovski, 2010など) 日本語では・・・もう少し低い既知語率でよいのでは? 96%程度に閾値? (小森ほか2004) 意味的透明度の高い多数の漢字語の存在  (Matsushita, 2011a=後述)

媒体による必要語数のちがい 日本語能力検定試験でいう初級・中級・上級とは? 英語教育では? (Nation, 2006) BCCWJ(2009年モニター版、書籍とYahoo知恵袋)では? Yahoo知恵袋を読むのに、約5300語で95%のカバー率 書籍等を含めて平均的に9500語で95%   ・・・95%では、自力で読みこなすには少し足りないか(?)

どの程度の語彙量で生教材が読めるか

理解語彙量による直観的、暫定的なレベル分け (対象は日本の大学で学ぶ大学生で、文法、会話等の能力はここでは無視する。語数は書きことばの理解語数と考える。) 初級:「上位約1500語+α」で計3000語程度まで 中級:「上位約1500語+α」で計12000語程度まで ・・・非常に広い 上級:「上位約7000語+α」で計12000語以上      ・・・生教材(に近いテキスト)が使えるレベル 母語話者・・・研究予定      (従来言われている語数よりも少ないことを予想) 計数単位の問題:「富士山」の「山」や「大教室」の「大」を            どう数えるか?           ⇒「語」に準じるものとして数えるのが現実的             “学習負担の原則”

4.共通ニーズ抽出の必要 個別のニーズに応じて、ニーズ領域の頻度順に語彙学習をするのが一番効率的 しかし、クラス授業では・・・ 普通の機関では個別対応は難しい ニーズが明確でない学習者も多い ニーズが幅広い学習者も多い(例:ジャーナリスト志望) 大学では一般に、学術ニーズは少しずつ狭まっていく  教養 文系  社会科学 経済学

5.領域特徴語の抽出 使用したテキストと計数単位 『現代日本語書き言葉均衡コーパス』(BCCWJ) モニター公開データ(2009年版)(国立国語研究所2009) 書籍部分(約2800万語)+Yahoo知恵袋(約500万語)合計約3300万語 計数単位(語の区切り):UniDicの短単位  (ほぼ形態素レベル) 形態素解析器:MeCab(工藤2006) 解析用辞書:UniDic(伝ほか2009)  (UniDicの出力をAntWordProfiler で使用するため,   テキストエディタ上でマクロを作成して加工) (出版社の販売対象コード)

特徴語の抽出方法 特徴語の抽出には 対象コーパス 参照コーパス の二つが必要(対象語彙が含まれる割合を比較) AntConc (Anthony, 2007) のkeyness 機能を利用 特徴語の抽出には 対象コーパス 参照コーパス の二つが必要(対象語彙が含まれる割合を比較) 対数尤度比(log-likelihood ratio) (Dunning, 1993) (正規分布などの)特定の分布を要求しない テキストの大きさが異なる場合にも比較可能な値を返す(Leech, Rayson, & Wilson, 2001) 適度な割合で特徴語を抽出 (Chujo & Utiyama, 2006) 方法の詳細は松下(2011a; 2012b)を参照 (出版社の販売対象コード)

テストコーパス(特徴語抽出の際に使用していないコーパス) (MC) 会話:名大会話コーパス(日本語母語話者同士の雑談),約113万語 (BS) 一般書:『現代日本語書き言葉均衡コーパス』2009年モニター版(国立国語研究所2009)「ベストセラー」部分(文芸テキスト数が53%,専門テキストなし),約230万語 (PC) 一般書:「日英対訳文対応付けデータ」(内山・高橋2003)の日本語部分(文芸書,エッセイなど),210万語 (JN) 新聞:日英新聞記事対応付けデータ (JENAAD) (Utiyama & Isahara, 2003)の日本語部分(1989-2001の「読売新聞」記事)約568万語 (IS) 人文・社会系専門テキスト:新屋・松下編(未公刊)『日本語上級読解演習 国際学アラカルト』本文部分,約4万語 (TB) 社会系専門テキスト:「中・上級社会科学系読解教材テキストバンク」(東京外国語大学留学生日本語教育センター1998)本文部分,約19万語 (SS) 社会系専門テキスト:『留学生のための専門講義の日本語』(名古屋大学 国際化拠点整備事業2010 )全9冊中,社会系の3冊分の講義テキスト部分,約5万語 (TN) 理工系専門テキスト:『留学生のための専門講義の日本語』(同上)全9冊中,理工系の5冊分の講義テキスト部分,約7万語 (BM) 生物・医学系専門テキスト:『留学生のための専門講義の日本語』(同上)全9冊中,生物・医学系の1冊分の講義テキスト部分,約1万語

(1)学術共通語彙、(2)限定学術共通語彙 (JAWL = Japanese Academic Word List) 学術共通語彙リスト (JAWL = Japanese Academic Word List) 0~Ⅷ 9レベル,計2591語(表1) 中級の JAWLⅠ:学習・教育上,最も重要なリスト 初級には学術共通語彙の数も少ない JAWLⅠ 559語 Academic Word List (Coxhead, 2000)570語に近い語数 カバー率もAWLに非常に近い 抽出時使用の学術コーパスのカバー率 AWL: 10.0% JAWLⅠ: 11.1%

初級語彙(JAWL0含む) +JAWLⅠ 20.4% 人類学は一般に、人類の進化や生物学的側面を研究する自然人類学と、人類の社会的・文化的側面を研究する文化人類学(CulturalAnthropology)あるいは社会人類学(SocialAnthropology)に大別される。文化人類学の名称はアメリカにおいて用いられ、イギリスおよび多くのヨーロッパ諸国では「社会人類学」の名称が用いられてきた。他のヨーロッパ諸国や日本においては民族学(英語圏でのEthnology、ドイツ語圏でのEthnologie)の名称も用いられている(民族学を一分野とする場合も多い)。民俗学(Folklore)もまた隣接分野として共通の研究テーマを共有することが多い。 自然人類学は、人類を進化の過程によって形作られてきた生物学的側面から捉える。それに対して、文化人類学は自然の対義としての文化から人類を研究しようとする学問分野である。文化とは、進化の過程を経て形成された遺伝的な形質のことではなく、人類が後天的に学習した行動パターンや言語、人工物の総体を指している。したがって文化人類学の隣接科学には言語学と考古学があり、アメリカの学部ではこれらの学問に加えて自然人類学をあわせて総合的に教育されている。

初級語彙 (JAWL0含む) +JAWLⅠ 計78.1% 人類学は一般に、人類の進化や生物学的側面を研究する自然人類学と、人類の社会的・文化的側面を研究する文化人類学(CulturalAnthropology)あるいは社会人類学(SocialAnthropology)に大別される。文化人類学の名称はアメリカにおいて用いられ、イギリスおよび多くのヨーロッパ諸国では「社会人類学」の名称が用いられてきた。他のヨーロッパ諸国や日本においては民族学(英語圏でのEthnology、ドイツ語圏でのEthnologie)の名称も用いられている(民族学を一分野とする場合も多い)。民俗学(Folklore)もまた隣接分野として共通の研究テーマを共有することが多い。 自然人類学は、人類を進化の過程によって形作られてきた生物学的側面から捉える。それに対して、文化人類学は自然の対義としての文化から人類を研究しようとする学問分野である。文化とは、進化の過程を経て形成された遺伝的な形質のことではなく、人類が後天的に学習した行動パターンや言語、人工物の総体を指している。したがって文化人類学の隣接科学には言語学と考古学があり、アメリカの学部ではこれらの学問に加えて自然人類学をあわせて総合的に教育されている。

初級語彙(JAWL0含む)+JAWLⅠ+JAWLⅡ 6.4% 人類学は一般に、人類の進化や生物学的側面を研究する自然人類学と、人類の社会的・文化的側面を研究する文化人類学(CulturalAnthropology)あるいは社会人類学(SocialAnthropology)に大別される。文化人類学の名称はアメリカにおいて用いられ、イギリスおよび多くのヨーロッパ諸国では「社会人類学」の名称が用いられてきた。他のヨーロッパ諸国や日本においては民族学(英語圏でのEthnology、ドイツ語圏でのEthnologie)の名称も用いられている(民族学を一分野とする場合も多い)。民俗学(Folklore)もまた隣接分野として共通の研究テーマを共有することが多い。 自然人類学は、人類を進化の過程によって形作られてきた生物学的側面から捉える。それに対して、文化人類学は自然の対義としての文化から人類を研究しようとする学問分野である。文化とは、進化の過程を経て形成された遺伝的な形質のことではなく、人類が後天的に学習した行動パターンや言語、人工物の総体を指している。したがって文化人類学の隣接科学には言語学と考古学があり、アメリカの学部ではこれらの学問に加えて自然人類学をあわせて総合的に教育されている。

領域別の特徴 新聞には初級語彙が少なく, 中級の学術共通語彙が多い 理系(理工系,生物・医学系)には 文系(人文系,社会系)より上級の学術共通語彙が多い 3領域語(JAWLⅡなど)に欠けている1領域(一般テキストと比較して学術テキストで高い割合を示さなかった領域) 生物・医学系が1630語中613語(37.6%)と最多 以下,人文系440語(27.0%),理工系343語(21.0%),社会系234語(14.4%) 社会系は理工系や人文系との共通性が高い  生物・医学系は他の領域との共通性が相対的に低い

(3)文芸語彙 文芸語彙リスト (JLW = Japanese Literary Words) 5レベル,計1616語(表1) 中~上級に多く分布 名詞(39.9%)、動詞(34.0%) 学術共通語彙と比べ動詞、副詞、間投詞が多い 7割以上は和語 漢語が4分の3を占める学術共通語彙と対照的

日本語文芸語彙の特徴 1) 身体部位を表す語(「首」「指先」「まぶた」) 2) 身体動作を表す語(「立ち上がる」「 飛び出す」「 引っ張る」) 3) 陳述や様態の副詞(「ちっとも」「たちまち」「きらきら」) 4) 間投詞(「おや」「へー」「ほら」) 5) 縮約や地域語などの口語的表現(「こりゃ」「-ちまう」「-はる」「-さかい」) 6)比喩に用いられる語(「振り向く」「流れる」「かみしめる」) 7) 作品の背景(舞台装置・小道具)に用いられやすい物体を表す語(「ビール」「岩」「ソファー」) 総じて言えば「人間の感情や動作を生き生きと描写する語彙」 性的描写や殺人、戦争を連想させる語も目立つ。コーパスは厳密なサンプリングによるものなので、冒険、推理、サスペンス、歴史などが多く題材になっているためだと考えられる。

6.テキストカバー効率(TCE)の提案 E = 𝐹 𝑡 𝐿 𝑡𝑤 × 1,000,000 𝑁 𝑡 = 𝐹 𝑡 ×1,000,000 𝐿 𝑡𝑤 × 𝑁 𝑡   E: テキストカバー効率 = 対象となる語群の中のある1語の、対象領域テキスト100万語あたりに期待される延べ語数 𝐹 𝑡 :対象領域テキストにおける対象となる語群の延べ語数 𝐿 𝑡𝑤 :対象領域テキストにおける対象となる語群の異なり語数(異なり語彙素数) 𝑁 𝑡 : 対象テキストの延べ語数(テキストの長さ)

テキストカバー効率(TCE)の考え方 The idea behind TCE is simply that it is better to gain more text coverage by a smaller number of learned lexemes. In other words, even if a group of words provide high text coverage, it will not always be efficient to learn the group of words if the group has many lexemes to learn. Therefore, the average number of tokens to be covered by a word in the group needs to be calculated. High efficiency in vocabulary learning is that more words in a text are covered by fewer learned words. TCE is assumed to predict the average efficiency in gaining text coverage by learning a word of the group.

7.ジャンルによる効率的語彙学習順序の違い (1) TCE of the Grouped Words by Genre (Not Graded by Level) *Domain-unspecified

(2) Ranking for TCE of the Grouped Words in Each Genre (Not Graded by Level) *Domain-unspecified

TCE in Biological Natural Science Journal Articles by Type of and Level of Grouped Words TCE: Text Covering Efficiency = Expected number of tokens of a lexeme in the tested group in a one-million-token text in the target domain

TCE in Biological Natural Science Journal Articles by Type of and Level of Grouped Words TCE: Text Covering Efficiency = Expected number of tokens of a lexeme in the tested group in a one-million-token text in the target domain

8.ニーズと「学習難易度」の視点 (1)ニーズ分析の問題 母語話者中心のコーパスの分析はニーズ中心の考え方 学習者コーパスは語彙ニーズを反映するとは言い切れない 学習者の場面と話題のニーズを調査し、そこでの母語話者/学習者の両方のコーパスデータが望ましいのでは

(2)語の学習難易度の問題 単語の学習難易度は(接触頻度の問題を除けば)一般に初級ほど高い。多義語が多いため。 多義語の各用法を同時に初出で学ぶ必要はない。負担にならないのがよい。 (類義語を同時提出しがちだが)類義語を同時に初出で学ぶのは良くない。混乱する。(先行研究多数) 結局、ニーズ領域に沿って頻度の高いものから学ぶのがよい ある程度定着して、類義語の違いに意識が向いたところで学ぶのは効果があるはず

(A)類義・類形の語の学習 意味や用法の似ている語はいっしょに教える? 形の似ている語はいっしょに教える? 初出で、同時に二つ以上の類義語/類義字を教えるのは×  *混乱を招きそうな既存教材が少なくない 一方が定着した後でもう一つを学ぶのは○ 疑問を感じたところで整理するのは○だが、まずは一方に力を入れる 形の似ている語はいっしょに教える? 初出で、同時に二つ以上の類形語、類形字を教えるのは× 同じ文脈で用いる語はいっしょに教える? Syntagmatic な関係(共起語)は○ Paradigmatic な関係(類義語/上位語・下位語)は基本的に×

(B) その他 Q.文脈と結びつけるか、切り離すか A.どちらも有効で、必要 Communicative な方法だけでは非常に効率が悪い  A.どちらも有効で、必要   Communicative な方法だけでは非常に効率が悪い   (付随的語彙学習では、平均して10回以上の encounter   が必要だと考えられる (Waring & Takaki, 2003 ほか)) フラッシュカードなどの対連合学習も暗示的知識になりえる(Elgort, 2007)が、 Sequential Learning はダメ  ⇒ノートよりカードの方がいいかもしれない・・・(?) Spaced Retrieval = 同じ語の学習間隔を少しずつ伸ばしていく さまざまな webツールや スマホのアプリの利用 ストラテジー教育は有効な場合が多い

(C) 結局・・・ 初めは、「ニーズ領域に合った」会話や読解などの素材で、文脈で学ぶのがよい 並行してフラッシュカードなどの Language-focused learning も入れる 一定期間(日/週/月/学期/年・・・)にどのぐらいの語数や漢字数を学習できるのか、おおよそ把握する(個人差が大きいが・・・) 教師にできることは・・・ 読解の素材の語彙レベルをコントロールし、段階的に語彙レベルを上げるように仕組むこと 聴解は、それがむずかしい。リライトできないので。中級レベルで使える、生に近い聴解素材を探す 例)NHK: NEWS WEB EASY 短いスパンで同一語を数回リサイクルするようなタスクを用意すること

(3)漢字の問題 漢字は書字形態の学習の難易に手がかりがある(画数、頻度、パーツの頻度など) しかし意味の学習単位はやはり語が中心であるべき まずは語でレベル付けをして、それから漢字のコントロール(書き換え/振り仮名など)を考える J-LEXは役に立つはず http://www17408ui.sakura.ne.jp/index.html

母語の影響 中国語系学習者(CBL)は“意味理解に限定すれば”日本語の初級、中級語彙の3分の1は基本義が理解できる (松下2011b, 2012a) CBLとnon-CBLの間で難易度の大きな差があったのはほとんどが中国語と同形同義の漢語 潜伏(する) 前途 反(政府) 共犯 貧困(な) 対決(する) 気温 元凶 故郷 未満 慈善 符合(する) 費用 肩 腸 学者 周期 炊飯 要領 粒子 外来語の理解における英語知識の影響は、英語が母語に近いレベルであればかなり大きい(カタカナから音韻のdecodingが正しくできれば低頻度語彙でも数パーセントの語彙が理解できる)

参考文献(1) Anthony, L. (2007). AntConc Version 3.2.1 (text analysis tool) http://www.antlab.sci.waseda.ac.jp/software.html (Version 1.0 first published in 2002) Anthony, L. (2009). AntWordProfiler 1.200w program. Downloaded from http://www.antlab.sci.waseda.ac.jp/software.html Bernhardt, E. (2005). Progress and procrastination in second language reading. Annual Review of Applied Linguistics, 25, 133–150. doi:10.1017/S0267190505000073 Chujo, K., & Utiyama, M. (2006). Selecting level-specific specialized vocabulary using statistical measures. System, 34, 255-269. Coxhead, A. (2000). A new academic word list. TESOL Quarterly, 34(2), 213-238. Dunning, T. (1993). Accurate methods for the statistics of surprise and coincidence. Computational Linguistics, 19, 61–74. Hu, M., & Nation, I. S. P. (2000). Vocabulary density and reading comprehension. Reading in a Foreign Language, 13(1), 403-430. Juilland, A., & Chang-Rodrigues, E. (1964). Frequency Dictionary of Spanish Words. London: Mouton & Co. Kawamura, Y., Kitamura, T., & Hobara, R. (1997). Reading Tutor (リーディング・チュー太). Cited from http://language.tiu.ac.jp/index_e.html Koda, K. (1989). The Effects of Transferred Vocabulary Knowledge on the Development of L2 Reading Proficiency. Foreign Language Annals, 22(6), 529–540. doi:10.1111/j.1944-9720.1989.tb02780.x Laufer, B. (1994). The lexical profile of second language writing: does it change over time? RELC Journal, 25(2), 21-33. Laufer, B., & Ravenhorst-Kalovski, G. C. (2010). Lexical threshold revisited: Lexical text coverage, learners’ vocabulary size and reading comprehension. Reading in a Foreign Language, 22(1), 15–30. Leech, G., Rayson, P., & Wilson, A. (2001). Word Frequencies in Written and Spoken English. Harlow: Longman.

参考文献(2) Matsushita, T. (2011a). Is the vocabulary learning burden of Japanese really heavier than that of English? The 17th Biennial Conference of the Japanese Studies Association of Australia. University of Melbourne, Melbourne, Australia, 6 July 2011. Matsushita, T. (2011b). Exploring the tiers of Japanese vocabulary: Academic, literary and beyond. The 2nd Combined Conference of Applied Linguistics Association of Australia & Applied Linguistics Association of New Zealand. Australian National University, Canberra, Australia, 2 December 2011. Matsushita, T. (2012) In What Order Should Learners Learn Japanese Vocabulary? A Corpus-based Approach. PhD dissertation, Victoria University of Wellington, Wellington. Nation, I.S.P. (2006). How Large a Vocabulary Is Needed for Reading and Listening? The Canadian Modern Language Review, 63(1): 59-82 Nation, P., & Beglar, D. (2007). A vocabulary size test. The Language Teacher, 31(7), 9–13. Utiyama, M. and Isahara, H. (2003) Reliable Measures for Aligning Japanese-English News Articles and Sentences. ACL-2003, 72-79. Waring, R., & Takaki, M. (2003). At what rate do learners learn and retain new vocabulary from reading a graded reader? Reading in a Foreign Language, 15(2), 130-163. 工藤 拓 (2006). MeCab Ver. 0.98pre3(形態素解析器) http://mecab.sourceforge.net/ 2009年7月10日 小森和子・三國純子・近藤安月子 (2004)「文章理解を促進する語彙知識の量的側面 ―既知語率の閾値探索の試み―」『日本語教育』 125, 83-92.

参考文献(3) 伝 康晴・山田 篤・小椋秀樹・小磯花絵・小木曽智信 (2009). UniDic version 1.3.12(解析辞書) http://www.tokuteicorpus.jp/dist/ (Ver. 1.3.0.は 2007) 野口裕之 (2008)「試験結果の分析」国際交流基金・日本国際教育支援協会『平成17年度日本語能力試験 分析評価に関する報告書』 45–111、凡人社 松下達彦 (2010) 「日本語を読むために必要な語彙とは? -書籍とインターネットの大規模コーパスに基づく語彙リストの作成-」『2010年度日本語教育学会春季大会予稿集』335-336. 松下達彦 (2011a) 日本語を読むための語彙データベース (The Vocabulary Database for Reading Japanese). http://www.geocities.jp/tatsum2003/ 2011年5月22日 松下達彦 (2011b) 「複数の語彙リストの比較による、日本語の常用語に含まれる日中同形漢語の量的検証 -学習開始時点で、受容的語彙知識は、学習者の母語によりどのぐらい異なるか-」The 4th Annual North East Asian Region (N.E.A.R.) Language Education Conference, International University of Japan, Niigata, Japan, 28 May 2011. 松下達彦 (2011c) 「日本語の学術共通語彙(アカデミック・ワード)の抽出と妥当性の検証」『2011年度 日本語教育学会春季大会 予稿集』 244–249. 松下達彦 (2012a)「日本語を読むための語彙量テスト」の開発」『2012年日本語教育国際研究大会予稿集第一分冊』 310. 松下達彦 (2012b) 「日本語文芸語彙の抽出と検証 ―コーパスに基づくアプローチ―」第九回国際日本語教育・日本研究シンポジウム、香港城市大学、2012年11月24日

ホームページ (「松下」「言語」で検索してください) http://www17408ui.sakura.ne.jp/tatsum/