効率的な語彙学習順序とは－コーパスに基づくアプローチ－

Slides:

Advertisements

Similar presentations

ゲームプログラミング講習第2章関数の使い方

Advertisements

サービス管理責任者等研修テキスト分野別講義　　　「アセスメントと　　　　　　　支援提供の基本姿勢」＜児童発達支援管理責任者＞平成２７年１０月１日.

ヒトの思考プロセスの解明を目的とするワーキングメモリの研究

第２７講オームの法則電気抵抗の役割について知るオームの法則を使えるようにする抵抗の温度変化を理解する教科書Ｐ．223～226

コラッツ予想の変形について東邦大学　理学部　情報科白柳研究室山中　陽子.

コンパイラ第3回字句解析 ― 決定性有限オートマトンの導出 ―

第5章家計に関する統計ｰ経済統計ｰ.

公共財公共経済論 II no.3 麻生良文.

VTX alignment D2 浅野秀光２０１１年１２月１５日　放射線研ミーティング.

冷却フランシウム原子を用いた電子の永久電気双極子能率探索のためのルビジウム磁力計の研究

生命情報学（８）スケールフリーネットワーク

前半戦「史上最強」風札上げクイズ.

認知症を理解し環境の重要性について考える

フッ化ナトリウムによる洗口２０１０・９・１３宮崎市郡東諸県郡薬剤師会学校薬剤師　　日高　華代子.

食品の安全性に関わる社会システム：総括健康弱者ハイリスク集団 HACCP （食肉処理場・食品工場）農場でのQAP 一般的衛生管理

規制改革とは？ ○規制改革の目的は、経済の活性化と雇用の創出によって、　活力ある経済社会の実現を図ることにあります。

地域保健対策検討会に関する私見（保健所のあり方）

公共政策大学院鈴木一人第8回　専門化する政治公共政策大学院鈴木一人

医薬品ネット販売規制について 2012年５月31日ケンコーコム株式会社.

平成２６年８月２７日（水）大阪府健康医療部薬務課医療機器グループ

平成26年度呼吸器学会からの提案結果（オレンジ色の部分が承認された提案）新規提案既収載の変更免疫組織化学染色、免疫細胞化学染色

エナジードリンクの危険性 2015年6月23日経営学部市場戦略学科MR３１９５稲沢珠依.

自動吸引は在宅を変えるか大分協和病院　院長　　　　　　　　山本　真.

毎月レポートビジネスの情報（2016年7月号）.

医療の歴史と将来医療と医薬品産業個人的経験 3. 「これからの医療を考える」（1）医薬品の研究開発－タクロリムスの歴史－

社会福祉調査論第4講２.社会調査の概要 11月２日.

2015年12月28日－2016年3月28日掲載分.

2010度民事訴訟法講義補論関西大学法学部教授栗田　隆.

腫瘍学概論埼玉医科大学国際医療センター包括的がんセンター緩和医療科/緩和ケアチーム奈良林至

“企業リスクへの考え方に変化を求められています。トータルなリスクマネジメント・サービスをプロデュースします。“

情報漏えい経済情報学科 E 　西村　諭 E 　釣　洋平.

金融班（ミクロ）.

第11回 2009年12月16日今日の資料＝A4・4枚＋解答用紙期末試験：2月3日（水）N2教室

【ＡＢＬ用語集】（あいうえお順） No 用語解説 12 公正市場価格 13 債権 14 指名債権 15 事業収益資産 16 集合動産 17

基礎理論(3) 情報の非対称性と逆選択公共政策論II No.3 麻生良文.

浜中健児昭和４２年３月２７日生まれ東京都在住株式会社ピー･アール･エフ代表取締役（学歴) 高校：千葉県立東葛飾高校卒業

COPYRIGHT(C) 2011 KYUSHU UNIVERSITY. ALL RIGHTS RESERVED

Blosxom による CMS 構築と SEO テクニック

記入例 JAWS DAYS 2015 – JOB BOARD 会社名採用職種営業職／技術職／その他（）仕事内容待遇募集数

ネットビジネスの企業と特性 MR1127　まさ.

Future Technology活用による業務改革

ネットビジネス論（杉浦）第８回　ネットビジネスと情報技術.

g７４１００１長谷川嵩 g７４０７９６迫村光秋 g７４１０００西田健太郎 g７４１１４７小井出真聡

自然独占公共経済論 II no.5 麻生良文.

Autonomic Resource Provisioning for Cloud-Based Software

Webショップにおける webデザイン 12/6　08A1022 甲斐　広大.

物理的な位置情報を活用した仮想クラウドの構築

ハイブリッドクラウドを実現させるポイントと SCSKのOSSへの取組み

寺尾敦青山学院大学社会情報学部第12回　情報デザイン（４）情報の構造化と表現寺尾　敦青山学院大学社会情報学部

【１−１．開発計画 – 設計・開発計画】システム開発計画にはシステム開発を効率的、効果的に実行する根拠（人員と経験、開発手順、開発・導入するシステム・アプリケーション・サービス等）を記述すること。システム開発の開始から終了までの全体スケジュールを記載すること。アプリケーション機能配置、ソフトウェア、インフラ構成、ネットワーク構成について概要を示すこと。

6　日本のコーポレート・ガバナンス 2008年度「企業論」川端　望.

急成長する中国ソフトウェア産業中国ソフトウェアと情報サービス産業の規模総売上高は5年間で約5.3倍の成長

米国ユタ州ＬＤＳ病院胸部心臓外科フェローの経験

公益社団法人日本青年会議所関東地区埼玉ブロック協議会 JCの情熱(おもい)育成委員会 2011年度第1回全体委員会

次世代大学教育研究会のこれまでの活動 2005年度次世代大学教育研究大会明治大学駿河台校舎リバティタワー9階1096教室

子どもの本の情報大阪府内の協力書店の情報こちらをクリック大阪府内の公立図書館・図書室の情報

第2回産業調査小島浩道.

〈起点〉を示す格助詞「を」と「から」の選択について

広東省民弁本科高校日語専業骨幹教師研修会 ①日本語の格助詞の使い分け ②動詞の自他受身の選択について　　－日本語教育と中日カルチャーショックの観点から－名古屋大学杉村　泰.

■5Ahバッテリー使用報告事例紹介/東【その1】 ■iphon4S（晴れの昼間/AM8-PM3） ◆約1時間で68%⇒100％

『ワタシが!!』『地域の仲間で!!』市民が始める自然エネルギー!!

ポイントカードの未来形を形にした「MUJI Passport」

SAP NetWeaver を支える Microsoft テクノロジーの全貌（Appendix）

ガイダンス（内業）測量学実習　第1回.

Python超入門久保幹雄東京海洋大学.

熱力学の基礎丸山茂夫東京大学大学院工学系研究科機械工学専攻

京都民医連中央病院 CHDF学習推進委員会

資料２－④ ④下水道.

ＡｃｃｅｓｓによるＳＱＬの操作～実際にテーブルを操作してみよう！～.

Presentation transcript:

効率的な語彙学習順序とは－コーパスに基づくアプローチ－松下達彦（東京大学）学習者コーパスから見た日本語習得の難易度に基づく語彙・文法シラバスの構築第12回共同研究会 2014年4月19日（国立国語研究所）

以下のスライドに関する補足（2017年2月23日）

概要「効率的」とは理論的背景(1)読解力に占める語彙力理論的背景(2)既知語率と読解レベルの関係共通ニーズ抽出の必要領域特徴語の抽出：(1)学術共通語彙、　　(2)限定学術領域語彙、(3)文芸語彙テキストカバー効率（TCE)の提案ジャンルによる効率的語彙学習順序の違いニーズと「学習難易度」の視点まとめ

１．「効率的」とは？「学習の難易度」は・・・ここでは無視どうすればより少ない語彙学習量で「読める（聞ける）」ようになるか受容的活動（「聞く」「読む」）では難しいから無視するというわけにはいかない読解（聴解）における既知語のテキストカバー率をできるだけ早く上げる仮定：語彙習得はおおよそ頻度順に進む一般的に・・・形式においては高頻度の語／字は易しいものが多い。が・・・意味・用法においては高頻度であるほど多義的・多用法の語・字が多い

２．理論的背景 (1)読解力に占める語彙力語彙力が読解力に占める割合英語では･･･約３割程度か（Bernhardt, 2005）日本語ではもう少し高そう 漢字があるから？ 55% 　　　Koda(1989)より計算 47% 　　　小森ほか(2004) 40%以上　野口(2008)より計算理論的には、読解も聴解も同じただし、読解はリライトがしやすいが、聴解は難しい

３．理論的背景 (2)既知語率と読解レベルの関係既知語の割合 Text coverage (テキストカバー率) by known words 英語では・・・既知語率95％と98％が一つの目安 95％：テキストがある程度理解できるレベル 98％：自力で読解を楽しめるレベル（Hu & Nation, 2000; Laufer & Ravenhorst-Kalovski, 2010など）日本語では・・・もう少し低い既知語率でよいのでは？９６％程度に閾値？　（小森ほか2004) 意味的透明度の高い多数の漢字語の存在　（Matsushita, 2011a＝後述）

媒体による必要語数のちがい日本語能力検定試験でいう初級・中級・上級とは？英語教育では？（Nation, 2006) BCCWJ（2009年モニター版、書籍とYahoo知恵袋）では？ Yahoo知恵袋を読むのに、約5300語で95％のカバー率書籍等を含めて平均的に9500語で95％　　・・・95％では、自力で読みこなすには少し足りないか（？）

どの程度の語彙量で生教材が読めるか

理解語彙量による直観的、暫定的なレベル分け（対象は日本の大学で学ぶ大学生で、文法、会話等の能力はここでは無視する。語数は書きことばの理解語数と考える。）初級：「上位約1500語＋α」で計3000語程度まで中級：「上位約1500語＋α」で計12000語程度まで　・・・非常に広い上級：「上位約7000語＋α」で計12000語以上　　　　　・・・生教材（に近いテキスト）が使えるレベル母語話者・・・研究予定　　　　　（従来言われている語数よりも少ないことを予想）計数単位の問題：「富士山」の「山」や「大教室」の「大」を　　　　　　　　　　　どう数えるか？　　　　　　　　　　⇒「語」に準じるものとして数えるのが現実的　　　　　　　　　　　　“学習負担の原則”

４．共通ニーズ抽出の必要個別のニーズに応じて、ニーズ領域の頻度順に語彙学習をするのが一番効率的しかし、クラス授業では・・・普通の機関では個別対応は難しいニーズが明確でない学習者も多いニーズが幅広い学習者も多い（例：ジャーナリスト志望）大学では一般に、学術ニーズは少しずつ狭まっていく　教養 文系　 社会科学 経済学

５．領域特徴語の抽出使用したテキストと計数単位『現代日本語書き言葉均衡コーパス』(BCCWJ) モニター公開データ（2009年版）（国立国語研究所2009）書籍部分（約2800万語）＋Yahoo知恵袋（約500万語）合計約3300万語計数単位（語の区切り）：UniDicの短単位　（ほぼ形態素レベル）形態素解析器：MeCab（工藤2006）解析用辞書：UniDic（伝ほか2009）　（UniDicの出力をAntWordProfiler で使用するため，　　テキストエディタ上でマクロを作成して加工）（出版社の販売対象コード）

特徴語の抽出方法特徴語の抽出には対象コーパス参照コーパスの二つが必要（対象語彙が含まれる割合を比較） AntConc (Anthony, 2007) のkeyness 機能を利用特徴語の抽出には対象コーパス参照コーパスの二つが必要（対象語彙が含まれる割合を比較）対数尤度比(log-likelihood ratio) (Dunning, 1993) （正規分布などの）特定の分布を要求しないテキストの大きさが異なる場合にも比較可能な値を返す(Leech, Rayson, & Wilson, 2001) 適度な割合で特徴語を抽出 (Chujo & Utiyama, 2006) 方法の詳細は松下（2011a; 2012b)を参照（出版社の販売対象コード）

テストコーパス（特徴語抽出の際に使用していないコーパス） (MC) 会話：名大会話コーパス（日本語母語話者同士の雑談），約113万語 (BS) 一般書：『現代日本語書き言葉均衡コーパス』2009年モニター版（国立国語研究所2009）「ベストセラー」部分（文芸テキスト数が53％，専門テキストなし），約230万語 (PC) 一般書：「日英対訳文対応付けデータ」(内山・高橋2003)の日本語部分（文芸書，エッセイなど），210万語 (JN) 新聞：日英新聞記事対応付けデータ (JENAAD) (Utiyama & Isahara, 2003)の日本語部分（1989-2001の「読売新聞」記事）約568万語 (IS) 人文・社会系専門テキスト：新屋・松下編（未公刊）『日本語上級読解演習国際学アラカルト』本文部分，約4万語 (TB) 社会系専門テキスト：「中・上級社会科学系読解教材テキストバンク」（東京外国語大学留学生日本語教育センター1998）本文部分，約19万語 (SS) 社会系専門テキスト：『留学生のための専門講義の日本語』（名古屋大学国際化拠点整備事業2010 ）全9冊中，社会系の3冊分の講義テキスト部分，約5万語 (TN) 理工系専門テキスト：『留学生のための専門講義の日本語』（同上）全9冊中，理工系の5冊分の講義テキスト部分，約7万語 (BM) 生物・医学系専門テキスト：『留学生のための専門講義の日本語』（同上）全9冊中，生物・医学系の1冊分の講義テキスト部分，約1万語

(1)学術共通語彙、(2)限定学術共通語彙 (JAWL = Japanese Academic Word List) 学術共通語彙リスト (JAWL = Japanese Academic Word List) 0～Ⅷ　9レベル，計2591語（表１）中級の　JAWLⅠ：学習・教育上，最も重要なリスト初級には学術共通語彙の数も少ない JAWLⅠ　559語 Academic Word List (Coxhead, 2000)570語に近い語数カバー率もAWLに非常に近い抽出時使用の学術コーパスのカバー率 AWL: 10.0％ JAWLⅠ: 11.1％

初級語彙（JAWL０含む）　＋JAWLⅠ 20.4% 人類学は一般に、人類の進化や生物学的側面を研究する自然人類学と、人類の社会的・文化的側面を研究する文化人類学(CulturalAnthropology)あるいは社会人類学(SocialAnthropology)に大別される。文化人類学の名称はアメリカにおいて用いられ、イギリスおよび多くのヨーロッパ諸国では「社会人類学」の名称が用いられてきた。他のヨーロッパ諸国や日本においては民族学（英語圏でのEthnology、ドイツ語圏でのEthnologie）の名称も用いられている（民族学を一分野とする場合も多い）。民俗学（Folklore）もまた隣接分野として共通の研究テーマを共有することが多い。自然人類学は、人類を進化の過程によって形作られてきた生物学的側面から捉える。それに対して、文化人類学は自然の対義としての文化から人類を研究しようとする学問分野である。文化とは、進化の過程を経て形成された遺伝的な形質のことではなく、人類が後天的に学習した行動パターンや言語、人工物の総体を指している。したがって文化人類学の隣接科学には言語学と考古学があり、アメリカの学部ではこれらの学問に加えて自然人類学をあわせて総合的に教育されている。

初級語彙（JAWL０含む）＋JAWLⅠ 計78.1% 人類学は一般に、人類の進化や生物学的側面を研究する自然人類学と、人類の社会的・文化的側面を研究する文化人類学(CulturalAnthropology)あるいは社会人類学(SocialAnthropology)に大別される。文化人類学の名称はアメリカにおいて用いられ、イギリスおよび多くのヨーロッパ諸国では「社会人類学」の名称が用いられてきた。他のヨーロッパ諸国や日本においては民族学（英語圏でのEthnology、ドイツ語圏でのEthnologie）の名称も用いられている（民族学を一分野とする場合も多い）。民俗学(Folklore)もまた隣接分野として共通の研究テーマを共有することが多い。自然人類学は、人類を進化の過程によって形作られてきた生物学的側面から捉える。それに対して、文化人類学は自然の対義としての文化から人類を研究しようとする学問分野である。文化とは、進化の過程を経て形成された遺伝的な形質のことではなく、人類が後天的に学習した行動パターンや言語、人工物の総体を指している。したがって文化人類学の隣接科学には言語学と考古学があり、アメリカの学部ではこれらの学問に加えて自然人類学をあわせて総合的に教育されている。

初級語彙（JAWL０含む）＋JAWLⅠ＋JAWLⅡ 6.4% 人類学は一般に、人類の進化や生物学的側面を研究する自然人類学と、人類の社会的・文化的側面を研究する文化人類学(CulturalAnthropology)あるいは社会人類学(SocialAnthropology)に大別される。文化人類学の名称はアメリカにおいて用いられ、イギリスおよび多くのヨーロッパ諸国では「社会人類学」の名称が用いられてきた。他のヨーロッパ諸国や日本においては民族学（英語圏でのEthnology、ドイツ語圏でのEthnologie）の名称も用いられている（民族学を一分野とする場合も多い）。民俗学（Folklore）もまた隣接分野として共通の研究テーマを共有することが多い。自然人類学は、人類を進化の過程によって形作られてきた生物学的側面から捉える。それに対して、文化人類学は自然の対義としての文化から人類を研究しようとする学問分野である。文化とは、進化の過程を経て形成された遺伝的な形質のことではなく、人類が後天的に学習した行動パターンや言語、人工物の総体を指している。したがって文化人類学の隣接科学には言語学と考古学があり、アメリカの学部ではこれらの学問に加えて自然人類学をあわせて総合的に教育されている。

領域別の特徴新聞には初級語彙が少なく，中級の学術共通語彙が多い理系（理工系，生物・医学系）には文系（人文系，社会系）より上級の学術共通語彙が多い３領域語(JAWLⅡなど)に欠けている１領域（一般テキストと比較して学術テキストで高い割合を示さなかった領域）生物・医学系が1630語中613語（37.6％）と最多以下，人文系440語（27.0%），理工系343語（21.0％），社会系234語（14.4%） 社会系は理工系や人文系との共通性が高い　生物・医学系は他の領域との共通性が相対的に低い

(3)文芸語彙文芸語彙リスト (JLW = Japanese Literary Words) ５レベル，計1616語（表１）中～上級に多く分布名詞（39.9％）、動詞（34.0％）学術共通語彙と比べ動詞、副詞、間投詞が多い７割以上は和語漢語が４分の３を占める学術共通語彙と対照的

日本語文芸語彙の特徴 1) 身体部位を表す語（「首」「指先」「まぶた」） 2) 身体動作を表す語（「立ち上がる」「飛び出す」「引っ張る」） 3) 陳述や様態の副詞（「ちっとも」「たちまち」「きらきら」） 4) 間投詞（「おや」「へー」「ほら」） 5) 縮約や地域語などの口語的表現（「こりゃ」「-ちまう」「-はる」「-さかい」） 6)比喩に用いられる語（「振り向く」「流れる」「かみしめる」） 7) 作品の背景（舞台装置・小道具）に用いられやすい物体を表す語（「ビール」「岩」「ソファー」）総じて言えば「人間の感情や動作を生き生きと描写する語彙」性的描写や殺人、戦争を連想させる語も目立つ。コーパスは厳密なサンプリングによるものなので、冒険、推理、サスペンス、歴史などが多く題材になっているためだと考えられる。

６．テキストカバー効率（TCE)の提案 E = 𝐹 𝑡 𝐿 𝑡𝑤 × 1,000,000 𝑁 𝑡 = 𝐹 𝑡 ×1,000,000 𝐿 𝑡𝑤 × 𝑁 𝑡 E: テキストカバー効率 = 対象となる語群の中のある１語の、対象領域テキスト100万語あたりに期待される延べ語数 𝐹 𝑡 :対象領域テキストにおける対象となる語群の延べ語数 𝐿 𝑡𝑤 :対象領域テキストにおける対象となる語群の異なり語数（異なり語彙素数） 𝑁 𝑡 : 対象テキストの延べ語数（テキストの長さ）

テキストカバー効率（TCE)の考え方 The idea behind TCE is simply that it is better to gain more text coverage by a smaller number of learned lexemes. In other words, even if a group of words provide high text coverage, it will not always be efficient to learn the group of words if the group has many lexemes to learn. Therefore, the average number of tokens to be covered by a word in the group needs to be calculated. High efficiency in vocabulary learning is that more words in a text are covered by fewer learned words. TCE is assumed to predict the average efficiency in gaining text coverage by learning a word of the group.

７．ジャンルによる効率的語彙学習順序の違い (1) TCE of the Grouped Words by Genre (Not Graded by Level) *Domain-unspecified

(2) Ranking for TCE of the Grouped Words in Each Genre (Not Graded by Level) *Domain-unspecified

TCE in Biological Natural Science Journal Articles by Type of and Level of Grouped Words TCE: Text Covering Efficiency = Expected number of tokens of a lexeme in the tested group in a one-million-token text in the target domain

TCE in Biological Natural Science Journal Articles by Type of and Level of Grouped Words TCE: Text Covering Efficiency = Expected number of tokens of a lexeme in the tested group in a one-million-token text in the target domain

８．ニーズと「学習難易度」の視点（１）ニーズ分析の問題母語話者中心のコーパスの分析はニーズ中心の考え方学習者コーパスは語彙ニーズを反映するとは言い切れない学習者の場面と話題のニーズを調査し、そこでの母語話者／学習者の両方のコーパスデータが望ましいのでは

（２）語の学習難易度の問題単語の学習難易度は（接触頻度の問題を除けば）一般に初級ほど高い。多義語が多いため。多義語の各用法を同時に初出で学ぶ必要はない。負担にならないのがよい。（類義語を同時提出しがちだが）類義語を同時に初出で学ぶのは良くない。混乱する。（先行研究多数）結局、ニーズ領域に沿って頻度の高いものから学ぶのがよいある程度定着して、類義語の違いに意識が向いたところで学ぶのは効果があるはず

（A）類義・類形の語の学習意味や用法の似ている語はいっしょに教える？形の似ている語はいっしょに教える？初出で、同時に二つ以上の類義語／類義字を教えるのは× 　＊混乱を招きそうな既存教材が少なくない一方が定着した後でもう一つを学ぶのは○ 疑問を感じたところで整理するのは○だが、まずは一方に力を入れる形の似ている語はいっしょに教える？初出で、同時に二つ以上の類形語、類形字を教えるのは× 同じ文脈で用いる語はいっしょに教える？ Syntagmatic な関係（共起語）は○ Paradigmatic な関係（類義語／上位語・下位語）は基本的に×

（B）その他 Q．文脈と結びつけるか、切り離すかＡ．どちらも有効で、必要 Communicative な方法だけでは非常に効率が悪い　Ａ．どちらも有効で、必要　　Communicative な方法だけでは非常に効率が悪い　　（付随的語彙学習では、平均して１０回以上の encounter 　　が必要だと考えられる (Waring & Takaki, 2003 ほか)）フラッシュカードなどの対連合学習も暗示的知識になりえる（Elgort, 2007）が、 Sequential Learning はダメ　⇒ノートよりカードの方がいいかもしれない・・・（？） Spaced Retrieval = 同じ語の学習間隔を少しずつ伸ばしていくさまざまな webツールやスマホのアプリの利用ストラテジー教育は有効な場合が多い

（C）結局・・・初めは、「ニーズ領域に合った」会話や読解などの素材で、文脈で学ぶのがよい並行してフラッシュカードなどの Language-focused learning も入れる一定期間（日／週／月／学期／年・・・）にどのぐらいの語数や漢字数を学習できるのか、おおよそ把握する（個人差が大きいが・・・）教師にできることは・・・読解の素材の語彙レベルをコントロールし、段階的に語彙レベルを上げるように仕組むこと聴解は、それがむずかしい。リライトできないので。中級レベルで使える、生に近い聴解素材を探す例）NHK:　NEWS WEB EASY 短いスパンで同一語を数回リサイクルするようなタスクを用意すること

（３）漢字の問題漢字は書字形態の学習の難易に手がかりがある（画数、頻度、パーツの頻度など）しかし意味の学習単位はやはり語が中心であるべきまずは語でレベル付けをして、それから漢字のコントロール（書き換え／振り仮名など）を考えるＪ－ＬＥＸは役に立つはず http://www17408ui.sakura.ne.jp/index.html

母語の影響中国語系学習者（CBL)は“意味理解に限定すれば”日本語の初級、中級語彙の３分の１は基本義が理解できる（松下2011b, 2012a） CBLとnon-CBLの間で難易度の大きな差があったのはほとんどが中国語と同形同義の漢語潜伏(する) 前途反(政府) 共犯貧困(な) 対決(する) 気温元凶故郷未満慈善符合(する) 費用肩腸学者周期炊飯要領粒子外来語の理解における英語知識の影響は、英語が母語に近いレベルであればかなり大きい（カタカナから音韻のdecodingが正しくできれば低頻度語彙でも数パーセントの語彙が理解できる）

参考文献（１） Anthony, L. (2007). AntConc Version 3.2.1 (text analysis tool) http://www.antlab.sci.waseda.ac.jp/software.html (Version 1.0 first published in 2002) Anthony, L. (2009). AntWordProfiler 1.200w program. Downloaded from http://www.antlab.sci.waseda.ac.jp/software.html Bernhardt, E. (2005). Progress and procrastination in second language reading. Annual Review of Applied Linguistics, 25, 133–150. doi:10.1017/S0267190505000073 Chujo, K., & Utiyama, M. (2006). Selecting level-specific specialized vocabulary using statistical measures. System, 34, 255-269. Coxhead, A. (2000). A new academic word list. TESOL Quarterly, 34(2), 213-238. Dunning, T. (1993). Accurate methods for the statistics of surprise and coincidence. Computational Linguistics, 19, 61–74. Hu, M., & Nation, I. S. P. (2000). Vocabulary density and reading comprehension. Reading in a Foreign Language, 13(1), 403-430. Juilland, A., & Chang-Rodrigues, E. (1964). Frequency Dictionary of Spanish Words. London: Mouton & Co. Kawamura, Y., Kitamura, T., & Hobara, R. (1997). Reading Tutor (リーディング・チュー太). Cited from http://language.tiu.ac.jp/index_e.html Koda, K. (1989). The Effects of Transferred Vocabulary Knowledge on the Development of L2 Reading Proficiency. Foreign Language Annals, 22(6), 529–540. doi:10.1111/j.1944-9720.1989.tb02780.x Laufer, B. (1994). The lexical profile of second language writing: does it change over time? RELC Journal, 25(2), 21-33. Laufer, B., & Ravenhorst-Kalovski, G. C. (2010). Lexical threshold revisited: Lexical text coverage, learners’ vocabulary size and reading comprehension. Reading in a Foreign Language, 22(1), 15–30. Leech, G., Rayson, P., & Wilson, A. (2001). Word Frequencies in Written and Spoken English. Harlow: Longman.

参考文献（２） Matsushita, T. (2011a). Is the vocabulary learning burden of Japanese really heavier than that of English? The 17th Biennial Conference of the Japanese Studies Association of Australia. University of Melbourne, Melbourne, Australia, 6 July 2011. Matsushita, T. (2011b). Exploring the tiers of Japanese vocabulary: Academic, literary and beyond. The 2nd Combined Conference of Applied Linguistics Association of Australia & Applied Linguistics Association of New Zealand. Australian National University, Canberra, Australia, 2 December 2011. Matsushita, T. (2012) In What Order Should Learners Learn Japanese Vocabulary? A Corpus-based Approach. PhD dissertation, Victoria University of Wellington, Wellington. Nation, I.S.P. (2006). How Large a Vocabulary Is Needed for Reading and Listening? The Canadian Modern Language Review, 63(1): 59-82 Nation, P., & Beglar, D. (2007). A vocabulary size test. The Language Teacher, 31(7), 9–13. Utiyama, M. and Isahara, H. (2003) Reliable Measures for Aligning Japanese-English News Articles and Sentences. ACL-2003, 72-79. Waring, R., & Takaki, M. (2003). At what rate do learners learn and retain new vocabulary from reading a graded reader? Reading in a Foreign Language, 15(2), 130-163. 工藤拓 (2006). MeCab Ver. 0.98pre3（形態素解析器） http://mecab.sourceforge.net/ 2009年7月10日小森和子・三國純子・近藤安月子 (2004)「文章理解を促進する語彙知識の量的側面 ―既知語率の閾値探索の試み―」『日本語教育』 125, 83-92.

参考文献（３）伝康晴・山田篤・小椋秀樹・小磯花絵・小木曽智信 (2009). UniDic version 1.3.12（解析辞書） http://www.tokuteicorpus.jp/dist/ (Ver. 1.3.0.は 2007) 野口裕之 (2008)「試験結果の分析」国際交流基金・日本国際教育支援協会『平成17年度日本語能力試験分析評価に関する報告書』 45–111、凡人社松下達彦 (2010) 「日本語を読むために必要な語彙とは？－書籍とインターネットの大規模コーパスに基づく語彙リストの作成－」『2010年度日本語教育学会春季大会予稿集』335-336. 松下達彦 (2011a) 日本語を読むための語彙データベース (The Vocabulary Database for Reading Japanese). http://www.geocities.jp/tatsum2003/ 2011年5月22日松下達彦 (2011b) 「複数の語彙リストの比較による、日本語の常用語に含まれる日中同形漢語の量的検証－学習開始時点で、受容的語彙知識は、学習者の母語によりどのぐらい異なるか－」The 4th Annual North East Asian Region (N.E.A.R.) Language Education Conference, International University of Japan, Niigata, Japan, 28 May 2011. 松下達彦 (2011c) 「日本語の学術共通語彙（アカデミック・ワード）の抽出と妥当性の検証」『2011年度日本語教育学会春季大会予稿集』 244–249. 松下達彦 (2012a)「日本語を読むための語彙量テスト」の開発」『2012年日本語教育国際研究大会予稿集第一分冊』 310. 松下達彦 (2012b) 「日本語文芸語彙の抽出と検証 ―コーパスに基づくアプローチ―」第九回国際日本語教育・日本研究シンポジウム、香港城市大学、2012年11月24日

ホームページ（「松下」「言語」で検索してください） http://www17408ui.sakura.ne.jp/tatsum/