自作コーパスを利用した学生研究 ~応用言語学者の養成 米岡ジュリ 熊本学園大学 熊本市大江2-5-1 096―364―5161(1311) FAX 096-372-0702 judy@kumagaku.ac.jp
教育改革の要求 主体的学習 総合的学習 課題探求能力
コーパス言語学とはなにか? コーパスをコンピュータソフトによってコンコーダンスやコロケーションを分析する応用言語学の分野 「ハンディフォン」って和製英語?「data」は単数なのか、複数なのか?日本人は、ハリウッド映画でどう見られているのか?こんな疑問をすべてコンピュータで解決できる便利な応用法は、コーパス言語学分析法である。 コーパス言語学は、大量の文章・口語言語データを、コンピュータソフトによって分析する応用言語学の分野である。従来の言語学と違って、ネーティブスピーカの「感覚」ではなく、実際のデータに基づく分析ができ、より正確な情報が得られる。そして、専門家でなくても、誰でも自分の外国語への疑問を解決できる便利なツールでもある。
ハッ? コーパス=大量の文章・口語言語データ コンコーダンス=単語や表現のリストto and fro
英語学習にどう使うのか? Armchair linguistics (肘掛け椅子言語学) ではなく、実際のデーターに基づいた言語分析 data driven learning(データに基づいた学習)
DDL(Tim Johns)の仕組み 学習者の疑問 コンコーダンスの作成 問題の解決 次に、コンコーダンスを分析することになる。このような研究は1985年よりTim Johns先生がData Driven Learning(DDL)と名づけている。例として、「data」が単数または複数で使われる、[like to ~~] と[like ~~ing]の語法や違い、persuadeとconvinceのような同意語のニュアンスの違いが、www. にあげられている。 問題の解決
代表的な市販コーパスやソフト Cobuildオンラインコーパス (2002年で4.5億ワード) Windows のCONCORDANCE 代表的な市販コーパスやソフト Cobuildオンラインコーパス (2002年で4.5億ワード) Windows のCONCORDANCE コーパスも分析ツールも、市販のものはたくさんあるが、スキャナーやインターネット上の大量の資料を寄せ集めた自作コーパスと、MAC用のフリーソフトであるCONCやBBEDITの組み合わせで簡単な研究も十分にこなせられる。本発表では、学生が作った映画台本コーパス「movies」と日本の大学生の英語文章コーパス[complist]などを用いた研究の実例報告をする。 値段:BNC £500 per annum 11-50 machines (9万円ぐらい) Cobuild 500 for 12 months unlimited connection time
問題 1.予算の仕組みやタイミング (年間契約ものの窓口) 2.ニーズに合わないかもしれない
自作コーパスとフリーソフト COMPLIST 1649通、 126718ワード MOVIESCRIPTS 300件、600万ワード (学生のMLへの投稿メール) 1649通、 126718ワード MOVIESCRIPTS 300件、600万ワード MacのCONCとBBEDIT 「movies」とは、http://www.script-o-rama.com/のような映画台本がたくさん収録されているサイトより学生がダウンロードしてコンパイルしたコーパスである。映画の数は300近くにも上って、語数は約600万語である。また、索引を利用して目標別にいくつかの映画も選択できる。一方、[complist]は一年間に渡って、大学3年生がメーリングリストに投稿したものをファイルにまとめた日本の大学生の英語文章コーパスである。このようなファイルは原則としてスペルチェックがかかっているが、文法チェックまではできていない。学生や先生の名前などの固有名詞を除いたが、後は学生自身の英語文書の大量なデータ(1649通、126718ワード)となる。 このようなコーパスではいったい何ができるのか?まず、CONCというMAC用なフリーソフトにかけて、各単語がABC順に並べ変われるコンコーダンスというファイルが作成される。それぞれの単語の使われた回数、場所と実例がずらーと出てくる。また、BBEDITを用いて、特定の単語を複数のファイルで検索し、それぞれの前後をあわせた別ファイルを作ってくれる機能がある。
学生研究の研究の実例 Complistコーパスにて Aの使い方について 映画コーパスにて Japanの使用について Scottish Englishについて 比較研究 Which の口語と文語的頻度 このようなプロの研究は、一般学生にもできる。いくつかの実例を見てみよう。まず、日本人の典型的な英語の使い方を探る「」という学生発表では、同大学生の英作文が収録されている「COMPLIST」というコーパスを利用して、冠詞のAの使い方を詳しく分析した。Aの使い過ぎが学生のミスの6割も占めているという、ちょっと驚く結果が得られた。 映画コーパスを使って、特集の言語の使い方は研究できる。Scottish Englishについて また、社会・文化の研究も可能となる。、JapanまたはJapaneseの出る回数と場面を徹底的に調べた。そこで、映画を通して日本や日本人のイメージを捉えることができた。 辞書に載らないような、実態データが得られる。「What’s up?」の学生研究で、映画 コーパスを利用して、その出る場面と使い方を調べた。同時に、what’s new? What’s cooking? What’s going on? などの、ほとんど辞書に載らない英語表現を探し出すことができた。
アメリカ英語、イギリス英語、オーストラリア英語新聞用語の比較 もうひとつの発展: 学生自作コーパスへ 特徴を探る 星 真一の作品の用語 英語を比較する アメリカ英語、イギリス英語、オーストラリア英語新聞用語の比較 同様、自分で特集コーパスを作って例えば、ある作家か音楽の作詞の「お気に入り」表現を、前は読みながら「Shinichi Hoshi」の学生研究はこの例の一つである。 ジャンル別にも比較研究もできる。現在、イギリス英語とアメリカ英語だけではなく、複数の英語が認めてきつつある。そこで、それぞれの英語の特徴を探る研究の一例として、「A comparative study of American, British and Australian newspapers」がある。口語と文語の違いも、which の研究のような研究実例もある。
ネット自体がコーパス handiphone “cunning Japanese” 和製英語 or 新外出語 固定観念の実感 極端に言えば、ネット自体もコーパスだ。例えば、「ハンディフォン」が和製英語かどうかという問いに対して、handiphoneをヤフーの検索エンジンにいれてみると、.jpのページのみがズラーと出てくる。そこで、学生の質問に無理をして答えるよりも、パソコンにちょっと手を出せば実用に基づいた信頼のできる答えがすぐ得られる。しかも、先生だけではなく、学生もコーパスの原理と概念を正しく理解するようになれば、自分でも簡単に答えを出せる。文部科学省の新教育改革で求める、学生の実習性や問題解決力にも役立つツールとなる。
同意語の使い分け “big, great, huge” 表現の例文:応用問題 “so---that” 教材作成 同意語の使い分け “big, great, huge” 表現の例文:応用問題 “so---that” 微妙なニュアンスの違い “take (on)” こんな研究をさらに応用して、教材作成にも応用できる。ある文法のポイントを教えるために、先生がコーパス研究法を応用すれば、英語教育に欠かせない実例が簡単にあっという間にたくさん収集できる。また、適当に単語を抜けたり空所をつけたり、または言葉の順序を変えたりすれば応用問題も簡単に作れる。
結論 Armchair linguisticsではなく、実践的なデータに基づく結論 Student empowerment: 学生が自分の質問にたいして自信をもって答えられる English as an International Language: 世界語としての英語やその中の日本英語の位置付けが見えてくる コーパスのテクニックを応用して、興味を持っている分野(音楽、映画、文学など)を自分流に分析できる。将来の外国語(または母国語)の先生を始め、これからの国際人には欠かせない技術ツールと言っても過言ではない。
参考リンク DDLhttp://sun7.bham.ac.uk/johnstf/timconc.htm COBUILDhttp://titania.cobuild.collins.co.uk/ CONChttp://www.sil.org/computing/conc/conc.html BBEDIThttp://www.barebones.com/