コーパス言語学 第1回
コーパス言語学とは Corpus(-based) linguistics コーパス(corpus, corpora)を使った言語研究 言語教育、言語変異(変化)などに関する実証的研 究
言語使用における変異 言語内的要因 言語式、語彙特性、構文、前後文脈など 言語外的要因 言語式、語彙特性、構文、前後文脈など 言語外的要因 時代(年齢)、性別、地域、使用域(レジスタ、ジャン ル)など
調査対象 英語における二重目的語構文と前置詞与格構文の 使い分けに関わる要因 a. John gave a book to Mary. (Double Object Construction, DOC) b. John gave Mary a book. (Prepositional Dative Construction, PDC)
調査対象コーパス 60年代 90年代 アメリカ英語 Brown Frown イギリス英語 LOB FLOB 書き言葉、15ジャンル 書き言葉、15ジャンル 500テキスト×2,000語=100万語
コーパス検索:正規表現 正規表現(regular expression): 文字列のパタンを表記する方法(テキストの検索、加 工などに使用する) /正規表現/ 両側をスラッシュで囲む
コーパス検索:正規表現 リテラル エスケープ エスケープシーケンス \b 選択 (|) 文字クラス [ ] 反復 ?, +, *, { }
コーパス検索:正規表現 2重目的語と前置詞与格構文をとる動詞 award, cost, deny, give, grant, lend, offer, pay, promise, sell, send
コーパス検索:正規表現 give(活用形を含む)が使われている文を検索する には? award (活用形を含む)が使われている文を検索す るには?
テキスト処理 Kwicker で検索 (必要に応じて、sort – Left1 並べ換え) Ctrl-A 、Ctrl-C Microsoft Wordに貼り付け(Ctrl-V) Microsoft Excelに貼り付け(Ctrl-V) (不要行を削除など)
テキスト処理 Microsoft Excelにて、 A列:用例 B列:ジャンル C列:動詞(原形) D列:Recipientの形(NP or PP) E列:Recipientの有生性(animate or inanimate) F列:Themeの有生性(animate or inanimate) G列:Themeの長さ(語数) H列:Passiveかどうか(Pのときだけ記入)