Presentation is loading. Please wait.

Presentation is loading. Please wait.

コーパスによる比較文体学 Corpus-based Comparative Stylistics

Similar presentations


Presentation on theme: "コーパスによる比較文体学 Corpus-based Comparative Stylistics"— Presentation transcript:

1 コーパスによる比較文体学 Corpus-based Comparative Stylistics
コーパス言語学2013

2 1.文体比較の方法 1.準備 a. 文体比較の尺度 b. 対象テキストの選定 2.データ処理 a. 前処理(品詞タグづけ)
b. データ収集(AWKプログラム実行) c. データ解析(Rによる統計処理) 3.結果と考察

3 2.準備 文体比較のための尺度 (対象テキストに対する調査項目) ①文長(平均、分布)
 (対象テキストに対する調査項目) ①文長(平均、分布) ②語長(平均、分布)Mendenhall, Branigan ③語彙の豊富さ   Yule’s K(1944)   Gillard’s C Herdan’s D ④ type-token ratio(平均異なり語率)

4 2.準備 文体比較のための尺度(調査項目) ⑤名詞率 ⑥動詞率 ⑦形容詞(+副詞)率 ⑧接続詞率(順接・逆接) ⑨数詞率 ⑩記号率
 ⑤~⑩の調査には、品詞タグづけ処理が必要

5 2.準備 対象テキスト(作品)の選定 Project Gutenberg (http://www.gutenberg.org/)
  ( に公開されている、著作権の消滅した現代英語で書かれた文学作品(fiction)。 (上記サイトからダウンロードしたファイルから、 テキスト本体以外の部分を手作業で除去)

6 2.準備 調査対象の作家と作品数 (\work\texts\*.txt) Carrol, Lewis 5 James, Henry 10
Christie, Agatha 2 Joyce, James 4 Conrad, Joseph 12 Melville, Herman Dickens, Charles Twain, Mark Doyle, Conan Wodehouse, P.J. 13 Hardy, Thomas 合計 102

7 3.1.前処理 品詞タグづけ処理 ・Helmut Schmid氏が開発したTreeTaggerのPC-Linux版をダウンロードして使用
 (  tools/TreeTagger/) ・PennTreebank Project方式のタグづけ

8 3.1. 前処理 TreeTaggerの使用法 (コマンドライン上から) E: (USBのドライブ名)
3.1. 前処理 TreeTaggerの使用法 (コマンドライン上から) E: (USBのドライブ名) cd TreeTagger (タガーのフォルダに移動) bin\tag-english.bat <入力ファイル名> 出力例 word  pos  lemma  The  DT  the  TreeTagger NP  TreeTagger  is  VBZ  be  easy  JJ  easy  to  TO  to  use  VB  use  .  SENT  . 

9 3.1. 前処理 ・事前に入力形式の修正が必要(pretag.awkを準備) ・行末のハイフン処理 ・ハイフン2個(ダッシュ)の前後分割
3.1. 前処理 ・事前に入力形式の修正が必要(pretag.awkを準備)  ・行末のハイフン処理  ・ハイフン2個(ダッシュ)の前後分割 ・AWKプログラムの使い方  awk -f <awkスクリプト名> <input_file> ・処理結果が画面(標準出力)に表示される ・ファイルに出力するには、リダイレクション+出力ファイル名 ・ある処理の出力結果をその次の入力とするには、パイプ ・2つ以上のコマンドをまとめて、一括で処理するには、バッチファイル作成  (バッチファイルから別のバッチ処理を呼び出すことも可能) ⇒textsフォルダの全テキストに品詞タグづけをして、結果ファイルをtagフォルダに収納しておく

10 3.2 データ収集 AWKスクリプトを作成、実行する ①文長(sen_length.awk) ②語長(word_length.awk)
3.2 データ収集 AWKスクリプトを作成、実行する ①文長(sen_length.awk) SENTからSENTまでの間の語数をカウントし、平均と分布と出力する ②語長(word_length.awk)  語の文字数を取得し、平均と分布を出力する ③Yule’s K特性値(yule_K.awk)  公式に基づいてK特性値を計算する ④異なり語率(type_token.awk)  テキスト先頭部分(一定語数)に関し、延べ語数と異なり語数をカウントし、異なり語の割合を計算する

11 3.2 データ収集 AWKスクリプトを作成、実行する ⑤~⑩特定品詞率 ※使用語彙(好んで使用される動詞意味クラスの割合)
3.2 データ収集 AWKスクリプトを作成、実行する ⑤~⑩特定品詞率 タグづけ出力ファイルに対し、名詞、動詞等、特定品詞の語数をカウントし、割合を算出する。 ※使用語彙(好んで使用される動詞意味クラスの割合)  cf. Levin(1993) English Verb Classes ※使用語彙の難易度を判定  cf. ALC12000語リスト、北大語彙表などのリスト ※文体特徴(好んで使用される構文)  cf. 受動構文、疑問文・感嘆文、強調構文、関係節、…

12 3.2. データ収集 行にテキスト名、列に調査項目を取り、対応するセルに数値を入力する。
統計解析環境Rを準備し、表形式のデータファイルを読み込む。 Rの使い方:基礎文献  「統計解析ソフトRの備忘録:R tips」(PDF)  「Rによるデータ解析」(熊澤吉起)

13 3.3. データ解析 全体の平均、標準偏差を算出し、各テキストの偏差値(Z得点)を算出する。
調査項目ペアの散布図行列により、作家ごとの特徴が観察されるか。 各テキストと他のテキストの「一致度」(一致係数、相関係数など)を計算する。

14 参考になる文献 金 明哲(2003-2009) 「フリーソフトによるデータ解析・マイニング」、Estrela誌連載記事
村上征勝(2004)『シェイクスピアは誰ですか』(文芸春秋新書) 「文体診断ロゴーン」( 前川 守(1995)『1000万人のコンピュータ科学(3)文章を科学する』、岩波書店。


Download ppt "コーパスによる比較文体学 Corpus-based Comparative Stylistics"

Similar presentations


Ads by Google