コーパスによる比較文体学 Corpus-based Comparative Stylistics

コーパスによる比較文体学 Corpus-based Comparative Stylistics
コーパス言語学2013

1．文体比較の方法 1．準備 a. 文体比較の尺度 b. 対象テキストの選定２．データ処理 a. 前処理（品詞タグづけ）
b. データ収集（AWKプログラム実行） c. データ解析（Rによる統計処理）３．結果と考察

２．準備文体比較のための尺度（対象テキストに対する調査項目） ①文長（平均、分布）
　（対象テキストに対する調査項目） ①文長（平均、分布） ②語長（平均、分布）Mendenhall, Branigan ③語彙の豊富さ　　Yule’s K(1944) 　　Gillard’s C Herdan’s D ④ type-token ratio（平均異なり語率）

２．準備文体比較のための尺度（調査項目） ⑤名詞率 ⑥動詞率 ⑦形容詞（＋副詞）率 ⑧接続詞率（順接・逆接） ⑨数詞率 ⑩記号率
　⑤～⑩の調査には、品詞タグづけ処理が必要

２．準備対象テキスト（作品）の選定 Project Gutenberg (http://www.gutenberg.org/)
　　( に公開されている、著作権の消滅した現代英語で書かれた文学作品(fiction)。（上記サイトからダウンロードしたファイルから、テキスト本体以外の部分を手作業で除去）

２．準備調査対象の作家と作品数 (\work\texts\*.txt) Carrol, Lewis 5 James, Henry 10
Christie, Agatha 2 Joyce, James 4 Conrad, Joseph 12 Melville, Herman Dickens, Charles Twain, Mark Doyle, Conan Wodehouse, P.J. 13 Hardy, Thomas 合計 102

3.1．前処理品詞タグづけ処理・Helmut Schmid氏が開発したTreeTaggerのPC-Linux版をダウンロードして使用
　（　tools/TreeTagger/）・PennTreebank Project方式のタグづけ

3.1．前処理 TreeTaggerの使用法（コマンドライン上から） E: （ＵＳＢのドライブ名）
3.1．　前処理 TreeTaggerの使用法（コマンドライン上から） E: （ＵＳＢのドライブ名） cd TreeTagger （タガーのフォルダに移動） bin\tag-english.bat <入力ファイル名> 出力例 word pos lemma The DT the TreeTagger NP TreeTagger is VBZ be easy JJ easy to TO to use VB use . SENT .

3.1．前処理・事前に入力形式の修正が必要（pretag.awkを準備）・行末のハイフン処理・ハイフン２個（ダッシュ）の前後分割
3.1．　前処理・事前に入力形式の修正が必要（pretag.awkを準備）　・行末のハイフン処理　・ハイフン２個（ダッシュ）の前後分割・AWKプログラムの使い方　awk -f <awkスクリプト名> <input_file> ・処理結果が画面（標準出力）に表示される・ファイルに出力するには、リダイレクション＋出力ファイル名・ある処理の出力結果をその次の入力とするには、パイプ・２つ以上のコマンドをまとめて、一括で処理するには、バッチファイル作成　（バッチファイルから別のバッチ処理を呼び出すことも可能） ⇒textsフォルダの全テキストに品詞タグづけをして、結果ファイルをtagフォルダに収納しておく

3．2 データ収集 AWKスクリプトを作成、実行する ①文長(sen_length.awk) ②語長(word_length.awk)
3．2　データ収集 AWKスクリプトを作成、実行する ①文長(sen_length.awk) SENTからSENTまでの間の語数をカウントし、平均と分布と出力する ②語長(word_length.awk) 　語の文字数を取得し、平均と分布を出力する ③Yule’s K特性値（yule_K.awk）　公式に基づいてＫ特性値を計算する ④異なり語率(type_token.awk) 　テキスト先頭部分（一定語数）に関し、延べ語数と異なり語数をカウントし、異なり語の割合を計算する

3．2 データ収集 AWKスクリプトを作成、実行する ⑤～⑩特定品詞率 ※使用語彙（好んで使用される動詞意味クラスの割合）
3．2　データ収集 AWKスクリプトを作成、実行する ⑤～⑩特定品詞率タグづけ出力ファイルに対し、名詞、動詞等、特定品詞の語数をカウントし、割合を算出する。 ※使用語彙（好んで使用される動詞意味クラスの割合）　cf. Levin(1993) English Verb Classes ※使用語彙の難易度を判定　cf. ALC12000語リスト、北大語彙表などのリスト ※文体特徴（好んで使用される構文）　cf. 受動構文、疑問文・感嘆文、強調構文、関係節、…

3．2．データ収集行にテキスト名、列に調査項目を取り、対応するセルに数値を入力する。
統計解析環境Ｒを準備し、表形式のデータファイルを読み込む。 Rの使い方：基礎文献　「統計解析ソフトRの備忘録：R tips」（PDF）（　「Rによるデータ解析」（熊澤吉起）（

3.3．データ解析全体の平均、標準偏差を算出し、各テキストの偏差値（Ｚ得点）を算出する。
調査項目ペアの散布図行列により、作家ごとの特徴が観察されるか。各テキストと他のテキストの「一致度」（一致係数、相関係数など）を計算する。

参考になる文献金明哲(2003-2009) 「フリーソフトによるデータ解析・マイニング」、Estrela誌連載記事
村上征勝（2004）『シェイクスピアは誰ですか』（文芸春秋新書）「文体診断ロゴーン」( 前川　守(1995)『1000万人のコンピュータ科学（3）文章を科学する』、岩波書店。

コーパスによる比較文体学 Corpus-based Comparative Stylistics

Similar presentations

Presentation on theme: "コーパスによる比較文体学 Corpus-based Comparative Stylistics"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

コーパスによる比較文体学 Corpus-based Comparative Stylistics

Similar presentations

Presentation on theme: "コーパスによる比較文体学 Corpus-based Comparative Stylistics"— Presentation transcript:

Similar presentations

About project

フィードバック