コーパスによる比較文体学 Corpus-based Comparative Stylistics

Slides:



Advertisements
Similar presentations
オープン&ビッグデータ活用・地方創生推進機構 事務局 オープン&ビッグデータ活用・地方創生推進機構 評価版ツールの状況報告 平成26年度第3回 技術委員会 資料3-1.
Advertisements

Windows 環境から SAS を使う 長野 祐一郎 1. データのダウンロード 2. データの加工 3. プログラムの作成 4.TeraTerm によるプログラムの実行 5. 処理結果の確認 6.SAS のデータ処理を概観 今回の授業では、 Windows 環境で作成されたデータを.
コーパス言語学実践 2006 年度 2 学期 第 2 回. 2 本日の内容 前半の作業について – 語彙調査の演習 – 用語の説明 語彙,単位語,延べ語,異なり語,見出し 語 作成作業 その1 – データ収集開始.
コーパス言語学実践 2006 年度 2 学期 第 7 回. 2 本日の内容 前回までのまとめ – ファイルの確認 – ファイルの分割 – エクセルでの作業(品詞構成比率 延べ語 数) 品詞構成比率(異なり語数) データ収集(占いのことば)
コンピュータ演習 Excel 入門 岡田孝・山下雅啓 Excel の機能は膨大 その中のごく一部を紹介 表計算機能 – データの入力、表の作成、計算など グラフ機能 – 棒グラフ、円グラフなどグラフ作成 データベース機能 – 並べ替え(ソート)、検索、抽出など マクロ機能 – VBA で自動化したマクロを作成可能.
Google フォームの利用法 出欠確認表の運用実例. Google フォームとは Google に登録すると使える機能の一つ「 Google ドライブ」 インターネット上にファイル等を保存出来るスペース、 その中の機能の一つです。 問い合わせやアンケートなどを自由に作れる。 ● アンケートはテンプレートから手軽に出来る.
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
第5章 JMPのインストールと基本操作 廣野元久
目次 このドキュメントについて・・・前提条件……………………………………… 2
メール暗号化:秘密鍵・公開鍵の作成  作業手順 Windows メール(Vista).
実習1:コマンドシェルの使い方.
初年次セミナー 第8回 データの入力.
最大エントロピーモデルに基づく形態素解析と辞書による影響
情報処理 第12回.
Endnoteの使い方~AMS雑誌用~ 稲津 將 北海道大学 大学院理学研究院.
スキルチェック Unix編.
コーパス言語学実践 2006年度2学期 第10回.
徳山豪 東北大学情報科学研究科 システム情報科学専攻 情報システム評価学分野
言語体系とコンピュータ 第5回.
デジタルポートフォリオ作成支援ツール PictFolio 使用マニュアル
動機 目的 音声特徴比較システムの開発 結果を考察 サンプルデータ の収集及び統計 班員全員が音楽好き 歌の上手さを科学的に理解
第4回 (10/16) 授業の学習目標 先輩の卒論の調査に協力する。 2つの定量的変数間の関係を調べる最も簡単な方法は?
情報基礎A 第13週 VBAプログラミング VBAの基本文法7・実際のデータ処理
第13回授業(7/10-1) での学習内容 6月19日に宿題にした平均値の差の検定結果、及び7月3日の授業で実習した同検定結果のウェブ上での検算のやり方を学習する。 この検算の宿題は、春期定期試験の時に、今日渡す2枚目の出欠表の裏に授業中の手計算による結果と比較して、手計算の結果が正しかったかを報告する。
テキストマイニング, データマイニングと 社会活動のトレース
コーパス言語学実践 2006年度2学期 第5回.
15分でわかる RefWorks 基本操作.
文献管理ソフトRefWorksの利用.
13回目 複合情報検索 13-1 課題の概要 13-2 EBSCOhost の使用方法 13-3 ProQuestの使用方法
WebCluster スライドショーで見る操作ガイド
WebCluster スライドショーで見る操作ガイド
形態素解析および係り受け解析・主語を判別
情報処理 第13回.
『総合的な学習』の時間 基礎講座6  発表のしかた kusunoki.
精密工学科プログラミング基礎 第9回資料 (12/11 実施)
コンピュータと情報 第15回 Excelの使い方 その4.
WordPressに挑戦! WordPress(ワードプレス)は、ブログを 作成するためのWEBアプリケーションです。
第5回 統計処理(2) 塩浦 昭義 東北大学全学教育科目 情報基礎 A 1セメスター 木曜1,3講時 経済学部・法学部
スクリプト言語を用いたPHITSの連続実行
日本語解析済みコーパス管理ツール 「茶器」
シミュレーション演習 G. 総合演習 (Mathematica演習) システム創成情報工学科
地理情報システム論演習 地理情報システム論演習
コンピュータと情報 第14回 Excelの使い方 その4.
プログラム実行履歴を用いたトランザクションファンクション抽出手法
・ Twinpact100のDV入力(プレゼン画面キャプチャ) ・ WEBカメラ(発表者) の両方を1画面にして配信・録画する。
情報管理論 2018/11/9 情報分析の道具 2018/11/9 情報分析の道具 情報分析の道具.
序章 第2節 教育機器とコンピュータ 1 パーソナルコンピュータ
関係代名詞(接触節) 目的格の関係代名詞の省略.
実習問題の解き方 JIS3-3の場合.
プログラミング言語Ⅰ(実習を含む。), 計算機言語Ⅰ・計算機言語演習Ⅰ, 情報処理言語Ⅰ(実習を含む。)
コンピュータ プレゼンテーション.
テキストマイニング, データマイニングと 社会活動のトレース
精密工学科プログラミング基礎Ⅱ 第4回資料 今回の授業で習得してほしいこと: 文字列の扱い ファイル入出力の方法 コマンドライン引数の使い方
より詳しく、より効果的に 相手に伝えよう.
コーパス言語学 ~バッチ処理~ 2013.10. 28.
第12回授業(12/18)の目標 ANOVA検定の実習 WEB を用いたANOVA検定と、授業で行った検定結果の正誤の確認方法(宿題)
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
PDFファイルの作り方① 「印刷」を利用して、PDFファイルを作成する。
表計算 Excel 演習 1.Excel を使ってみる.
プログラミング入門2 第13回、14回 総合演習 情報工学科 篠埜 功.
E-精算インストール説明書.
地域生活支援システムの開発 越田研究室 j0431 野津洋二.
東京工科大学 コンピュータサイエンス学部 亀田弘之
クローン検出ツールを用いた ソフトウェアシステムの類似度調査
コーパス コーパス(Corpus)はコンピュータの発達とともに、計算機可読なデータを容易に作成・収集することができるようになったことがその背景にある。現在ではコーパス言語学などの学問もある。
第5回 プログラミングⅡ 第5回
情報処理 第13回.
森 裕一(岡山理科大学) 山本義郎(岡山大学自然科学研究科) 渡谷真吾,尾高好政(倉敷芸術科学大学) 垂水共之,田中 豊(岡山大学)
アルゴリズムとデータ構造 補足資料6-1 「サンプルプログラムcat1.c」
mi-8. 自然言語処理 人工知能を演習で学ぶシリーズ(8)
Presentation transcript:

コーパスによる比較文体学 Corpus-based Comparative Stylistics コーパス言語学2013

1.文体比較の方法 1.準備 a. 文体比較の尺度 b. 対象テキストの選定 2.データ処理 a. 前処理(品詞タグづけ) b. データ収集(AWKプログラム実行) c. データ解析(Rによる統計処理) 3.結果と考察

2.準備 文体比較のための尺度 (対象テキストに対する調査項目) ①文長(平均、分布)  (対象テキストに対する調査項目) ①文長(平均、分布) ②語長(平均、分布)Mendenhall, Branigan ③語彙の豊富さ   Yule’s K(1944)   Gillard’s C Herdan’s D ④ type-token ratio(平均異なり語率)

2.準備 文体比較のための尺度(調査項目) ⑤名詞率 ⑥動詞率 ⑦形容詞(+副詞)率 ⑧接続詞率(順接・逆接) ⑨数詞率 ⑩記号率  ⑤~⑩の調査には、品詞タグづけ処理が必要

2.準備 対象テキスト(作品)の選定 Project Gutenberg (http://www.gutenberg.org/)   (http://www.gutenberg.org/) に公開されている、著作権の消滅した現代英語で書かれた文学作品(fiction)。 (上記サイトからダウンロードしたファイルから、 テキスト本体以外の部分を手作業で除去)

2.準備 調査対象の作家と作品数 (\work\texts\*.txt) Carrol, Lewis 5 James, Henry 10 Christie, Agatha 2 Joyce, James 4 Conrad, Joseph 12 Melville, Herman Dickens, Charles Twain, Mark Doyle, Conan Wodehouse, P.J. 13 Hardy, Thomas 合計 102

3.1.前処理 品詞タグづけ処理 ・Helmut Schmid氏が開発したTreeTaggerのPC-Linux版をダウンロードして使用  (http://www.cis.unimuenchen.de/~schmid/  tools/TreeTagger/) ・PennTreebank Project方式のタグづけ http://www.comp.leeds.ac.uk/ccalas/tagsets/upenn.html http://www.americannationalcorpus.org/OANC/penn.html

3.1. 前処理 TreeTaggerの使用法 (コマンドライン上から) E: (USBのドライブ名) 3.1. 前処理 TreeTaggerの使用法 (コマンドライン上から) E: (USBのドライブ名) cd TreeTagger (タガーのフォルダに移動) bin\tag-english.bat <入力ファイル名> 出力例 word  pos  lemma  The  DT  the  TreeTagger NP  TreeTagger  is  VBZ  be  easy  JJ  easy  to  TO  to  use  VB  use  .  SENT  . 

3.1. 前処理 ・事前に入力形式の修正が必要(pretag.awkを準備) ・行末のハイフン処理 ・ハイフン2個(ダッシュ)の前後分割 3.1. 前処理 ・事前に入力形式の修正が必要(pretag.awkを準備)  ・行末のハイフン処理  ・ハイフン2個(ダッシュ)の前後分割 ・AWKプログラムの使い方  awk -f <awkスクリプト名> <input_file> ・処理結果が画面(標準出力)に表示される ・ファイルに出力するには、リダイレクション+出力ファイル名 ・ある処理の出力結果をその次の入力とするには、パイプ ・2つ以上のコマンドをまとめて、一括で処理するには、バッチファイル作成  (バッチファイルから別のバッチ処理を呼び出すことも可能) ⇒textsフォルダの全テキストに品詞タグづけをして、結果ファイルをtagフォルダに収納しておく

3.2 データ収集 AWKスクリプトを作成、実行する ①文長(sen_length.awk) ②語長(word_length.awk) 3.2 データ収集 AWKスクリプトを作成、実行する ①文長(sen_length.awk) SENTからSENTまでの間の語数をカウントし、平均と分布と出力する ②語長(word_length.awk)  語の文字数を取得し、平均と分布を出力する ③Yule’s K特性値(yule_K.awk)  公式に基づいてK特性値を計算する ④異なり語率(type_token.awk)  テキスト先頭部分(一定語数)に関し、延べ語数と異なり語数をカウントし、異なり語の割合を計算する

3.2 データ収集 AWKスクリプトを作成、実行する ⑤~⑩特定品詞率 ※使用語彙(好んで使用される動詞意味クラスの割合) 3.2 データ収集 AWKスクリプトを作成、実行する ⑤~⑩特定品詞率 タグづけ出力ファイルに対し、名詞、動詞等、特定品詞の語数をカウントし、割合を算出する。 ※使用語彙(好んで使用される動詞意味クラスの割合)  cf. Levin(1993) English Verb Classes ※使用語彙の難易度を判定  cf. ALC12000語リスト、北大語彙表などのリスト ※文体特徴(好んで使用される構文)  cf. 受動構文、疑問文・感嘆文、強調構文、関係節、…

3.2. データ収集 行にテキスト名、列に調査項目を取り、対応するセルに数値を入力する。 統計解析環境Rを準備し、表形式のデータファイルを読み込む。 Rの使い方:基礎文献  「統計解析ソフトRの備忘録:R tips」(PDF) (http://www.is.titech.ac.jp/~shimo/class/doc/r-tips.pdf)  「Rによるデータ解析」(熊澤吉起) (http://www.biwako.shiga-u.ac.jp/sensei/kumazawa/R/c2.pdf)

3.3. データ解析 全体の平均、標準偏差を算出し、各テキストの偏差値(Z得点)を算出する。 調査項目ペアの散布図行列により、作家ごとの特徴が観察されるか。 各テキストと他のテキストの「一致度」(一致係数、相関係数など)を計算する。

参考になる文献 金 明哲(2003-2009) 「フリーソフトによるデータ解析・マイニング」、Estrela誌連載記事 村上征勝(2004)『シェイクスピアは誰ですか』(文芸春秋新書) 「文体診断ロゴーン」(http://logoon.org/) 前川 守(1995)『1000万人のコンピュータ科学(3)文章を科学する』、岩波書店。