コーパス言語学実践 2006 年度 2 学期 第 7 回
2 本日の内容 前回までのまとめ – ファイルの確認 – ファイルの分割 – エクセルでの作業(品詞構成比率 延べ語 数) 品詞構成比率(異なり語数) データ収集(占いのことば)
3 前回までの確認 seikei01.pl までの処理を行う * 08.txt が完成 見出し語 \t ヨミ(不完全) \t 表記 \t 品詞 \t 単複 \t 出展 (ここで \t はタブ記号を表す)
4 前回までの確認( 2 ) gingatetsudono_yoru08.txt kumono_ito08.txt saigono_ikku08.txt wagahaiwa_nekodearu08.txt
5 前回までの確認( 3 )+ α wagahaiwa_nekodearu08.txt 分割 head.pl と head2.pl を使う y:\corpus> perl head.pl wagahaiwa_nekodearu08.txt > wagahaiwa_nekodearu0801.txt y:\corpus> perl head2.pl wagahaiwa_nekodearu08.txt > wagahaiwa_nekodearu0802.txt 1 行に書く
6 Excel での読み込み(再) MS-Excel で作成したデータを読み込む [ スタート ]→ [すべてのプログラム] → [ Microsoft Office ] → [ Microsoft Office Excel 2003 ] 起動したら,ファイル → 開く → gingatetsudono_yoru08.txt を選ぶ
7 Excel での読み込み(再 2 ) UTF-8 カンマやタブ などの区切り文字 ...を選ぶ 次へ
8 Excel での読み込み(再 3 ) 次の画面では タブのチェックを 確認 次へ
9 Excel で読み込む(再 4 ) そのまま 完了を押す ちゃんと読み込まれることを確認!
10 分析1(品詞構成比率) Excelを使って品詞ごとの数を数え る 品詞構成比率を計算する この作業をする
11 Excel追加作業 「1」行をクリック
12 Excel追加作業 「挿入」 → 「行」を追加
13 Excel追加作業 行が追加される
14 Excel 追加作業 A1 「見出し語」 B1 「ヨミ」 C1 「表層 語」 D1 「品詞」 E1 「単複」 F1 「出 展」
15 Excel追加作業 1 行追加して,各データ(フィールド)の 名前を書いたら保存 ( xls ファイルにす る!) [ファイル] → [名前をつけて保存] → ファイルの種類を 「 Microsoft Office Excel ブック (*.xls) 」 にして保存 例 kumono_ito08.txt → kumono_ito08.xls
16 品詞構成比率(延べ語数) 1 オートフィルタを設定する ここをクリッ ク
17 品詞構成比率(延べ語数) 2 オートフィルタ [ データ ]→[ フィルタ ]→[ オートフィル タ ]
18 品詞構成比率(延べ語数) 3 [品詞 ▼ ]を押して品詞を選ぶ(例: 名詞) 注目
19 品詞構成比率(延べ語数) 4 新しいワークシートを作成する ここを右クリックす る 挿入を選ぶ
20 品詞構成比率(延べ語数) 5 新しいワークシートを選ぶ
21 品詞構成比率(延べ語数) 6 ワークシートの順番を変える Sheet1 をドラックして 順番を変える
22 品詞構成比率(延べ語数) 7 新しいワークシートに品詞名を書く 数字を 入れる
23 品詞構成比率(延べ語数) 8 延べ語数を記入した後,合計と各比率を 計算
24 作業 4 テキストともやってください.
25 品詞構成比率(異なり語数) 1 異なり語数でカウントする. 右クリックし て
26 品詞構成比率(異なり語数) 2 異なり語数でカウントする. チェックしてOK
27 品詞構成比率(異なり語数) 3 シートがコピーされる!
28 品詞構成比率(異なり語数) 4 全体を選んで,データ,並べ替えを選ぶ
29 品詞構成比率(異なり語数) 5 このようにする – 品詞 – 見出し語 – ヨミ
30 品詞構成比率(異なり語数) 6 フィルタオプションの設定
31 品詞構成比率(異なり語数) 7 フィルタオプションの設定 重複するレコードは無 視
32 品詞構成比率(異なり語数) 8 異なりだけが表示される
33 品詞構成比率(異なり語数) 9 新しいワークシートを作成する 右クリックして挿 入
34 品詞構成比率(異なり語数) 10 コピーして
35 品詞構成比率(異なり語数) 11 コピーしてペースト(貼り付け) 新しいワークシー ト
36 品詞構成比率(異なり語数) 12 新しいワークシート上に異なり語数用の データがコピーされる
37 品詞構成比率(異なり語数) 13 異なり語数での品詞を数える! やり方は延べ語数の時と同じ – 作業! データは保存しておく