Presentation is loading. Please wait.

Presentation is loading. Please wait.

コーパス言語学実践 2006年度2学期 第5回.

Similar presentations


Presentation on theme: "コーパス言語学実践 2006年度2学期 第5回."— Presentation transcript:

1 コーパス言語学実践 2006年度2学期 第5回

2 本日の内容 第4回で途中だったところまでの確認 続き 整形 MS Excelでの読み込み
Kaigyo01.pl → Kaigyo02.pl への変更 cabocha のインストール 単語の取り出し tangotoridasi.pl 整形 seikei01.pl MS Excelでの読み込み

3 前回:本文の加工( [#] ) 内容を見て対応するため手作業 ということで,内容を見ながら手作業 エディタで*02.txtを開く
検索で[#を探す 該当個所の扱いを検討      (統一基準を決めながら進める) 作業後→ *03.txtとして保存

4 Kaigyo01.pl → Kaigyo02.pl 前回のKaigyo01.pl は破棄 新しくKaigyo02.pl をダウンロード
 y:\corpus> perl kaigyo02.pl < gingatetsudo03.txt > gingatetsudo04.txt これで粗くは改行されている もう一度良く見て,変なところを直す *05.txtとして保存 例: gingatetsudo05.txt

5 前回:1行1文へ kaigyo01.pl をダウンロード もう一度良く見て,変なところを直す
y:\corpus> perl kaigyo01.pl < gingatetsudo03.txt > gingatetsudo04.txt これで粗くは改行されている もう一度良く見て,変なところを直す *05.txtとして保存 例: gingatetsudo05.txt

6 ChaSenとCabocha ChaSenのインストール Cabochaのインストール 日本語形態素解析ツール 日本語係受け解析ツール
文節の作成に使用

7 ChaSen(茶筅) (東京外国語大学のコンピュータにはインストール済みだが,cabochaのために再インストール)
へアクセスし,「茶筌の配布」に進む WinCha をクリック chasen233_ exeをダウンロード ダブルクリックする. インストール先を y:\corpus にする!

8 中止! ChaSen(茶筅) (東京外国語大学のコンピュータにはインストール済みだが,cabochaのために再インストール)
へアクセスし,「茶筌の配布」に進む WinCha をクリック chasen233_ exeをダウンロード ダブルクリックする. インストール先を y:\corpus にする! 中止!

9 ChaSen(ディレクトリ変更) 中止! Y:\corpus にする Yドライブにする

10 Cabocha(南瓜) プログラムをダウンロード から,cabocha-0.53.exeをダウロード ダブルクリックする インストール先を y:\corpus にする! 祈る

11 ソフトウェアのダウンロード cabocha-0.53.exe

12 CaboChaのセットアープwizard

13 License Agreement

14 インストール先の変更 Y:\corpus にする

15 アイコンは作らない ここをチェックする

16 確認してインストール開始 インストール開始

17 ChaSenとCaboCha インストール後の確認 コマンドプロンプト上で,
Y:\corpus> cabocha gingatetsudono_yoru05.txt が実行できるか?

18 ChaSenとCaboCha インストール後の確認
コマンドプロンプト上で, Y:\corpus> cabocha gingatetsudono_yoru05.txt が実行できるか?多分無理なので, y:\corpus> CaboCha\bin\cabocha gingatetsudono_yoru05.txt が実行できるか?

19 文節の作成 -I0 アイのゼロ –O2 オーの2 cabochaの利用で文節を作る
y:\corpus>CaboCha\bin\cabocha –I0 –O2 gingatetsudo05.txt > gignatetsudo06.txt 今日は良い天気でした. * 0 -1O 今日 キョウ 今日 名詞-副詞可能 B-DATE は ハ は 助詞-係助詞 O * 1 -1O 良い ヨイ 良い 形容詞-自立 形容詞・アウオ段 基本形 O * 2 -1O 天気 テンキ 天気 名詞-一般 O でし デシ です 助動詞 特殊・デス 連用形 O た タ た 助動詞 特殊・タ 基本形 O . . . 記号-句点 O EOS -I0 アイのゼロ –O2 オーの2

20 文節の中から自立語を取り出す tangotoridasi.plの利用 その前に 文字コードの変換
perlでは内部でutf-8という文字コードを使用 *06.txtの文字コードをutf-8にしておく必要あり. TeraPadで*06.txtを開く. [ファイル]→[漢字改行コード指定保存]→ 漢字コードUTF-8 改行コードCR+LF  の状態で保存!

21 文節の中から自立語を取り出す 全部 1行に書く!! tangotoridasi.plの利用
y:\corpus>perl –s tangotoridasi.pl –fn=“gingatetsudo” < gingatetsudono_yoru06.txt > gingatetsudono_yoru07.txt 見出し語;品詞;0;表層形\tヨミ\t基本形\t品詞 *;出展 全部 1行に書く!!

22 ここまでのまとめ *02.txt からスタート(先週) [#の解析→ *03.txt の作成 今週はここからスタート
1行1文へ(Kaigyo02.pl) → *04.txt の作成 変なところを手作業で直す → *05.txtの作成 chabochaでの処理 →*06.txtの作成 tangotoridasiでの処理 → *07.txtの作成

23 もう少し整形を seikei01.pl をダウンロード
y:\corpus > perl seikei01.pl < gingatetsudono_yoru07.txt > gingatetsudono_yoru08.txt これにより, 見出し語 \t ヨミ(不完全) \t 表記 \t 品詞 \t 単複 \t 出展 (ここで \t はタブ記号を表す)

24 Excelでの読み込み MS-Excelで作成したデータを読み込む
[スタート]→[すべてのプログラム]→[Microsoft Office]→[Microsoft Office Excel 2003] 起動したら,ファイル→開く→ gingatetsudono_yoru08.txt を選ぶ

25 Excelでの読み込み(2) UTF-8 カンマやタブ などの区切り文字 ...を選ぶ         次へ

26 Excelでの読み込み(3) 次の画面では タブのチェックを 確認       次へ

27 Excelで読み込む(4) そのまま   完了を押す ちゃんと読み込まれることを確認!


Download ppt "コーパス言語学実践 2006年度2学期 第5回."

Similar presentations


Ads by Google