コーパス言語学実践 2006年度2学期 第5回.

Slides:



Advertisements
Similar presentations
1 実技演習1 2008/01/28,29 JaLTER Morpho 講習会. 2 起動・接続 各自、コンピュータを起動してネットワーク に接続してください。 各自、コンピュータを起動してネットワーク に接続してください。 IP アドレス自動取得 IP アドレス自動取得 無線 LAN 使用可 無線.
Advertisements

情報処理 第9回第9回第9回第9回. 今日の内容 Excel の起動と画面構成 –Excel の起動 –Excel の画面構成と基本用語 データの入力 – 文字の入力 – 数値の入力 – 日時の入力 – オートフィル.
情報処理 第9回第9回第9回第9回. 今日の内容 Excel の起動と画面構成 –Excel の起動 –Excel の画面構成と基本用語 データの入力 – 文字の入力 – 数値の入力 – 日時の入力 – オートフィル.
コーパス言語学実践 2006 年度 2 学期 第 2 回. 2 本日の内容 前半の作業について – 語彙調査の演習 – 用語の説明 語彙,単位語,延べ語,異なり語,見出し 語 作成作業 その1 – データ収集開始.
コーパス言語学実践 2006 年度 2 学期 第 7 回. 2 本日の内容 前回までのまとめ – ファイルの確認 – ファイルの分割 – エクセルでの作業(品詞構成比率 延べ語 数) 品詞構成比率(異なり語数) データ収集(占いのことば)
1 WORD の起動法と終了法 ● WORD の起動法 (1) デスクトップの Microsoft Word アイ コンをダブルクリックする。 * (2) 「スタート」 ― 「すべてのプログラ ム」 ― 「 Microsoft Word 」と選ぶ。 (3) Word で作成された文書があるとき は、そのアイコンをダブルクリック.
情報処理 第8回第8回第8回第8回. 目次 (1) スタイルの利用 – スタイルの概要 – スタイルの適用 (1) – 「スタイル」ウィンドウを開く – スタイルの適用 (2) – スタイル適用のセオリー – すべてのスタイルを表示 – スタイルの書式を変える (1) – スタイルの書式を変える (2)
コーパス言語学実践 2006 年度 2 学期 第 9 回. 2 本日の内容 これまでと同様の作業 – プログラムで処理するケースの紹介.
T2V 技術 Web 製作ラボ 3/ hayashiLabo 2. T2V 技術 PC 操作 念のため・・・
情報基礎演習I(プログラミング) 第9回 6月22日 水曜5限 江草由佳
情報処理 第2回.
大杉 直樹†, 神谷 年洋‡, 門田 暁人†, 松本 健一† †奈良先端科学技術大学院大学 情報工学科 {naoki-o, akito-m,
エクセル(1)の目次 起動法、ブック、シート、セル ブックの開き方 エクセル画面 マウスポインターの種類 シート数の調節 データの入力法
2017/3/2 情報処理 第8回.
ヘルスケア連動型 市販薬検索システム 研究者 : 加納 えり 指導教員 : 越田 高志.
Netscape Communicator Eudora Microsoft Word
情報処理 第7回:Wordを用いた文書の作成 その2 June. 10, 2016.
Microsoft PowerPoint98 Netscape Communicator 4.06[ja]
コンピュータ プレゼンテーション.
情報処理 第7回.
松本裕治(まつもと ゆうじ) 浅原正幸(あさはら まさゆき)
Excel による データベース入門 Ver /9.
2017/3/7 情報処理 第8回.
PCの情報を得る - 「システム情報」 ①「スタート」→「すべてのプログラム」→「アクセサリ」→「システム ツール」→「システム情報」とクリックする。 ②左欄の項目を選択すると、右欄に情報が表示される。
2007 Microsoft Office system クイックガイド
コンピュータ演習Ⅰ 8月7日(日) 1限目 ファイルの種類.
第5回授業(5/08) の目標 第1章のウェブ上での宿題のやり方の続き(ここまでで、終了)。
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
情報処理 第2回.
Javaのインストール手順 For Mac users
湘南工科大学 2013年4月23日 プロジェクト実習A アドベンチャーゲームを作ろう 第3回 湘南工科大学情報工学科 准教授 小林 学.
初年次セミナー 第2回 文字の出力.
マイクロソフト Access を使ってみよう 第1回
経営工学基礎演習a Word第1回目.
コンピュータ リテラシー 担当教官  河中.
Netscape Communicator Eudora Microsoft Word
情報処理基礎 2006年 6月 22日.
経営工学基礎演習a PowerPointの利用.
【プログラミング応用】 必修2単位 通年 30週 授業形態:演習.
情報処理 第8回:Wordを用いた文書の作成 その2 June. 8, 2018.
プロジェクト演習Ⅱ インタラクティブゲーム制作 イントロダクション2
Office IME 2010 を使う.
VBA ( Visual BASIC for Application) を使えるようにする方法
Tableタグによる Webブラウザでの言語処理結果の汎用表示ツール
Windows Vista ウィルスバスターインストール方法 ユーザーアカウント制御の無効化 ウィルスバスターのインストール
情報処理 第4回.
単語登録(1) ◎MS-IMEの「単語登録」に、単語、語句、記号など自分がよく使うものを登録しておくと、便利である。
Microsoft Office クイックガイド ~Outlook 2013~
Microsoft Office クイックガイド ~Outlook 2013~
2019/2/24 情報処理 第13回.
3.1 PowerPoint の概要 PowerPointを使ってできること
諸連絡 USBメモリの販売について 日時:6月23日(月)授業開始前 商品:プリンストン社製32MBのUSBメモリ
Windows XP  ウィルスバスターインストール方法.
コンピュータ プレゼンテーション.
WinSCPのインストール方法
エディタ完了からプログラムの実行までの方法
地域情報学 C言語プログラミング 第1回 導入、変数、型変換、printf関数 2016年11月11日
情報処理 第2回.
コンピュータ プレゼンテーション.
コンピュータと情報 第4回 ワードの使い方.
東京工科大学 コンピュータサイエンス学部 亀田弘之
情報処理 第7回:Wordを用いた文書の作成 その2 June. 9, 2017.
情報基礎演習I(プログラミング) 第11回 7月12日 水曜5限 江草由佳
統計ソフトウエアRの基礎.
表計算 Excel 演習 1.Excel を使ってみる.
情報基礎演習I(プログラミング) 6月8日 水曜5限 江草由佳
Visual Studio 2013 の起動と プロジェクトの新規作成 (C プログラミング演習,Visual Studio 2019 対応) 金子邦彦.
Cp-1. Microsoft Visual Studio 2019 C++ の使い方 (C プログラミング演習,Visual Studio 2019 対応) 金子邦彦.
単語登録(1) ◎MS-IMEの「単語登録」に、単語、語句、記号など自分がよく使うものを登録しておくと、便利である。
野中良哲 講義ページ : 情報処理1~第四回~ 野中良哲 講義ページ :
Presentation transcript:

コーパス言語学実践 2006年度2学期 第5回

本日の内容 第4回で途中だったところまでの確認 続き 整形 MS Excelでの読み込み Kaigyo01.pl → Kaigyo02.pl への変更 cabocha のインストール 単語の取り出し tangotoridasi.pl 整形 seikei01.pl MS Excelでの読み込み

前回:本文の加工( [#] ) 内容を見て対応するため手作業 ということで,内容を見ながら手作業 エディタで*02.txtを開く 検索で[#を探す 該当個所の扱いを検討      (統一基準を決めながら進める) 作業後→ *03.txtとして保存

Kaigyo01.pl → Kaigyo02.pl 前回のKaigyo01.pl は破棄 新しくKaigyo02.pl をダウンロード  y:\corpus> perl kaigyo02.pl < gingatetsudo03.txt > gingatetsudo04.txt これで粗くは改行されている もう一度良く見て,変なところを直す *05.txtとして保存 例: gingatetsudo05.txt

前回:1行1文へ kaigyo01.pl をダウンロード もう一度良く見て,変なところを直す y:\corpus> perl kaigyo01.pl < gingatetsudo03.txt > gingatetsudo04.txt これで粗くは改行されている もう一度良く見て,変なところを直す *05.txtとして保存 例: gingatetsudo05.txt

ChaSenとCabocha ChaSenのインストール Cabochaのインストール 日本語形態素解析ツール 日本語係受け解析ツール 文節の作成に使用

ChaSen(茶筅) (東京外国語大学のコンピュータにはインストール済みだが,cabochaのために再インストール) http://chasen.naist.jp/hiki/ChaSen/ へアクセスし,「茶筌の配布」に進む WinCha をクリック chasen233_031208.exeをダウンロード ダブルクリックする. インストール先を y:\corpus にする!

中止! ChaSen(茶筅) (東京外国語大学のコンピュータにはインストール済みだが,cabochaのために再インストール) http://chasen.naist.jp/hiki/ChaSen/ へアクセスし,「茶筌の配布」に進む WinCha をクリック chasen233_031208.exeをダウンロード ダブルクリックする. インストール先を y:\corpus にする! 中止!

ChaSen(ディレクトリ変更) 中止! Y:\corpus にする Yドライブにする

Cabocha(南瓜) プログラムをダウンロード http://chasen.org/~taku/software/cabocha/ から,cabocha-0.53.exeをダウロード ダブルクリックする インストール先を y:\corpus にする! 祈る

ソフトウェアのダウンロード cabocha-0.53.exe

CaboChaのセットアープwizard

License Agreement

インストール先の変更 Y:\corpus にする

アイコンは作らない ここをチェックする

確認してインストール開始 インストール開始

ChaSenとCaboCha インストール後の確認 コマンドプロンプト上で, Y:\corpus> cabocha gingatetsudono_yoru05.txt が実行できるか?

ChaSenとCaboCha インストール後の確認 コマンドプロンプト上で, Y:\corpus> cabocha gingatetsudono_yoru05.txt が実行できるか?多分無理なので, y:\corpus> CaboCha\bin\cabocha gingatetsudono_yoru05.txt が実行できるか?

文節の作成 -I0 アイのゼロ –O2 オーの2 cabochaの利用で文節を作る y:\corpus>CaboCha\bin\cabocha –I0 –O2 gingatetsudo05.txt > gignatetsudo06.txt 今日は良い天気でした. * 0 -1O 今日 キョウ 今日 名詞-副詞可能 B-DATE は ハ は 助詞-係助詞 O * 1 -1O 良い ヨイ 良い 形容詞-自立 形容詞・アウオ段 基本形 O * 2 -1O 天気 テンキ 天気 名詞-一般 O でし デシ です 助動詞 特殊・デス 連用形 O た タ た 助動詞 特殊・タ 基本形 O . . . 記号-句点 O EOS -I0 アイのゼロ –O2 オーの2

文節の中から自立語を取り出す tangotoridasi.plの利用 その前に 文字コードの変換 perlでは内部でutf-8という文字コードを使用 *06.txtの文字コードをutf-8にしておく必要あり. TeraPadで*06.txtを開く. [ファイル]→[漢字改行コード指定保存]→ 漢字コードUTF-8 改行コードCR+LF  の状態で保存!

文節の中から自立語を取り出す 全部 1行に書く!! tangotoridasi.plの利用 y:\corpus>perl –s tangotoridasi.pl –fn=“gingatetsudo” < gingatetsudono_yoru06.txt > gingatetsudono_yoru07.txt 見出し語;品詞;0;表層形\tヨミ\t基本形\t品詞..........*;出展 全部 1行に書く!!

ここまでのまとめ *02.txt からスタート(先週) [#の解析→ *03.txt の作成 今週はここからスタート 1行1文へ(Kaigyo02.pl) → *04.txt の作成 変なところを手作業で直す → *05.txtの作成 chabochaでの処理 →*06.txtの作成 tangotoridasiでの処理 → *07.txtの作成

もう少し整形を seikei01.pl をダウンロード y:\corpus > perl seikei01.pl < gingatetsudono_yoru07.txt > gingatetsudono_yoru08.txt これにより, 見出し語 \t ヨミ(不完全) \t 表記 \t 品詞 \t 単複 \t 出展 (ここで \t はタブ記号を表す)

Excelでの読み込み MS-Excelで作成したデータを読み込む [スタート]→[すべてのプログラム]→[Microsoft Office]→[Microsoft Office Excel 2003] 起動したら,ファイル→開く→ gingatetsudono_yoru08.txt を選ぶ

Excelでの読み込み(2) UTF-8 カンマやタブ などの区切り文字 ...を選ぶ         次へ

Excelでの読み込み(3) 次の画面では タブのチェックを 確認       次へ

Excelで読み込む(4) そのまま   完了を押す ちゃんと読み込まれることを確認!