Presentation is loading. Please wait.

Presentation is loading. Please wait.

コーパス言語学実践 2006 年度 2 学期 第 2 回. 2 本日の内容 前半の作業について – 語彙調査の演習 – 用語の説明 語彙,単位語,延べ語,異なり語,見出し 語 作成作業 その1 – データ収集開始.

Similar presentations


Presentation on theme: "コーパス言語学実践 2006 年度 2 学期 第 2 回. 2 本日の内容 前半の作業について – 語彙調査の演習 – 用語の説明 語彙,単位語,延べ語,異なり語,見出し 語 作成作業 その1 – データ収集開始."— Presentation transcript:

1 コーパス言語学実践 2006 年度 2 学期 第 2 回

2 2 本日の内容 前半の作業について – 語彙調査の演習 – 用語の説明 語彙,単位語,延べ語,異なり語,見出し 語 作成作業 その1 – データ収集開始

3 3 前半の作業について コーパス言語学や計量言語学では... – 言葉に関するデータを何らかの形で数値化(数量 化) – 一番の基本は,単語として語の数を数える – ある言語データに存在する語彙を調査 → 語彙調査 語彙調査の実践を行う

4 4 語彙調査 どんな調査がありうるか – 語類構成比率 品詞の構成比率 語種(和語,漢語,カタカナ語...)の構成比 率 – 使用率分布 語の使用率 使用率の順位 (ジップ則) – 同一見出し語の出現間隔 同一語の繰り返しの分布

5 5 語彙調査 どんな調査がありうるか – 一語の長さ 分野やジャンルの違いと 1 語の長さの関係 語の使用率と語の長さの関係 – 使用率と多義性の関係 使用率が高い語ほど,意味が多い(多義性が高 い?) – 延べ語数と異なり語数の関係 文章の展開が進むにつれ,異なり語数がどのよう に変化していくか.話題の展開の様子

6 6 語彙調査 どんな調査がありうるか – 一語の長さ 分野やジャンルの違いと 1 語の長さの関係 語の使用率と語の長さの関係 – 使用率と多義性の関係 使用率が高い語ほど,意味が多い(多義性が高 い?) – 延べ語数と異なり語数の関係 文章の展開が進むにつれ,異なり語数がどのよう に変化していくか.話題の展開の様子 こういったことも,語彙を取 り出すことによって調査可能 に

7 7 語彙調査 調査の流れ – 調査対象の決定 どんなテキストを収集するか どのくらいの量を収集するか など – 素材テキストの収集 実際に収集 手直しや,加工 – 単位など調査規則の設定 – 語彙の分析

8 8 語彙調査 調査の流れ – 調査対象の決定 – 素材テキストの収集 – 単位など調査規則の設定 単位の認定規則設定(長い単位,短い単位など) 見出し語/単位語の基準設定 – 語彙の分析 語彙表の作成 分析対象とする語の決定 など

9 9 用語の説明 語彙 – 語の集まり 延べ語数 – 同じ語でも,1つ2つと数える,数え方 異なり語数 – 同じ語は1つと数える,数え方 例: パンダの親指は解剖学的には親指ではない.親 指だとすると指が 6 本ということになる.あれは パンダの手首の骨が変形してできたものだそう だ.

10 10 用語の説明 語彙 – 語の集まり 延べ語数 – 同じ語でも,1つ2つと数える,数え方 異なり語数 – 同じ語は1つと数える,数え方 例: パンダの親指は解剖学的には親指ではない.親 指だとすると指が 6 本ということになる.あれは パンダの手首の骨が変形してできたものだそう だ. 名詞を対象 とすると 12 語

11 11 用語の説明 語彙 – 語の集まり 延べ語数 – 同じ語でも,1つ2つと数える,数え方 異なり語数 – 同じ語は1つと数える,数え方 例: パンダの親指は解剖学的には親指ではない.親 指だとすると指が 6 本ということになる.あれは パンダの手首の骨が変形してできたものだそう だ. 名詞を対象 とすると 9 語

12 12 用語の説明 単位語 – 延べ語数に数えられた 1 語として数えられる 単語 見出し語 – 異なり語数で数えられる単語のこと 延べ語と異なり語 – 計量言語学では呼ばない – 計算言語学では呼ぶ

13 13 実習:語彙調査 調査対象の決定 – 対象テキスト:近代小説の文章 – 収集量:眺めの作品を 4 作品 素材テキストの収集 – 手作業で入力 → 素材テキストは青空文庫から – 加工,修正は手作業を中心に行う. 単位など調査規則の設定 語彙の分析

14 14 調査対象の決定 都合により... – 宮沢賢治 『銀河鉄道の夜』 – 芥川龍之介 『蜘蛛の糸』 – 夏目漱石 『吾輩は猫である』 – 森鴎外 『最後の一句』

15 15 収集方針 手入力ではなく → 公開素材を用いる パソコンでの作業を楽にするための加工, 修正は手作業で行う. タグ付けも手作業で行う. 素材テキストができた後の処理では自動 化も視野に入れる

16 16 素材の収集 作業1: – 青空文庫から,素材テキストを入手 – 青空文庫にアクセス – 作品の ルビ付き zip ファイルをダウンロード その前に...

17 17 素材の収集( 0 ) これからの準備 作業場所 –Y: ドライブ (ネットワークドライブ) –Y:\corpus というフォルダを作成 今後はここを作業場所に使用 フォルダ作成方法 1 :マイコンピュータから フォルダ作成方法 2 :コマンドプロンプトから

18 18 素材の収集 青空文庫 www.aozora.gr.jp 青空文庫は、利用に対価を求めない、インターネット電 子図書館です。 著作権の消滅した作品と、「自由に読んでもらってかま わない」とされたものを、テキストと XHTML (一部は HTML )形式でそろえています。 (青空文庫のサイト上,青空文庫早分かりより抜粋)

19 19 素材の収集 続きは,授業中に


Download ppt "コーパス言語学実践 2006 年度 2 学期 第 2 回. 2 本日の内容 前半の作業について – 語彙調査の演習 – 用語の説明 語彙,単位語,延べ語,異なり語,見出し 語 作成作業 その1 – データ収集開始."

Similar presentations


Ads by Google