コーパス言語学実践 2006年度2学期 第1回.

Slides:



Advertisements
Similar presentations
社会学部 模擬授業 社会調査から見る日本社会 グラフからよみとれること 社会学科准教授 村瀬洋一  41 歳 東北大学大学院出身(行動科学専攻分野)  1997 年 10 月 立教大学社会学部に着任  専門分野 政治社会学、計量社会学、社会階層と社会意識  趣味 ドライブ、スキー、水泳、パソコンいじり.
Advertisements

コーパス言語学実践 2006 年度 2 学期 第 2 回. 2 本日の内容 前半の作業について – 語彙調査の演習 – 用語の説明 語彙,単位語,延べ語,異なり語,見出し 語 作成作業 その1 – データ収集開始.
コーパス言語学入門 2007年度1学期 第4回.
研修のめあて 授業記録、授業評価等に役立てるためのICT活用について理解し、ディジタルカメラ又はビデオカメラのデータ整理の方法について研修します。 福岡県教育センター 教員のICT授業活用力向上研修システム.
SPSS操作入門 よい卒業研究をめざして 橋本明浩.
最大エントロピーモデルに基づく形態素解析と辞書による影響
第11章 プレゼンテーションの基本スキル 1 プレゼンテーションとは 2 プレゼンテーションの種類と特徴 3 プレゼンテーションツール
ヘルスケア連動型 市販薬検索システム 研究者 : 加納 えり 指導教員 : 越田 高志.
コーパス言語学実践 2006年度2学期 第10回.
Java I 第2回 (4/18)
メ デ ィ ア ・ リ テ ラ シ ー.
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
相互評価システムの開発と大学情報科目における利用 柴田好章(名古屋大学大学院) 小川亮(富山大学教育学部)
神戸大学大学院国際文化学研究科 外国語教育論講座外国語教育コンテンツ論コース 神戸 花子
情報教育の推進について 神奈川県立川崎北高等学校.
 授業を設計する(その4) 情報科教育法 後期5回 2004/11/6 太田 剛.
言語体系とコンピュータ 第6回.
プレゼンテーションの技法 諏訪邦夫.
日本語統語論:構造構築と意味 No.1 統語論とは
テキストマイニング, データマイニングと 社会活動のトレース
コーパス言語学実践 2006年度2学期 第5回.
経済情報処理ガイダンス 神奈川大学 経済学部.
情報科学1(G1) 2016年度.
形態素解析および係り受け解析・主語を判別
メ デ ィ ア ・ リ テ ラ シ ー 情報社会と情報倫理 第2回.
経済情報処理ガイダンス 神奈川大学 経済学部.
On Digital Tools for Language Documentation 言語記録保存のためのデジタルツールについて
経済情報処理ガイダンス 神奈川大学 経済学部.
ヒューマンインタフェース 電子機械工学専攻 第2学年 後期 開講
情報処理基礎A・B 第6回 続・ワープロソフト入門 構造を持つ文書作成と その支援機能の活用
データ分析基礎c(2012年以降入学) 情報編集基礎c(2011年以前入学)
経済情報処理ガイダンス 神奈川大学 経済学部.
日本語解析済みコーパス管理ツール 「茶器」
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
スピーキングタスクの繰り返しの効果 ―タスクの実施間隔の影響―
ソフトウェア情報学総論 基盤ソフトウェア学講座
リファクタリング支援のための コードクローンに含まれる識別子の対応関係分析
数量分析 第2回 データ解析技法とソフトウェア
社会学部 模擬授業 社会調査から見る日本社会 グラフからよみとれること 社会学科准教授 村瀬洋一
フーコー 言説の機能つづき: ある者・社会・国の「排除」
情報処理技法(リテラシ)II 第9回:Word (2/2) 産業技術大学院大学 情報アーキテクチャ専攻 助教  柴田 淳司.
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
情報処理技法(リテラシ)II 第12回:PowerPoint (3/3) 産業技術大学院大学 情報アーキテクチャ専攻 助教  柴田 淳司.
講師メモ 田中 潔 岡山商科大学商学部助教授 連絡先(質問や相談ごと) 〒700-8601(商大,専用番号)
テキストマイニング, データマイニングと 社会活動のトレース
経済情報処理ガイダンス 50分用ガイダンス。時間があれば、後半ログオンして操作させる。 神奈川大学 経済学部.
東京工科大学 コンピュータサイエンス学部 亀田弘之
情報処理基礎A・B 坂口利裕 横浜市立大学・商学部
理論研究:言語文化研究 担当:細川英雄.
コーディングパターンの あいまい検索の提案と実装
論文のタイトル 言語 単語数 音節数 日本語 英語 韓国語 インドネシア語
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
社会学部 模擬授業 社会調査から見る日本社会 グラフからよみとれること 社会学科准教授 村瀬洋一
経済情報処理ガイダンス 神奈川大学 経済学部.
社会学部 模擬授業 社会調査から見る日本社会 グラフからよみとれること 社会学科准教授 村瀬洋一
構造的類似性を持つ半構造化文書における頻度分析
ガイダンス 電子計算機 電気工学科 山本昌志 1E
東京工科大学 コンピュータサイエンス学部 亀田弘之
コーパス コーパス(Corpus)はコンピュータの発達とともに、計算機可読なデータを容易に作成・収集することができるようになったことがその背景にある。現在ではコーパス言語学などの学問もある。
自然言語処理2015 Natural Language Processing 2015
情報コミュニケーション入門b 第9回 表計算ソフト入門(3)
第10回 質問(3) メール講座 Next Stage:翻訳力アップ自己トレ(1)
第7回 Q&A メール講座 Next Stage:翻訳力アップ自己トレ(1)
情報処理技法(リテラシ)II 第1回:オリエンテーション 産業技術大学院大学 情報アーキテクチャ専攻 助教  柴田 淳司 パソコンの基本操作.
医療科学B演習のおさらい 杏林大学医学図書館 医療科学B.
自然言語処理2016 Natural Language Processing 2016
mi-8. 自然言語処理 人工知能を演習で学ぶシリーズ(8)
情報処理の概念 #0 概説 / 2002 (秋) 一般教育研究センター 安田豊.
C#プログラミング実習 第1回.
Presentation transcript:

コーパス言語学実践 2006年度2学期 第1回

コーパス言語学実践 授業科目名:言語情報学基礎 授業題目名:コーパス言語学実践 履修コード:4007 教室:216 2学期開講 授業の進め方 講義+コンピュータを使う.

評価方法 最終回にテストを実施 レポートを3回だす予定 テスト: 授業のフォローは,Web上で行う A4の紙を手書きに限り1枚持ち込み可 大学のトップページ→外国語学部案内→ 学内ポータル→言語・情報コース→望月のページ →講義関連のコーパス言語学実践へ

授業概要 おさらい 前半: 後半: コーパス言語学入門 パソコン演習: 実例を使った分析に挑戦: コーパスの準備,語彙表作成,Excelで整頓 プログラミング言語でテキスト処理など 後半: 実例を使った分析に挑戦: うらない,雑誌のキャッチコピーその他の素材で

おさらい コーパス言語学とは? 一般に...言語研究には 言語の構造に興味 言語の用法に興味 言語分析:形態素→単語→句→文→文章 言語とはどのように成り立っているのか? 言語の用法に興味 特定の言語構造に焦点 →どんな使用場面,使用傾向があるか?

言語の研究 例:動詞補文 that節とto付き不定詞 (1) I hope that I can go. that節 I hope to go.        to付き不定詞 意味が類似 (3) I hope(that) I can go. that省略のthat節

言語の研究 例:動詞補文 that節とto付き不定詞 (1) I hope that I can go. that節 I hope to go.        to付き不定詞 意味が類似 (3) I hope(that) I can go. that省略のthat節 構造に興味... (1)(2)(3)の文法的な類似点,相違点を述べる

言語の研究 例:動詞補文 that節とto付き不定詞 (1) I hope that I can go. that節 I hope to go.        to付き不定詞 意味が類似 (3) I hope(that) I can go. that省略のthat節 用法に興味... 同じような意味なのになぜ違うのか? どんな用法上の違いがあるのか?

用法の研究 分析 典型的なパターンはないだろうか? ある作家の文体,社会的グループの違い, 時代,性別,ジャンルなどの観点 変異に影響を与える文脈などの要因はないか? that節とto節では好みの傾向などがあるのか? 一緒に出てくる動詞の傾向は?文脈は?

用法の研究 分析 典型的なパターンはないだろうか? ある作家の文体,社会的グループの違い, 時代,性別,ジャンルなどの観点 変異に影響を与える文脈などの要因はないか? that節とto節では好みの傾向などがあるのか? 一緒に出てくる動詞の傾向は?文脈は? 客観性を持った分析 直感だけ,印象だけ,ではない

用法の研究 客観性を持った分析 直感だけ,印象だけ,ではない これが難しい!! 人間は印象的なもの,目立つものを重要視 →実際は稀な事例でも,よくあるように思ってしまう ある傾向がありそうだとして,何が効いているか,要因(候補)はたくさんある →ある程度の数がないと,偏りが出てしまう

用法の研究 客観性を持った分析 頻度統計 バリエーションの確保 しっかりと量的な裏づけが重要 直感だけ,印象だけ,ではない これが難しい!! 人間は印象的なもの,目立つものを重要視 →実際は稀な事例でも,よくあるように思ってしまう ある傾向がありそうだとして,何が効いているか,要因(候補)はたくさんある →ある程度の数がないと,偏りが出てしまう

用法の研究 しっかりと量的な裏づけが重要 頻度統計 バリエーションの確保 最近まで 大量の言語データを集めるのは実質無理だった 最近 コンピュータの発達で現実のものとなってきた コーパスの存在

コーパスに基づく研究法 実際に使われているテキストにおける用法,パターンを分析 分析の基礎,対象としてコーパス(大量に収集した言語データ)を用いる 分析にコンピュータの処理能力を利用する  (利用の仕方はいろいろ) 数量的な面と,質的な面の両方を分析手法に取り入れる

コーパスに基づく研究法 例:動詞補文 that節とto付き不定詞 (1) I hope that I can go. that節 I hope to go.        to付き不定詞 意味が類似 (3) I hope(that) I can go. that省略のthat節 違いはどこから来るのか? コーパスを用いれば調べる手立てがある.

例えば... 試してみましょう.

計量言語学 言語や言語行動の量的側面 コーパス言語学と近い 計量言語学から見ると... コーパス言語学 →コーパスを使った計量言語学 統計的な方法を用いて研究する学問分野 コーパス言語学と近い 計量言語学から見ると...  コーパス言語学  →コーパスを使った計量言語学  と見える. *参考:計量言語学入門(伊藤雅光著,大修館書店)

計量言語学の分野 言語単位の利用率 文体の分析 言語の系統 方言区画 社会言語学 2つの言語が1つの言語から分裂(言語年代学) 方言の分類(どこからどこまでがどの方言か) 社会言語学

計量言語学の分野 言語単位の利用率 文体の分析 言語の系統 方言区画 社会言語学 計量文献学:年代推定,著者推定 計量文体論:文章心理学,文体研究 文体的特徴を統計的な手法で明らかにする学問 言語の系統 方言区画 社会言語学

計量言語学の分野 言語単位の利用率 文体の分析 言語の系統 方言区画 社会言語学:多様であり定義困難 社会的要因との相関で言語の多様性を見る コミュニケーション上のやり取りを社会的要因と見る向きもある

計量言語学の分野 言語単位の利用率 音素,文字,単語の頻度,使用率を求め,言語や記号の集合に関する使用率分布,量的な構成と性格,構造,一般法則などを明らかにしていく. 関連分野は,言語学のほとんど全部の分野 計量単位は,単音,音素,音節,形態素,単語,文節,文字など 固有の分野は,語彙を対象とした計量語彙論 計量語彙論が計量言語学の中心

コーパス言語学入門のおさらい(1) コーパスとは? 実際に使用されている言語を 言語データとして大量に収集したもの(≒電子化) 実際に使用されている言語を 言語データとして大量に収集したもの(≒電子化) 代表例:新聞記事,小説など →コーパスを眺めていると,   言語の特徴が見えてくる(はず)

コーパス言語学入門のおさらい(2) コーパス言語学 言語学の一分野 コーパス(言語資源)+コンピュータ(のパワー)を利用した言語分析全般 ポイント 電子化されたコーパス(機械可読)とコンピュータだからできる規模を生かす 検索,数え上げ,数値分析など

コーパス言語学入門のおさらい(3) コーパスにはどのような種類があるか コーパスは,どのように作るか,集めるか コーパスをどうやって使うか(ツールの話) コーパスを利用して出た結果を分析する技術,知識 といったことを学んだ.

コーパス言語学入門のおさらい(4) コーパスにはどんな種類があるか コーパスの違いを区別する特徴5つ 規模 量の変化 汎用性 収集期間 掲載メディア

コーパス言語学入門のおさらい(5) コーパスにはどんな種類があるか コーパスの違いを区別する特徴5つ 規模 量の変化 汎用性 収集期間 掲載メディア 大規模,中規模,小規模 モニタコーパス,サンプルコーパス 特殊目的,汎用目的 通時的,共時的 書き言葉,読み言葉,中間的

コーパス言語学入門のおさらい(6) コーパスはどのように作るか コーパスは言語データ 情報を付与して整備することで使いやすく ただ集めてきただけでは使いにくい(「生のデータ」) 情報を付与して整備することで使いやすく どんな情報を付与するか? どんなやり方で付与するか?

コーパス言語学入門のおさらい(7) コーパスに情報を付与 情報の種類 1.素材の管理のための情報(header情報) 2.コーパス内部の表記規則など 3.コンピュータでの処理をしやすくする+  言語研究での利用をしやすくするための情報

コーパス言語学入門のおさらい(8) 1.素材の管理のための情報(header情報) その言語データを整理,管理,参照するときに 必要になるような情報  他の例 表現例 著者名:<author>赤川次郎</author> 作品名:<title>三毛猫ホームズの...</title> 出典名:<source>角川文庫</source> 出版日:<pubdate>2004.03.31</pubdate> 加工者名:<tagger>mochi</tagger> 加工日:<tagdate>2006.04.25</tagdate>

コーパス言語学入門のおさらい(9) 2.コーパス内部の表記規則など コーパス中で用いる特殊な記号や使い方の説明 例:対話を記録したコーパス 話者が2人いるとすると,A: B:とする.A:えー                          B:はい 発話が重なったとき,A,B:とする A,B:はい などという表記上のルール フォントを使い分けてあればその意味 送り仮名や漢字の統一した使い方など

コーパス言語学入門のおさらい(10) 3.コンピュータでの処理をしやすくする+ 言語研究での利用をしやすくするための情報 コンピュータは,言語データの詳細をうまく扱えない (言葉がわからないから) コンピュータでの利用をやりやすくする処理 言語研究にとって都合のよいように加工して 手間をかけることで価値を高める

コーパス言語学入門のおさらい(10) 3.コンピュータでの処理をしやすくする+ 言語研究での利用をしやすくするための情報 文章構造:単語,文,段落,節,章,テキスト   文<sentence> ~ </sentence>   段落<paragraph> ~ </paragraph>   文章全体 <text> ~ </text> など

コーパス言語学入門のおさらい(11) コーパスの作成 タグづけにともなう問題 単語の区切りはどうするか? 品詞をどう定義するのか? 長い単位と短い単位 品詞をどう定義するのか? 学校文法,その他の文法 人間の揺らぎをどうやって抑えるか? ルールを厳格化し,揺らぎを排除 誰でもいつでも同じ基準で作業

コーパス言語学入門のおさらい(12) コーパスに関係するツール 言語解析ツール 日本語 形態素解析(茶筅,JUMAN) 構文解析(Cabocha,KNP) 英語 形態素解析(BrillTagger) 構文解析(ApplePieParser)などなど →利用できる言語解析ツールは存在する

コーパス言語学入門のおさらい(13) コーパスに関係するツール ブラウズツール KWIC (KeyWord In Context) ひまわり (国立国語研究所) KWIC Concordance for Windows Web Concordancer Web KWIC →利用できるブラウズツールも多数存在

コーパス言語学入門のおさらい(14) コーパスを利用して出た結果の分析 語彙調査 分析(問題によってやることは異なるが) 出現頻度の差の有意差 差異係数 ばらつきの検定など 考察 得られたデータから何が言えるかを考察 納得できる説明,視点を与える分析

コーパス言語学入門のおさらい(14) コーパスを利用して出た結果の分析 語彙調査 分析(問題によってやることは異なるが) 出現頻度の差の有意差 差異係数 ばらつきの検定など 考察 得られたデータから何が言えるかを考察 納得できる説明,視点を与える分析 必ず,統計的な検定をするというわけでもない 適用できる検定方法があるなら適用すべき 十分に納得のいく他の分析を用いる方法もある

授業の予定 10/3 10/10,17,24 語彙表作成 (データ収集) 10/31,11/7,14 統計的分析 (データ収集) 10/10,17,24   語彙表作成   (データ収集) 10/31,11/7,14  統計的分析   (データ収集) 11/21     外語祭準備日で休み 11/28,12/5,12 収集データの加工分析準備 12/19    金曜日の授業に振り替え 1/16,23,30    分析 2/6 テストの予定