コーパス言語学実践 2006 年度 2 学期 第 2 回. 2 本日の内容 前半の作業について – 語彙調査の演習 – 用語の説明 語彙,単位語,延べ語,異なり語,見出し 語 作成作業 その1 – データ収集開始.

Slides:



Advertisements
Similar presentations
日本語教育概論Ⅲ 日本語の語彙と意味 語彙とは? – 彙:集める、なかま – 語: word, 単語、一定の意味を持ち文を組み 立てる最小の独立した単位 – 語彙: vocabulary, 単語の集まり.
Advertisements

CEC 公開授業 Web サイト制作の流れ ~テーマ決定からサイト公開まで~ 2007 年 9 月 14 日 於:京都すばる高校 学校インターネット教育推進協会.
コーパス言語学実践 2006 年度 2 学期 第 7 回. 2 本日の内容 前回までのまとめ – ファイルの確認 – ファイルの分割 – エクセルでの作業(品詞構成比率 延べ語 数) 品詞構成比率(異なり語数) データ収集(占いのことば)
Google フォームの利用法 出欠確認表の運用実例. Google フォームとは Google に登録すると使える機能の一つ「 Google ドライブ」 インターネット上にファイル等を保存出来るスペース、 その中の機能の一つです。 問い合わせやアンケートなどを自由に作れる。 ● アンケートはテンプレートから手軽に出来る.
電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
コーパス言語学実践 2006 年度 2 学期 第 9 回. 2 本日の内容 これまでと同様の作業 – プログラムで処理するケースの紹介.
クリックすると、 [SourceEditor2.0] の インストール / 更新・起動 クリックすると、 [MarkReader2.0] の インストール / 更新・起動 クリックすると、 [MarkReader2.0] の インストール / 更新・起動 SQS ホームページ
F5 を押すか、または [スライド ショー] > [最初から] をクリックして、コースを開始してください。
話し言葉 (ある広告会社での会話) A:「anan」のサーキュレーションってどんくらい? B:えーと、26万部くらいです。 A:ターゲットは? B:F1です。 A:来月号の特集、何やったかな? B:スマホか地ビールだったと思いますが、確認しときます。 A:おう、よろしくな。あと、クライアントとのアポもよろしく。
応用コース:ワープロを活用する WORD2000 1回目 基礎コースの復習(第1章と付録) 2回目 文字の入力(第2章と第4章)
初年次セミナー 第13回 2次元グラフィックス(1).
本日のスケジュール 14:45~15:30 テキストの講義 15:30~16:15 設計レビュー 16:15~16:30 休憩
コーパスによる比較文体学 Corpus-based Comparative Stylistics
XBRLを使って, 財務分析(2015) 専修大学商学部 高萩栄一郎.
第11章 プレゼンテーションの基本スキル 1 プレゼンテーションとは 2 プレゼンテーションの種類と特徴 3 プレゼンテーションツール
情報処理入門A・B 第7回 ワープロソフト入門(2)
1 インストール・起動する 「SQS」で検索 SQSホームページ 動作環境 JavaSE 6以上 (JRE6)
コーパス言語学実践 2006年度2学期 第10回.
2012年度 コンピュータ応用B (旧コンピュータ基礎D) ガイダンス
     私の研究テーマ        宮沢賢治        人間文化学科         1311220         佐々木安未.
言語体系とコンピュータ 第5回.
らくらく学校連絡網 スライドショーで見る操作ガイド -3- 登録 抜粋-管理者作業 escで中断、リターンキーで進みます
情報処理基礎 2006年 6月 1日.
電子書籍を さがす どんな書籍があるの?
NC-2 情報通信基礎実験 WEBデザイン基礎実験 (2日目) 担当:清水,田代 副手:浦辺,石井.
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
著 作 権(2) 情報社会と情報倫理 第6回.
情報技術と著作権.
第13回授業(7/10-1) での学習内容 6月19日に宿題にした平均値の差の検定結果、及び7月3日の授業で実習した同検定結果のウェブ上での検算のやり方を学習する。 この検算の宿題は、春期定期試験の時に、今日渡す2枚目の出欠表の裏に授業中の手計算による結果と比較して、手計算の結果が正しかったかを報告する。
テキストマイニング, データマイニングと 社会活動のトレース
コーパス言語学実践 2006年度2学期 第1回.
コーパス言語学実践 2006年度2学期 第5回.
第5回授業(5/08) の目標 第1章のウェブ上での宿題のやり方の続き(ここまでで、終了)。
高専間教育素材共有システム (教育素材の登録)
Webサイト制作の流れ CEC公開授業 ~テーマ決定からサイト公開まで~ 2007年11月20日 於:東京都立板橋有徳高校
13回目 複合情報検索 13-1 課題の概要 13-2 EBSCOhost の使用方法 13-3 ProQuestの使用方法
湘南工科大学 2013年4月23日 プロジェクト実習A アドベンチャーゲームを作ろう 第3回 湘南工科大学情報工学科 准教授 小林 学.
コンピュータ基礎実習上級 #1 概要説明と基礎体力テスト
データ分析基礎c(2012年以降入学) 情報編集基礎c(2011年以前入学)
パスファインダーの作成 slis. tsukuba. ac. jp/~fuyuki/cje2/CJE161018
データベース設計 第9回 Webインタフェースの作成(1)
第9回:Microsoft Excel (1/2)
地理情報システム論演習 地理情報システム論演習
プログラミング 設計資料 メンバー:.
10 Microsoft Word(1) 10.1 Microsoft Word v.Xの概要 起動 終了
2017年度 経済史入門 第1回 ガイダンス 経済学部 准教授 菅原歩 水4 C200.
【プログラミング応用】 必修2単位 通年 30週 授業形態:演習.
HTTPとHTML 技術領域専攻 3回 中川 晃.
データからいろんなことを学ぼう! このスライドでは、順に、こんなことを説明します。 「データ」って、どんなもの? 「データ」を集めてみよう
自然言語処理及び実習 第11回 形態素解析.
プロジェクト演習Ⅱ インタラクティブゲーム制作 イントロダクション2
環境リスクマネジメントに関する 検索システム
イメージポスターを作ろう! 情報C 課題.
情報スキル活用 第3週 基礎技術ー3 : 学部・学科紹介のページ作成.
マイクロソフト Access での SQL 演習 第4回 並べ替え(ソート)
プログラミング言語Ⅰ(実習を含む。), 計算機言語Ⅰ・計算機言語演習Ⅰ, 情報処理言語Ⅰ(実習を含む。)
情報処理概論Ⅰ 2007 第5回 2019/4/7 情報処理概論Ⅰ 第5回.
ルーブリック・チャート(評価) の活用と課題
テキストマイニング, データマイニングと 社会活動のトレース
マイクロソフト Access での SQL 演習 第2回 集計,集約
情報コミュニケーション入門b 第11回 Web入門(2)
地理情報システム論 第8回 GISによる処理技法(1) データの入手と座標系の変換 ベクタ形式における空間的演算(1)
情報基礎Ⅱ (第1回) 月曜4限 担当:北川 晃.
構造的類似性を持つ半構造化文書における頻度分析
クローン検出ツールを用いた ソフトウェアシステムの類似度調査
コーパス コーパス(Corpus)はコンピュータの発達とともに、計算機可読なデータを容易に作成・収集することができるようになったことがその背景にある。現在ではコーパス言語学などの学問もある。
ソフトウェア理解支援を目的とした 辞書の作成法
エクスプローラ ● エクスプローラ: ファイルやフォルダを階層構造で表示してあり、これらを操作するのに便利。
情報スキル活用 第1週    ガイダンス.
7-Zipのインストール (Windows 10)
Presentation transcript:

コーパス言語学実践 2006 年度 2 学期 第 2 回

2 本日の内容 前半の作業について – 語彙調査の演習 – 用語の説明 語彙,単位語,延べ語,異なり語,見出し 語 作成作業 その1 – データ収集開始

3 前半の作業について コーパス言語学や計量言語学では... – 言葉に関するデータを何らかの形で数値化(数量 化) – 一番の基本は,単語として語の数を数える – ある言語データに存在する語彙を調査 → 語彙調査 語彙調査の実践を行う

4 語彙調査 どんな調査がありうるか – 語類構成比率 品詞の構成比率 語種(和語,漢語,カタカナ語...)の構成比 率 – 使用率分布 語の使用率 使用率の順位 (ジップ則) – 同一見出し語の出現間隔 同一語の繰り返しの分布

5 語彙調査 どんな調査がありうるか – 一語の長さ 分野やジャンルの違いと 1 語の長さの関係 語の使用率と語の長さの関係 – 使用率と多義性の関係 使用率が高い語ほど,意味が多い(多義性が高 い?) – 延べ語数と異なり語数の関係 文章の展開が進むにつれ,異なり語数がどのよう に変化していくか.話題の展開の様子

6 語彙調査 どんな調査がありうるか – 一語の長さ 分野やジャンルの違いと 1 語の長さの関係 語の使用率と語の長さの関係 – 使用率と多義性の関係 使用率が高い語ほど,意味が多い(多義性が高 い?) – 延べ語数と異なり語数の関係 文章の展開が進むにつれ,異なり語数がどのよう に変化していくか.話題の展開の様子 こういったことも,語彙を取 り出すことによって調査可能 に

7 語彙調査 調査の流れ – 調査対象の決定 どんなテキストを収集するか どのくらいの量を収集するか など – 素材テキストの収集 実際に収集 手直しや,加工 – 単位など調査規則の設定 – 語彙の分析

8 語彙調査 調査の流れ – 調査対象の決定 – 素材テキストの収集 – 単位など調査規則の設定 単位の認定規則設定(長い単位,短い単位など) 見出し語/単位語の基準設定 – 語彙の分析 語彙表の作成 分析対象とする語の決定 など

9 用語の説明 語彙 – 語の集まり 延べ語数 – 同じ語でも,1つ2つと数える,数え方 異なり語数 – 同じ語は1つと数える,数え方 例: パンダの親指は解剖学的には親指ではない.親 指だとすると指が 6 本ということになる.あれは パンダの手首の骨が変形してできたものだそう だ.

10 用語の説明 語彙 – 語の集まり 延べ語数 – 同じ語でも,1つ2つと数える,数え方 異なり語数 – 同じ語は1つと数える,数え方 例: パンダの親指は解剖学的には親指ではない.親 指だとすると指が 6 本ということになる.あれは パンダの手首の骨が変形してできたものだそう だ. 名詞を対象 とすると 12 語

11 用語の説明 語彙 – 語の集まり 延べ語数 – 同じ語でも,1つ2つと数える,数え方 異なり語数 – 同じ語は1つと数える,数え方 例: パンダの親指は解剖学的には親指ではない.親 指だとすると指が 6 本ということになる.あれは パンダの手首の骨が変形してできたものだそう だ. 名詞を対象 とすると 9 語

12 用語の説明 単位語 – 延べ語数に数えられた 1 語として数えられる 単語 見出し語 – 異なり語数で数えられる単語のこと 延べ語と異なり語 – 計量言語学では呼ばない – 計算言語学では呼ぶ

13 実習:語彙調査 調査対象の決定 – 対象テキスト:近代小説の文章 – 収集量:眺めの作品を 4 作品 素材テキストの収集 – 手作業で入力 → 素材テキストは青空文庫から – 加工,修正は手作業を中心に行う. 単位など調査規則の設定 語彙の分析

14 調査対象の決定 都合により... – 宮沢賢治 『銀河鉄道の夜』 – 芥川龍之介 『蜘蛛の糸』 – 夏目漱石 『吾輩は猫である』 – 森鴎外 『最後の一句』

15 収集方針 手入力ではなく → 公開素材を用いる パソコンでの作業を楽にするための加工, 修正は手作業で行う. タグ付けも手作業で行う. 素材テキストができた後の処理では自動 化も視野に入れる

16 素材の収集 作業1: – 青空文庫から,素材テキストを入手 – 青空文庫にアクセス – 作品の ルビ付き zip ファイルをダウンロード その前に...

17 素材の収集( 0 ) これからの準備 作業場所 –Y: ドライブ (ネットワークドライブ) –Y:\corpus というフォルダを作成 今後はここを作業場所に使用 フォルダ作成方法 1 :マイコンピュータから フォルダ作成方法 2 :コマンドプロンプトから

18 素材の収集 青空文庫 青空文庫は、利用に対価を求めない、インターネット電 子図書館です。 著作権の消滅した作品と、「自由に読んでもらってかま わない」とされたものを、テキストと XHTML (一部は HTML )形式でそろえています。 (青空文庫のサイト上,青空文庫早分かりより抜粋)

19 素材の収集 続きは,授業中に