コーパス言語学 第1回.

Slides:



Advertisements
Similar presentations
XML と Excel によるデータ化の違い (1) Excel ファイルのままでは検索はできない! (2) Excel ファイルでは、項目の追加や削除に対応できな い! (3) Excel ファイルでは、品質の機械的なチェックが困難 (4) Excel では、大きなデータ、大量のデータに対応できな.
Advertisements

平成 22 年度 言語情報学演習 コーパス言語学入門 第 1 回.  授業名:情報システムコース実験演習 後期 火 曜第 2 フレーム  担当部分:言語情報学演習(コーパス言語学入 門)  担当教員:藤 正明  日時: 10 月 5 日・ 10 月 26 日・ 11 月 2 日の 3 時 30.
メンタルレキシコン4: ことばの意味を言語データから 探る. コーパス言語学とは? コーパス言語学とは、コーパス ( テキスト の総体 ) をつかった、言語の科学的研究の ことです。
プログラミング言語論 第3回 BNF 記法について(演習付き) 篠埜 功. 構文の記述 プログラミング言語の構文はどのように定式化できるか? 例1 : for ループの中に for ループが書ける。 for (i=0; i
1 情報教育 初級講座 担当: 遠藤 美純 2 今日の内容  Excel の応用 ( 午前 )  データ処理や Word との連携  グラフの作成  PowerPoint によるスライド作成 ( 午後 )  Excel による演算と基本的な関数  Excel.
情報処理 第9回第9回第9回第9回. 今日の内容 Excel の起動と画面構成 –Excel の起動 –Excel の画面構成と基本用語 データの入力 – 文字の入力 – 数値の入力 – 日時の入力 – オートフィル.
情報処理 第9回第9回第9回第9回. 今日の内容 Excel の起動と画面構成 –Excel の起動 –Excel の画面構成と基本用語 データの入力 – 文字の入力 – 数値の入力 – 日時の入力 – オートフィル.
コーパス言語学実践 2006 年度 2 学期 第 2 回. 2 本日の内容 前半の作業について – 語彙調査の演習 – 用語の説明 語彙,単位語,延べ語,異なり語,見出し 語 作成作業 その1 – データ収集開始.
コーパス言語学実践 2006 年度 2 学期 第 7 回. 2 本日の内容 前回までのまとめ – ファイルの確認 – ファイルの分割 – エクセルでの作業(品詞構成比率 延べ語 数) 品詞構成比率(異なり語数) データ収集(占いのことば)
情報処理基礎 A ・ B 第 5 回 プログラミング入門 操作の自動化を実現する仕組み. 2004/11/16 ・ 17 情報処理基礎 A ・ B 2 本日の内容 処理の自動化~プログラムの概念 ハードウェアとソフトウェア プログラミング言語 Excel における処理の自動化 入力支援の機能 分析ツール.
Windows 入門 2007 年 7 月 17 日 マルチメディアセンター 重歳 憲治. 2007/07/17 Windows 入門 2 講習会概要 Windows XP Professional (ノートパソコ ン)を使って,コンピュータを使用する上で 必要な基礎知識,基本操作について実習形式.
PowerPoint による プレゼンテーションの作成 2005 年 7 月 19 日 牧野真也 最初のスライドは通常表紙となる.
文字列処理: Perl, Java 等 徃住研究室 D2 村井 源 COE21-LKR 認知的知識資源論.
応用コース:ワープロを活用する WORD2000 1回目 基礎コースの復習(第1章と付録) 2回目 文字の入力(第2章と第4章)
情報処理3 アプリケーション プログラミング 今井孝明.
図の挿入 ●方法1 ①図を挿入する位置にカーソルを置く。 ②「挿入」メニュー →「図」 → 「ファイルから」とクリックする。 ③挿入するファイルを選択し、「挿入」をクリックする。 ●方法2(書式までコピーされるので、ファイルサイズが大きくなる) ①挿入する図をコピーする。 ② 挿入する位置にカーソルを移動し、ツールバーまたは右クリックメニューの「貼り付け」をクリックする。
図の挿入 ●方法1 ①図を挿入する位置にカーソルを置く。 ②「挿入」タブ ⇒「図」 → 「ファイルから」とクリックする。 ③挿入するファイルを選択し、「挿入」をクリックする。 ●方法2(書式までコピーされるので、ファイルサイズが大きくなる) ①挿入する図をコピーする。 ② 挿入する位置にカーソルを移動し、ツールバーまたは右クリックメニューの「貼り付け」をクリックする。
Regex takatosi.
Excel による データベース入門 Ver /9.
WORD講習会.
授与動詞(あげる).
最適化ソルバーのための Python言語入門
コードの歴史 ASCII(American Standard Code for Information Interchange)  ANSI ISO 646 = 95文字のラテン文字 アルファベット+数字+特殊文字 制御コード: LF, CR などの表示制御と   ACK,DEL などの通信制御 、など.
情報コミュニケーション入門 ワープロソフト入門(1) レイアウトと書式の設定
SLAT2/ChaKi.NET DB Model 解説資料 (兼 ChaKi-SLAT 統合状況の経過説明)
Q q システムソフトウェア 第2回:2007年10月10日(水) q q.
12月08日 構文解析 入力文(記号列)が与えられたとき,文法によってその文を解析し,その構造を明らかにする.
この資料は、テキストをもとに、講義のために作成したものです.学習用に活用してください.
Presentation by Hiroshi Kaga
情報コミュニケーション入門b 第4回 ワープロソフト入門(2)
日本語解析済みコーパス管理ツール 「茶器」
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
検索エンジンを利用した Covert Channelの検出
情報コミュニケーション入門b 第5回 プレゼンテーション支援ツール入門
計算物理学基礎 第1回 UNIXの基礎 C言語の基本.
Office IME 2010 を使う.
プログラミング言語論 第3回 BNF記法について(演習付き)
人工知能特論II 第2回 二宮 崇.
独習XML 第2章 XML文書の構成要素 2.1 XMLの文字と文字列 2.2 コメント
東京工科大学 コンピュータサイエンス学部 亀田弘之
Nakano School of Business 経営情報ビジネス科 【 Java概論(Test5)】
2016年度 植物バイオサイエンス情報処理演習 第6回 情報処理(4) データを加工する・2
トレーニング プレゼンテーションのタイトル
諸連絡 USBメモリの販売について 日時:6月23日(月)授業開始前 商品:プリンストン社製32MBのUSBメモリ
コンピュータ プレゼンテーション.
日本の表音文字(ひらがな、かたかな)と漢字
第5章 計算とプログラム 本章で説明すること ・計算の概観と記述法 ・代表的な計算モデル ・プログラムとプログラム言語.
長さの制限付きギャップと 文字クラスを含むパタンに対する 照合アルゴリズムの改善
情報コミュニケーション入門e 第9回 Part1 ワープロソフト入門(2)
プログラミング言語論 第9回 情報工学科 木村昌臣 篠埜 功.
情報コミュニケーション入門e 第9回 Part1 ワープロソフト入門(2)
Qiwi: テキスト中の 数値表現マイニング
東京工科大学 コンピュータサイエンス学部 亀田弘之
情報コミュニケーション入門e 第8回 ワープロソフト入門(1)
情報コミュニケーション入門e 第8回 ワープロソフト入門(1)
電気・機械・情報概論 VBAプログラミング 第1回 2018年6月25日
コーパス管理システム 『ChaKi.NET』
東京工科大学 コンピュータサイエンス学部 亀田弘之
構造的類似性を持つ半構造化文書における頻度分析
プログラミング基礎a 第4回 C言語によるプログラミング入門 条件判断と反復
コーパス コーパス(Corpus)はコンピュータの発達とともに、計算機可読なデータを容易に作成・収集することができるようになったことがその背景にある。現在ではコーパス言語学などの学問もある。
第6回放送授業.
プログラミング基礎a 第3回 C言語によるプログラミング入門 データ入力
オブジェクト指向言語論 第二回 知能情報学部 新田直也.
プログラミング基礎a 第5回 C言語によるプログラミング入門 配列と文字列
PEG覚え書き.
プログラミング基礎a 第3回 C言語によるプログラミング入門 データ入力
C#プログラミング実習 第1回.
Elements of Style 第3回 2019年6月11日(火).
Presentation transcript:

コーパス言語学 第1回

コーパス言語学とは Corpus(-based) linguistics コーパス(corpus, corpora)を使った言語研究  言語教育、言語変異(変化)などに関する実証的研 究

言語使用における変異 言語内的要因 言語式、語彙特性、構文、前後文脈など 言語外的要因   言語式、語彙特性、構文、前後文脈など 言語外的要因   時代(年齢)、性別、地域、使用域(レジスタ、ジャン ル)など

調査対象 英語における二重目的語構文と前置詞与格構文の 使い分けに関わる要因 a. John gave a book to Mary. (Double Object Construction, DOC) b. John gave Mary a book. (Prepositional Dative Construction, PDC)

調査対象コーパス 60年代 90年代 アメリカ英語 Brown Frown イギリス英語 LOB FLOB 書き言葉、15ジャンル 書き言葉、15ジャンル  500テキスト×2,000語=100万語

コーパス検索:正規表現 正規表現(regular expression):  文字列のパタンを表記する方法(テキストの検索、加 工などに使用する)   /正規表現/ 両側をスラッシュで囲む

コーパス検索:正規表現 リテラル エスケープ エスケープシーケンス \b 選択 (|) 文字クラス [ ] 反復 ?, +, *, { }

コーパス検索:正規表現 2重目的語と前置詞与格構文をとる動詞 award, cost, deny, give, grant, lend, offer, pay, promise, sell, send

コーパス検索:正規表現 give(活用形を含む)が使われている文を検索する には? award (活用形を含む)が使われている文を検索す るには?

テキスト処理 Kwicker で検索 (必要に応じて、sort – Left1 並べ換え) Ctrl-A 、Ctrl-C Microsoft Wordに貼り付け(Ctrl-V) Microsoft Excelに貼り付け(Ctrl-V)   (不要行を削除など)

テキスト処理 Microsoft Excelにて、 A列:用例 B列:ジャンル C列:動詞(原形) D列:Recipientの形(NP or PP) E列:Recipientの有生性(animate or inanimate) F列:Themeの有生性(animate or inanimate) G列:Themeの長さ(語数) H列:Passiveかどうか(Pのときだけ記入)