コーパス言語学実践 2006年度2学期 第10回.

Slides:



Advertisements
Similar presentations
1 変量データの記述 (度数分布表とヒストグラム) 経済データ解析 2009 年度後 期. あるクラスのテストの点数が次のように なっていたとする。 このように出席番号と点数が並んでいるものだけでは、 このクラスの特徴がわかりづらい。 → このクラスの特徴がわかるような工夫が必要 → このクラスの特徴がわかるような工夫が必要.
Advertisements

生物統計学・第 4 回 比べる準備をする 平均、分散、標準偏差、標準誤差、標準 化 2015 年 10 月 20 日 生命環境科学域 応用生命科学類 尾形 善之.
人間とコンピュータ インターネット検索 11 月 10 日, 11 月 17 日, 11 月 24 日.
データベース. レシートを見てみよう コンビニやスーパーで買物をするときの レシートを見てみよう – 何がかいてあるだろうか? – レジで全部打ち込んでいる? – なぜ、打ち込まないのにレシートには商品名 や価格が出てくるの?
第 23 課 花見の 人々は 楽しそうです 二 回 目. 1.助動詞そうだ:様態を表す 接続: § 形容詞語幹+そうだ ☆ない → なさそうだ ☆よい → よさそうだ § 形容動詞語幹+そうだ § 動詞Ⅰ連用形+そうだ.
名前:りくよう 番号 : 学習目標 現在日本の子供たちの考える力と学習意欲の状況 学力調査 を分析する その結果と原因を分析する 文法を活用.
A Simple Constant Time Enumeration Algorithm for Free Trees 中野 眞一 宇野 毅明 群馬大学 情報学研究所 2003 年 9 月 19 日 アルゴリズム研究会.
コーパス言語学実践 2006 年度 2 学期 第 2 回. 2 本日の内容 前半の作業について – 語彙調査の演習 – 用語の説明 語彙,単位語,延べ語,異なり語,見出し 語 作成作業 その1 – データ収集開始.
コーパス言語学実践 2006 年度 2 学期 第 7 回. 2 本日の内容 前回までのまとめ – ファイルの確認 – ファイルの分割 – エクセルでの作業(品詞構成比率 延べ語 数) 品詞構成比率(異なり語数) データ収集(占いのことば)
電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
ヘルスケア連動型 市販薬検索システム 研究者 : 加納 えり 指導教員 : 越田 高志.
001.「~っす」は敬語か? 2007年度国語学概説Ⅰ研究発表 野浪正隆.
言語体系とコンピュータ 第5回.
情報処理基礎 2006年 6月 1日.
認知科学ワークショップ 第2回 記憶(1).
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
実証分析の手順 経済データ解析 2011年度.
ゲーム理論・ゲーム理論Ⅰ (第6回) 第4章 戦略形ゲームの応用
JavaによるCAI学習ソフトウェアの開発
相互評価システムの開発と大学情報科目における利用 柴田好章(名古屋大学大学院) 小川亮(富山大学教育学部)
テキストマイニング, データマイニングと 社会活動のトレース
コーパス言語学実践 2006年度2学期 第1回.
コーパス言語学実践 2006年度2学期 第5回.
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
C言語講座 第4回 ポインタ.
相関と回帰:相関分析 2つの変量それぞれが正規分布にしたがってばらつく量であるとき,両変数の直線的な関係を相関分析する. 例:兄弟の身長
新聞の中で「優遇」「委託」「しかし」「問題」のうち頻度が一番高いものはどれか。
形態素解析および係り受け解析・主語を判別
テキストの類似度計算
ゴールドバッハ予想と その類似について 5509046 嶋田 翔太 白柳研究室.
メディア計算機工学特論 2003 年度 Webにおける情報・知識の探索と検索の事例を とおして、現代的知識ベースとその利用法を理解する。
自動車レビューにおける検索と分析 H208032 松岡 智也 H208060 中西 潤 H208082 松井泰介.
ターム分布の確率モデル Zipfの法則:使用頻度の大きな語は語彙数が少なく,使用頻度の小さな語は語彙数が多い
個体記述型・事態記述型・理由供給型の違いについて
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
Javaソフトウェア部品検索システムのための索引付け手法の提案と実装
スライド資料 C4 ICT機器を活用した授業づくり ④特別支援学校における ICT活用 兵庫教育大学の小川です。一応作者です。
2004年度 サマースクール in 稚内 JavaによるWebアプリケーション入門
言語学 語のかたち① pp
データからいろんなことを学ぼう! このスライドでは、順に、こんなことを説明します。 「データ」って、どんなもの? 「データ」を集めてみよう
自然言語処理及び実習 第11回 形態素解析.
IIR輪講復習 #1 Boolean retrieval
この項は 『日本語構造伝達文法(05版)』 の第30章,第31章の内容に基づいています。より詳しくはその章をお読みください。
東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への 簡易ナビゲーションシステム-
知識情報演習Ⅲ(後半第3回) 辻 慶太
知識情報演習Ⅲ(後半第2回) 辻 慶太
石崎研究室、南口研究室学生のための 文献検索および入手の上級講習
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
2003年度 図書館活用論 Ⅰ 第9講 検索エンジンの仕組みと活用 (明治大学図書館庶務課システム担当 中林)
テキストマイニング, データマイニングと 社会活動のトレース
音声分析 フーリエ解析の定性的理解のために.
情報処理Ⅱ 第2回:2003年10月14日(火).
知識情報演習Ⅲ(後半第3回) 辻 慶太
レクチャー (2) 図書と雑誌の違い と 書誌事項・参考文献リストの 見方と書き方
文書分類モデルの統計的性質に関する一考察
コードクローンの理解支援を目的としたコードクローン周辺コードの解析
確率と統計2009 第12日目(A).
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
構造的類似性を持つ半構造化文書における頻度分析
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
独習XML ~第1章 XMLの基礎~ 1.1 XML文書の基礎 1.2 XMLとHTML
A-17 検索履歴のプライバシーを秘匿した ユーザクラスタリング
英文法活用アクティビティ 英文法のポイントを理解させた後に、それを使った文例を暗唱し、実際に使ってみることで、そのルールを定着させ、スピーキングやライティングでも使えるようにする。 CAN-DO: 不定詞の副詞的用法を「〜するために」という意味で使い言いたいことを伝えることができる。
第10回 質問(3) メール講座 Next Stage:翻訳力アップ自己トレ(1)
第7回 Q&A メール講座 Next Stage:翻訳力アップ自己トレ(1)
テキストデータベース.
話し言葉における「け(れ)ど(も)」の使用 ―「が」との比較を通じて― 1.研究目的及び研究方法 ◆研究目的
Presentation transcript:

コーパス言語学実践 2006年度2学期 第10回

本日の内容 品詞構成比率について 語彙の計量的な分析 高頻度語と低頻度語 広範囲語 特徴語,無特徴語 語の出現の性質の応用 基本的な情報検索

品詞構成比率について これまで計算してきた品詞構成比率 述べ語数での比率を見ると 名詞>動詞>副詞>形容詞>その他 4テキストとも同じ傾向  4テキストとも同じ傾向  比率(名50,動30,副5-10,形3-8)も似ている 異なり語数での比率を見ると  品詞順は同じ.  だが4テキストで傾向は異なる

品詞構成比率について(2) 異なりで見ると(つづき) 我輩,銀鉄は名詞比率が上がる(我輩が高い) 蜘蛛の糸,最後の一句は名詞比率が下がる など.述べ語数とはまた違う傾向がある 作家によって語彙が異なる+使う語彙の偏りがあるのでは? と思えるデータ

品詞構成比率について(3) 述べ語数で見ると(つづき) 今回の4テキストは差があまりない どれも小説というジャンルである もし異なるジャンルのテキストだったら,品詞構成比率はどう出るだろうか? 例えば,若者のブログ系文章だったらどうか? 「ヤバ」「すご」「はや」「マジ」...名詞か形容詞↑ 文章中の異なり語数の割合は↓かも.

品詞構成比率について(4) 残念ながら... 品詞構成比率をジャンル別や同一ジャンルなどで,確かな傾向としてみていくにはデータ不足 今回のデータだけでは足りないのではっきりとはいえない(少数による偏りがあるかもしれない) ただし,ありそうな傾向はいくつか見られた 予想はつけられそう→量を増やして検証という流れができる

語彙の計量的な分析 わざわざ数をかぞえたのはなぜだったか? 語は全て均等に出てくるわけでない 出現に偏りがあるはず →高頻度語 とか 低頻度語という違いが見える 高頻度語はどんな特徴で,低頻度語にはどんな特徴,役割があるのか?

語彙の計量的な分析(2) 高頻度語 低頻度語 どっちが大事か? どっちが意味があるか? 1つのテキストに良く出てくる見出し語 1つのテキストにあまり出てこない見出し語 どっちが大事か? どっちが意味があるか?

語彙の計量的な分析(3) 高頻度語 低頻度語 どんな語があるのか 実際のデータを見てみることにする 議論しましょう 1つのテキストに良く出てくる見出し語 低頻度語 1つのテキストにあまり出てこない見出し語 どんな語があるのか 実際のデータを見てみることにする 議論しましょう

語彙の計量的な分析(4) 高頻度語は... 具体的にはどんな語か? 4つの作品を並べてみると何が特徴が出てこないか?

語彙の計量的な分析(5) 特徴語と無特徴語 特徴語: 無特徴語(無性格語): あるテキストにとっては重要. 他のテキストにとっては重要でない どのようなテキストでも良く使われている 特徴のない語

語彙の計量的な分析(6) 特徴語と無特徴語 あらためて,先ほどの語のリストを見るとどうか? 特徴語は? 無特徴語は? 特徴語: あるテキストにとっては重要. 他のテキストにとっては重要でない 無特徴語(無性格語): どのようなテキストでも良く使われている 特徴のない語 あらためて,先ほどの語のリストを見るとどうか? 特徴語は? 無特徴語は?

高頻度語の分析 高頻度語 テキスト(言葉)は語の組み合わせで何かを伝えるために使われる →語の使い方に重要な意味がある 特徴語 → そのテキストの内容や特徴を示す 文体論 無特徴語 →どのテキストでもよく利用される 基本語彙  テキスト(言葉)は語の組み合わせで何かを伝えるために使われる  →語の使い方に重要な意味がある

広範囲語は? 広範囲語とは何か? さまざまなテキストに広く出現する(利用される)語のことをいう 1つのテキスト中での出現頻度が高頻度か,低頻度かは別問題 多くのテキストで広く使われるという意味で, あまり特徴を持たないと考えられる 無特徴語でもある

語彙の計量的な分析(7) 頻度と範囲のマトリックス 高頻度語で低範囲語 高頻度語で広範囲語 低頻度語で低範囲語 低頻度語で広範囲語 それぞれどんな意味があるのだろうか?

語彙の計量的な分析(8) 頻度と範囲のマトリックス 高頻度語で低範囲語 高頻度語で広範囲語 特定のテキストにしか出てこない 1つのテキストにはたくさん出てくる →そのテキストの特徴をよく表した語である! 高頻度語で広範囲語 多くのテキストに広くでてくる 1つのテキストにもたくさん出てくる →そのテキストの特徴をほとんど表さない語である!

語彙の計量的な分析(9) 頻度と範囲のマトリックス 低頻度語で低範囲語 低頻度語で広範囲語 特定のテキストにしか出てこない 1つのテキストに少ししか出てこない →かなり特殊な語かもしれない.意味があるかは不明. 低頻度語で広範囲語 多くのテキストに広く出てくる →量は少ないが広く出てくるので,何かの役割がある?

語の出現の性質の応用 基本的な情報検索 情報検索って何? 考え方の基本に語の出現の性質がある keywordを入力→関連のあるテキストを検索 (本当は)検索者の検索要求(query)をシステムに伝える(=これがkeywordのことが多い) システムが要求にあうテキストを探そうとがんばる (=キーワードに合致するテキスト探す)

基本的な情報検索 検索意図 検索質問 query 検索要求 文書群 (database) 照合 該当文書

基本的な情報検索(2) 文書群 キーワードの場合が多い 検索意図 検索質問 query 検索要求 照合 (database) キーワードの内容に良く合うものを探す 該当文書 キーワードの内容に良く合う内容を持った文書群

基本的な情報検索(3) テキストのこと(内容)をよく表すものって何? 高頻度ならいいのか? →「キーワードの内容に良く合うもの」って何? 語の出現の傾向という観点で考えてみると テキストのこと(内容)をよく表すものって何? 語のはず.しかも,テキスト内で高頻度の語 高頻度ならいいのか? 広範囲語は,あまり強くそのテキストの特徴になっていない

基本的な情報検索(4) 1つのテキストの特徴をよく表す語は テキスト内の各語について 高頻度語であり,広範囲語でない語と考えられる それぞれの語がどのくらいよく特徴を示すかをその語の出現の仕方を手がかりに点数付け term frequency (TF) そのテキストでの頻度 document frequency (DF) 出現範囲の広さ という2つの計量的な値を語の点数付けに利用

基本的な情報検索(5) テキストを収集 テキストを形態素解析(単語を認定) 不要語(無特徴語)を除去 残った語を索引語とする stopword (the,a,is,of,...) 助詞,助動詞などの機能語 残った語を索引語とする

基本的な情報検索(6) 索引語 つづき 最も単純な場合 文書1 文書2 文書3 文書4 文書5 索引語A ○ × 索引語B 索引語C 索引語 つづき 最も単純な場合 文書1 文書2 文書3 文書4 文書5 索引語A ○ × 索引語B 索引語C 索引語D

基本的な情報検索(7) tf 索引語 つづき 出現数(tf) 文書1 文書2 文書3 文書4 文書5 索引語1 1 5 2 3 索引語2 索引語 つづき 出現数(tf) tf 文書1 文書2 文書3 文書4 文書5 索引語1 1 5 2 3 索引語2 索引語3 4 索引語4 6 8 7 索引語5 索引語6 索引語7

基本的な情報検索(8) tf 索引語 つづき 出現文書数(df) df 索引語1 1 5 2 3 4 索引語2 索引語3 索引語4 6 8 文書1 文書2 文書3 文書4 文書5 df 索引語1 1 5 2 3 4 索引語2 索引語3 索引語4 6 8 7 索引語5 索引語6 索引語7

基本的な情報検索(9) tf (log N/df) +1 索引語 つづき df 索引語1 1 5 2 3 4 1.22 索引語2 1.51 索引語 つづき  tf 文書1 文書2 文書3 文書4 文書5 df 索引語1 1 5 2 3 4 1.22 索引語2 1.51 索引語3 索引語4 6 8 7 1.00 索引語5 索引語6 索引語7 1.92

基本的な情報検索(10) tf.idf tf ×(log N/df) +1 索引語 つづき 索引語1 1.22 6.10 2.44 3.66 索引語 つづき  tf.idf 文書1 文書2 文書3 文書4 文書5 索引語1 1.22 6.10 2.44 3.66 索引語2 4.53 3.02 索引語3 6.04 索引語4 6.00 8.00 7.00 5.00 索引語5 1.51 索引語6 7.55 索引語7 5.76 3.84

基本的な情報検索(11) tf.idf tf ×(log N/df) +1 索引語 つづき  tf.idf 文書1 文書2 文書3 文書4 文書5 索引語1 1.22 6.10 2.44 3.66 索引語2 4.53 3.02 索引語3 6.04 索引語4 6.00 8.00 7.00 5.00 索引語5 1.51 索引語6 7.55 索引語7 5.76 3.84 あるテキストで                ある索引語(単語)が たくさん出現し, しかも,その索引語は            あまり多くのテキストに出現しない    のなら,その索引語は           そのテキストを良く特徴付けている語  であると考える

基本的な情報検索(12) 5.入力 keywordを 使って, 索引語と 照合する 6. 各文書の一致度を値から計算して,大きい順に提示 文書1 文書2 文書3 文書4 文書5 索引語1 1.22 6.10 2.44 3.66 索引語2 4.53 3.02 索引語3 6.04 索引語4 6.00 8.00 7.00 5.00 索引語5 1.51 索引語6 7.55 索引語7 5.76 3.84 5.入力 keywordを 使って, 索引語と 照合する 6. 各文書の一致度を値から計算して,大きい順に提示 例:keywordが索引語1なら 文書3,5,4,1の順

基本的な情報検索(13) 上手な検索の仕方 こういう方法が成り立つ根拠は,語の偏りがテキストの特徴,情報の特徴を表すから 自分が欲しい情報を表す特別な語を考える 1語では苦しいので複数の語で表す (and検索,絞込み) 検索結果が少なかったら,表現を変えてみる  (or検索,拡張)  こういう方法が成り立つ根拠は,語の偏りがテキストの特徴,情報の特徴を表すから  複数の語が同時に出てくる割合は単数よりかなり減るから.  同じ内容でもいろいろな言葉で表せるから.