情報知能学 IV 情報知能学科 白井 英俊. 予定表 1.10 月 13 日:日本語処理の基礎 導入としての「情報検索」の紹介 課題:誰が理想の恋人か? 2.10 月 20 日:日本語処理の基礎:形態素解 析、文法用語、構文解析、プログラム作 成 3.10 月 27 日:正規表現の基礎 4.11 月.

Slides:



Advertisements
Similar presentations
適切な語を用いる. 元の文章 メールは文書が全てなので御座いまして、 メイルで何かを依頼する場合には、其れ の内容を文で明晰に書く事が貴重なので 有るから「其れ以上詳細に記帳せずとも、 受信者は必ずや内容を考察してくれるに 違いない」と判断して居ると予定外の娯 解を産む事が有るから注意する事が必修。
Advertisements

電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
0章 数学基礎.
東京工科大学 コンピュータサイエンス学部 亀田弘之
情報・知能工学系 山本一公 プログラミング演習Ⅱ 第3回 配列(1) 情報・知能工学系 山本一公
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
最大エントロピーモデルに基づく形態素解析と辞書による影響
ヘルスケア連動型 市販薬検索システム 研究者 : 加納 えり 指導教員 : 越田 高志.
知識情報演習Ⅲ(後半第5回) 辻 慶太
形態素周辺確率を用いた 分かち書きの一般化とその応用
Twitterの発言に基づくウェブページ推薦システム
情報処理の基礎 私たちとコンピュータの扱うデータの違い 明治学院大学 法学部消費情報環境法学科 鶴貝 達政
コーパス言語学実践 2006年度2学期 第10回.
プログラミング基礎I(再) 山元進.
プログラミング言語としてのR 情報知能学科 白井 英俊.
情報処理基礎 2006年 6月 1日.
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
1語から始まる英作文 baseball 1つの単語からいくつ文を作られるかな? ・I like baseball.
オンライン英単語・リスニング 学習ソフト 佐々木研究室 N02k1114 北隅 麻実.
情報とコンピュータ 静岡大学工学部 安藤和敏
テキストマイニング, データマイニングと 社会活動のトレース
The Beatles (1967): Strawberry Fields Forever
コーパス言語学実践 2006年度2学期 第5回.
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
部分形態素解析を用いた コーパスの品詞体系変換
プログラミング実習 1・2 クラス 第 1 週目 担当教員:  渡邊 直樹.
東京工科大学 コンピュータサイエンス学部 亀田弘之
形態素解析および係り受け解析・主語を判別
テキストの類似度計算
情報理工学部 情報知能学科 H 柏木 康志 2010年 2月 2日
情報処理概論Ⅰ 2007 第9回 2007/6/20 情報処理概論Ⅰ 第9回.
日本語解析済みコーパス管理ツール 「茶器」
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
配列(1) 第9回目 [6月15日、H.16(‘04)] 本日のメニュー 1)前回の課題について 2)前回の宿題について 3)配列 4)課題
Javaソフトウェア部品検索システムのための索引付け手法の提案と実装
平成22年6月15日 図書系職員のための アプリケーション開発講習会
検索エンジンを利用した Covert Channelの検出
データからいろんなことを学ぼう! このスライドでは、順に、こんなことを説明します。 「データ」って、どんなもの? 「データ」を集めてみよう
自然言語処理及び実習 第11回 形態素解析.
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
この項は 『日本語構造伝達文法(05版)』 の第30章,第31章の内容に基づいています。より詳しくはその章をお読みください。
単語登録(1) ◎MS-IMEの「単語登録」に、単語、語句、記号など自分がよく使うものを登録しておくと、便利である。
東京工科大学 コンピュータサイエンス学部 亀田弘之
知識情報演習Ⅲ(後半第3回) 辻 慶太
12. 意味・意図の解析 12.1 意味表現とは 12.2 規則による意味解析処理 12.3 統計的な意味解析処理 12.4 スマートフォンでの音声サービス ニューラルネットワークによる意味解析.
知識情報演習Ⅲ(後半第2回) 辻 慶太
一人暮らしの男性のための料理検索システムの設計
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
形態素解析ドライバモデルの実装と コーパスの品詞体系変換への応用
レビューとは (プロジェクト管理の観点から)
テキストマイニング, データマイニングと 社会活動のトレース
様々な情報源(4章).
知識情報演習Ⅲ(後半第3回) 辻 慶太
文書分類モデルの統計的性質に関する一考察
東京工科大学 コンピュータサイエンス学部 亀田弘之
第1章 いよいよプログラミング!! ~文章の表示 printf~
東京工科大学 コンピュータサイエンス学部 亀田弘之
The difference between adjectives and adverbs
情報基礎Ⅱ (第1回) 月曜4限 担当:北川 晃.
データ工学特論 第六回 木村昌臣.
コーパス コーパス(Corpus)はコンピュータの発達とともに、計算機可読なデータを容易に作成・収集することができるようになったことがその背景にある。現在ではコーパス言語学などの学問もある。
自然言語処理2015 Natural Language Processing 2015
プログラミング基礎a 第3回 C言語によるプログラミング入門 データ入力
形態素解析と構文解析 金子邦彦.
自然言語処理2016 Natural Language Processing 2016
単語登録(1) ◎MS-IMEの「単語登録」に、単語、語句、記号など自分がよく使うものを登録しておくと、便利である。
mi-8. 自然言語処理 人工知能を演習で学ぶシリーズ(8)
識別子の読解を目的とした名詞辞書の作成方法の一試案
プログラミング基礎a 第3回 C言語によるプログラミング入門 データ入力
Elements of Style 第3回 2019年6月11日(火).
Presentation transcript:

情報知能学 IV 情報知能学科 白井 英俊

予定表 1.10 月 13 日:日本語処理の基礎 導入としての「情報検索」の紹介 課題:誰が理想の恋人か? 2.10 月 20 日:日本語処理の基礎:形態素解 析、文法用語、構文解析、プログラム作 成 3.10 月 27 日:正規表現の基礎 4.11 月 10 日:正規表現の応用 課題の解決

課題:誰が理想の相手か? 出典:豊田秀樹.(2008). 『データマイニング入門ー R で学ぶ最新データ解析』. 東京図 書. Q 君には 33 人の友達がいる。それぞれの性格を表した ファイルが z フォルダーにある。 data01. ときどき素直になる。少し離れた距離で見 守ってくれる。周りを良く観察している。 data02. 負けず嫌いだし勝気。嫉妬深い感じだし、独 占欲も強そう。 data03. 性格は優しい。人の気持を優先的に考えてく れる。いつも誰かのためを思って一生懸命に行動し てくれる。普段はとても明るい人。落ち着きが無い こともある。...

Q 君の理想の相手 Q 君が理想とするのは 「社交的で優しいし、俺のことを優先し てくれるけど、意外とクールな面もある 人」 さて、どのようにして、 33 人から理想の相 手を見つけるか?

情報検索 コンピュータを利用して、「必要な情報 を見つける」こと とくに、 「ユーザー(人間)の検索質問 (query )に 適合する文書 (document) を文書の集まり (document collection) の中から見つけ出すこ と」

情報検索 コンピュータを利用して、「必要な情報 を見つける」こと とくに、 「ユーザー(人間)の検索質問 (query )に 適合する文書 (document) を文書の集まり (document collection) の中から見つけ出すこ と」 Q君Q君 Q 君の友達 Q 君の友達たち 理想の 相手

情報検索処理の流れ 1. 検索に備えて文書 (document) を「表現」す る --- 索引付け (indexing) 2. 検索質問 (query) を「表 現」 --- 典型的には:索引 語の集まりとして表す 3. 文書と検索質問とを比 較して、適合するもの を返す

情報検索処理の流れ 1. 検索に備えて文書 (document) を「表現」す る --- 索引付け (indexing) 2. 検索質問 (query) を「表 現」 --- 典型的には:索引 語の集まりとして表す 3. 文書と検索質問とを比 較して、適合するもの を返す 友達の性格記述から 用語を抽出し、「語句の 集まり」として友達を 『表現』する ここでは「ベクトル空間」 モデルを用いて適合度 を計算しよう 上と同様に、『理想とする 相手の記述」から語句を 抽出し、「語句の集まり」 として『表現』する

索引付け (indexing) 文書から索引語を抽出する それぞれの文書を特徴づける索引語を漏 れなく抽出することが大事 Q 君の友達の性格記述から語句を抜き出す

索引付け (indexing) 文書から索引語を抽出する それぞれの文書を特徴づける索引語を漏 れなく抽出することが大事 それにはどのようにすればよいのだろう か? Q 君の友達の性格記述から語句を抜き出す

文書から『単語』を切り出す 英語の場合は、比較的簡単 例: THE BLACK CAT (Edgar Alan Poe) から FOR the most wild, yet most homely narrative which I am about to pen, I neither expect nor solicit belief. Mad indeed would I be to expect it, in a case where my very senses reject their own evidence. Yet, mad am I not--and very surely do I not dream. But tomorrow I die, and to-day I would unburthen my soul. My immediate purpose is to place before the world, plainly, succinctly, and without comment, a series of mere household events. In their consequences, these events have terrified--have tortured--have destroyed me.

英語の場合... 分かち書きされている 単語と単語の間は、スペースやコンマ、 引用符、ダッシュなどで区切られている UNIX のコマンド: cat ファイル | tr –sc ‘A-Za-z’ ‘\012’ | sort | uniq –c | sort -nr

日本語の場合... 分かち書きされていない 文字の種類(平仮名、カタカナ、漢字、 アルファベット、数字、句読点、記号な ど)の境目が単語の切れ目を『示唆』 しかし、たとえば「障がい者施設」は、 これで一つの単語 コンピュータで何とかやる方法はないもの か?

形態素解析器 日本語の文(や文章)を、形態素(単語より もやや細かな単位)に分け、その文法情報な どを出力するツールがある 有名なのは Juman( 京都大学で開発されたもの) ChaSen( 茶筌、奈良先端大学院大学で開発 ) MeCab( 和布蕪、京大と NTT の共同開発) このうち、 ChaSen と MeCab は理系ネットワークの コンピュータにインストールされている

ChaSen の実践 WinCha という ChaSen の GUI (グラフィカ ル・ユーザー・インタフェース)を用い る 次の文を形態素解析する: 社交的で優しいし、俺のことを優先して くれるけど、意外とクールな面もある人

WinCha の起動画面

解析結果の例

課題 ChaSen のマニュアルを参考として (1) 「表層語、基本形、読み、発音」とは、そ れぞれどのようなものか、説明せよ。 (2) 「品詞、活用」とは、それぞれどのような ものか、説明せよ。 (3) 文書を特徴づけるために用いるには、「表 層語、基本形、読み、発音、品詞、活用」のう ち、どれが適切だろうか? (4) 「オプション」の欄に表示される記号の意 味は?

単語から索引語へ 形態素解析器を用いて、日本語の文(や文 章)から、単語 ( 正確には形態素)が切り 出せることは分かった しかし、単語=索引語だろうか? つまり、切り出した単語をそのまま、『文 書』を特徴づける「索引語」として用いて も良いのか?

単語から索引語へ (2) 33 個の文に現れる単語のリスト 次回で紹介するプログラムを走らせると、 33 個の 文( Q 君の友達の性格記述)に現れた単語 ( 記号を 含む ) と出現頻度は、多いものから少ないもの順に、 以下: 93: 。 41: だ 35: に 34: の が 33: て 21: する...

単語から索引語へ(3) ストップワード (stop word) : 不要語 記号や、助詞、助動詞「だ」、ある種の 名詞(「こと、の」など)や、ある種の 動詞 ( 「ある」など)、ある種の形容詞 ( 「ない」など)は、どの文書でも出現頻 度が高い 言語学的な用語: 機能語 (function word) と 内容語 (content word) の違い ストップワード(不要語)は、文書を特徴 づけるのに役に立たない

索引付け (indexing) 検索に備えて文書 (document) を「表現」する --- 索引付け (indexing) それぞれの文書において、 どのような索引語が何回くらい出現してい るか を調べる  索引語の頻度が「文書を特徴づける」

検索質問 (query) の「表現」 検索質問 (query) を「表現」 --- 文書の『表現』と同様、どのような 索引語が何回くらい出現しているか、で 表現する

索引語ー文書行列 索引語ー文書行列:行は索引語、列は文書に 対応付けた行列 (matrix) 語句ー文書行列ともいう。どちらも、 term-document matrix の訳 例: d1 d2 d3 d4 d5 t t tn d2 における索引語 の出現頻度。 n次元「ベクトル」と みなせる t2のそれぞれの 文書での出現頻度 ここでは 5 次元 ベクトル

ベクトルの「類似性」 2 次元ベクトル a,b の類似性 ( どんな関係なら 「似ている」か ) を考えよう 確認:ベクトルは、向きと大きさをもつ ab (1) a b (2) a b (3) a b (4)

ベクトルの類似性は ベクトルの間の『角度』で決まる でも角度をどのように求めるか … 次回までに復習しておくこと (1) ベクトルの内積の計算方法 (2 次元ベクト ルだけではなく、多次元ベクトルでも計算で きること) (2) 二つのベクトルの間の『角度』の求め方 ヒント:角度の cosine の値でもよい

今日学んだこと 情報検索の基礎 文書から索引語を抽出する方法 索引語の抽出における「形態素解析」の 役割 ChaSen の使用方法 索引語 - 文書行列 索引語の類似性と文書の類似性の考え方

作業 今日学んだことを『文章』として、 あてに、題名「情報知能学4」として送る そのレポートには、学籍番号と氏名を 1 行目に 書く そのレポートに、 ChaSen の課題 ( スライド 18 枚 目)に対する自分の答えを書く できれば、ベクトルの内積、ベクトルの間の 角度の計算方法も調べて(思い出して)書く 締め切りは、 10 月 17 日(土)昼 12 時