情報理工学部 情報知能学科 H 柏木 康志 2010年 2月 2日

Slides:



Advertisements
Similar presentations
コーパス言語学実践 2006 年度 2 学期 第 2 回. 2 本日の内容 前半の作業について – 語彙調査の演習 – 用語の説明 語彙,単位語,延べ語,異なり語,見出し 語 作成作業 その1 – データ収集開始.
Advertisements

電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
白井ゼミ 豊田秀樹(2008)『データマイニング入門』 (東京図書)。4章
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
最大エントロピーモデルに基づく形態素解析と辞書による影響
「わかりやすいパターン認識」 第1章:パターン認識とは
④CiNii ⑤NDL-OPAC(雑誌記事) ⑥日経BP
コーパス言語学実践 2006年度2学期 第10回.
プログラミング言語としてのR 情報知能学科 白井 英俊.
国際政治経済特殊研究Ⅷ  飯野光浩 プレゼン 総括.
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
神戸大学大学院国際文化学研究科 外国語教育論講座外国語教育コンテンツ論コース 神戸 花子
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
卒業論文のタイトルをここに (発表時間は5分です。 PPTスライドは10枚程度にまとめる事)
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
テキストマイニング, データマイニングと 社会活動のトレース
●レポートを書くこと→主張の根拠を示して、他の人を説得するため ●最初から順に読んで分かるように書く ●
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
医中誌Web利用講習会 平成23年5月31日 丸善株式会社.
テキストの類似度計算
日本大学 文理学部 情報システム解析学科 谷研究室 益田真太郎
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
自動車レビューにおける検索と分析 H208032 松岡 智也 H208060 中西 潤 H208082 松井泰介.
I-Scoverチャレンジ2013 ~I-Scoverでできる こんなこと、あんなこと~ データ分析/可視化カテゴリ 論文キーワードの特徴分析 ~どんなキーワードを付けているのか~ GOMI Hiroshi.
医中誌Web利用講習会 平成23年5月31日 丸善株式会社.
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
平成22年6月15日 図書系職員のための アプリケーション開発講習会
プログラム実行履歴を用いたトランザクションファンクション抽出手法
練習問題アイテムバンクの開発研究 ~再生形式~
情報管理論 2018/11/9 情報分析の道具 2018/11/9 情報分析の道具 情報分析の道具.
Fuzzy c-Means法による クラスター分析に関する研究
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への 簡易ナビゲーションシステム-
環境リスクマネジメントに関する 検索システム
卒論の書き方: 参考文献について 2017年9月27日 小尻智子.
只見町 インターネット・エコミュージアムの「キーワード」検索の改善
情報検索(6) メディア検索の仕組み 教員 岩村 雅一
データ工学特論 第六回 木村昌臣.
多変量解析ゼミ 第10回 第12章クラスター分析 発表者 直江 宗紀.
オープンソース開発支援のための リビジョン情報と電子メールの検索システム
2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典.
知識情報演習Ⅲ(後半第2回) 辻 慶太
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
Data Clustering: A Review
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
テキストマイニング, データマイニングと 社会活動のトレース
Data Clustering: A Review
レクチャー (2) 図書と雑誌の違い と 書誌事項・参考文献リストの 見方と書き方
実空間における関連本アウェアネス 支援システム
文書分類モデルの統計的性質に関する一考察
コーディングパターンの あいまい検索の提案と実装
論文のタイトル 言語 単語数 音節数 日本語 英語 韓国語 インドネシア語
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
自己組織化マップ Self-Organizing Map SOM
構造的類似性を持つ半構造化文書における頻度分析
データ工学特論 第六回 木村昌臣.
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
A-17 検索履歴のプライバシーを秘匿した ユーザクラスタリング
自然言語処理2015 Natural Language Processing 2015
Webページタイプによるクラスタ リングを用いた検索支援システム
Data Clustering: A Review
自然言語処理2016 Natural Language Processing 2016
テクニカル・ライティング 第4回 ~文章の設計法「KJ法」について~.
mi-8. 自然言語処理 人工知能を演習で学ぶシリーズ(8)
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

情報理工学部 情報知能学科 H206018 柏木 康志 2010年 2月 2日 クラスター分析から探る論文間の繋がり 情報理工学部 情報知能学科 H206018 柏木 康志 2010年 2月 2日 ノイズが少ない 採点って誰が決めた 判定? 質問文 読め 芳しく良くなくて?

研究動機と目的 論文を調べるときにどの論文を読めば良いのかわからない 「この分野はこの論文を読むとわかる」という論文があれば、探す労力と時間の短縮になるのではないかと考えた。 私自身研究テーマを決めるとき、 では片っ端から読んでいけばよいというものではない 必ず似たような研究があるはずだ。似通った分野は固まるはずだ どんな研究があるのかわからない 一つ一つ論文を読んでたら時間がかかる。 こんな研究をしたいならこの論文を読むと良い

研究の概要 年代ごとの論文の特徴を調べる 年代から年代への特徴の移り代わりを関連付ける その中で沢山引用された論文が一番重要な論文ではないかと考えた どんな分野があるのかを知るために年代ごとの論文の特徴というのがわかればいいのではないか 年代毎にどのような論文があるのかをしるため、 以上のことがわかれば年毎にこんな分野があって、どのように発展したのかがわかる 動機との繋がり 最終的にどう繋がったかを結論付ける

手法 どんな分野の研究が行われているか。 年代の特徴的な研究や傾向を知るためにクラスター分析を行う

クラスター分析とは データの集まりをデータ間の類似度(あるいは非類似度)に従って、いくつかのグループに分けることをクラスタリングと言う(金,2009 ,p.34 ) クラスター分析とは大量にあるデータをクラスタリングすることである 本研究ではクラスタリングにより、 これにより、おおまかな特徴を調べられるのではないかと考えました。

クラスター分析までの流れ ① 論文データの収集 ② ターム(用語)・文章行列の作成 ③ クラスター分析     ①    論文データの収集     ② ターム(用語)・文章行列の作成     ③     クラスター分析 ここでクラスター分析を行うまでの過程を図に示します。 形態素解析で解析をして語毎の頻度表を作ります。 ターム・文章行列を行うのは論文と論文の類似度を測るため 頻度表を元にクラスター分析を行います。 ターム・文章行列をつくる理由

①データ NII論文情報ナビゲータCiNii(http://ci.nii.ac.jp/ )に載っている論文を対象 本文から特徴を調べようとすると膨大なデータ量と時間がかかるため、「タイトル」、「キーワード」、「アブストラクト(概要)」のみで特徴を抽出する CiNiiを対象とした理由 CiNiiを選んだのは、学協会誌約1000タイトル、約280万件の論文が掲載されている データ的には問題ないと考えた。 タイトルというのはその論文の特徴を凝縮されたデータであり キーワードはその論文の中で重要な言葉である。 アブストラクトは論文の概要である。いわばこの論文の内容である。

データの絞込み 検索するキーワードを「自然言語処理」にする 対象とする論文誌・学会誌・研究報告を 英語で書かれた論文は含めない 「情報処理」 「電子情報通信」 「人工知能」 「言語処理」                   の名が付くもの 英語で書かれた論文は含めない 同一著者タイトルの論文は一つにする タイトルだけしか情報がない論文は対象外 分野の理由 なぜキーワードを自然言語処理にしたのか? 自分が論文を検索するキーワードに「自然言語処理」で検索したから 理由 なぜこの論文誌・学会誌にしたのか? この四つが論文の信頼度的には高いと判断したから 同一著者タイトルを一つにしたのは、論文の特徴を抽出したいので 複数そんざいする同一著者の論文は一つとみなしても問題ないと思った。 逆にそれらの論文を認めてしまうと、その論文の特徴が強まってデータに影響が生じる。 タイトルだけしか情報がない論文は、情報が少なすぎて、それ故に重要度が高い論文だと認識されてしまう。

対象論文の期間 2002年、2005年、2008年の論文を対象とする 絞込み前 絞込み後 2002年 239件 161件        絞込み前      絞込み後  2002年 239件       161件  2005年 344件       214件  2008年 258件       141件 年代を空けることにより、 1999年からやらなかったのは 年数を空けることにより

使用ツール 本研究では形態素解析にMeCab(0.98 版 ),実行環境にR言語(2.10.0 版)を用いている MeCabで解析した結果をRで利用するためにRのパッケージであるRMeCab(0.86 版)を導入した

②ターム・文章行列の作成(1) 各年代ごとにターム・文章行列を作成する ターム・文章行列とは、文書に出現する語の頻度を表にしたものである 頻度表から論文間の類似度を計算する RMeCabではターム・文章行列を作成するdocMatrix関数が備わっている なぜ語句・文章行列を作るのかを説明 文書ベクトルとは、各タームの出現頻度を要素とするベクトル。 ターム・文章行列を作るのは、その論文のベクトルを表すため。 クラスター分析をするときに論文ごとの類似性を測るため docMatrix関数は抽出してくる品詞や、語の重みなど指定することが出来ます。 抽出する品詞が名詞のみなのは Tf-idfの説明とどのように重み付けを行っているかの説明。

ターム・文章行列の作成(2) 抽出してくる品詞は名詞のみを指定 重み付けにTF-IDFを用いる。TFは対数化索引語頻度、IDFは文書頻度の逆数 TF = log(Fij+1)  IDF =log N/ni  Fijは文書jでの索引語iの頻度。Nは文書の数、niはタームを含む文書の数。 これにより特定のテキストでしか現れない単語が重要視される (コサイン)正規化を行う 名詞だけでよいのか 名詞(固有名詞)が語の特徴を凝縮していると考えているから 対数化索引語頻度 出現頻度の高い索引語が極端に大きい重みを持たないようにするために対数を使う。 これにより特定のテキストでしか現れない単語が重要視される 正規化しないと特定の語だけが大きい数値となってしまう。 コサイン正規化を行うことにより、各ベクトルの長さが1になるように調整された。 各文書の列の数値を自乗して足せば、それぞれ1となる。

ターム・文章行列の例 論文のタイトル ターム 表は2002年のもの 列がターム G

③クラスター分析の適用 ターム・文章行列を使ってクラスター分析を行う 論文間の距離の計算方法としてユークリッド距離を用いた さらにクラスターの位置づけにウォード法を用い、各クラスターを位置づけた ウォード法は2つのクラスターを融合した際に、群内の分散と群間の分散の比を最大化する基準でクラスターを形成していく方法である(金,2005,p4) ユークリッド距離・・・ ウォード法を用いた理由は分類感度が高く最も明確なクラスターを作るため本研究に適していると思ったからである。

2002年 この図は2002年のもの 高さ=論文間の距離

クラスター分割 クラスターを高さ1.5のところで分割する 試行錯誤した結果高さ1.5のところがまとまりとしてはちょうど良い高さだと判断した 高い所で分割するとクラスターの特徴が見えにくくなる 逆に低すぎる所で分割するとクラスターとしてのまとまりがなくなり、特徴が見えなくなる。 試行錯誤した結果高さ1.5のところがまとまりとしてはちょうど良い高さだと判断した 高さについての説明 高さとは論文と論文との距離である。 高さが低く繋がっていればいるほど、論文同士の類似度が高いということになります。

日本語LFGパーザによる助詞・助動詞の無形表示の統語意味解析 語彙概念構造を利用した助詞「に」に関する複合名詞の分析 高さ 1.5 2002年 文章概念記憶ニューラルネットワーク 日本語LFGパーザによる助詞・助動詞の無形表示の統語意味解析 語彙概念構造を利用した助詞「に」に関する複合名詞の分析                                 など 色で囲む

分割クラスターの数 論文数が6件以上のクラスターをピックアップ 2002年 161件で8個 2005年 214件で12個   2002年  161件で8個   2005年  214件で12個   2008年  141件で8個 論文数が6件以上の理由 論文件数がある程度ないとクラスターにはならない。 5件ぐらいだとクラスターとしては小さい 同じ著者が書いた論文はクラスターとしては固まりやすい 6件ぐらいあれば違う著者も入っている可能性は高いと判断した。

結果 年代ごとの特徴 年代間の関係 根拠となる論文の提示 クラスターごとのターム・文章行列のタームの合計を求め 降順にソートした。 さらにアブストラクトを見てカテゴリを決定。

2002年の論文の特徴 クラスター① 44件 カテゴリー:意味、言語、概念、語彙 クラスター② 12件 カテゴリー:検索、入力、文書 クラスター① 44件 カテゴリー:意味、言語、概念、語彙      言語の概念的な意味 クラスター② 12件 カテゴリー:検索、入力、文書          入力の仕方や検索の仕方 クラスター③ 12件 カテゴリー:用語、関係、自動、獲得      用語の関係付けとその自動獲得 クラスター④ 12件 カテゴリー:対話、発話、音声、理解      発話や対話の理解 各年の一番論文数が多かったクラスターから表示 クラスター番号についての説明

2005年の論文の特徴 クラスター① 29件 カテゴリー:表現、意味、概念、構造、抽出 クラスター② 25件 クラスター① 29件 カテゴリー:表現、意味、概念、構造、抽出    意味表現や概念、言語構造など クラスター② 25件 カテゴリー:要約、対話、システム、コーパス   記事などの要約、対話認識システム クラスター③ 19件 カテゴリー:画像、空間、識別、尺度、特徴 画像から特徴を認識 クラスター④ 16件 カテゴリー:換言、獲得、対訳、言語        言葉の言い換えや訳

2008年の論文の特徴 クラスター① 35件 カテゴリー:検索、概念、トピック、コーパス、ブログ クラスター② 26件 クラスター① 35件 カテゴリー:検索、概念、トピック、コーパス、ブログ    ブログなどから話題の抽出 クラスター② 26件 カテゴリー:解析、特徴、学習、ブログ、意味、関係   意味関係や特徴の解析 クラスター③ 18件 カテゴリー:翻訳、機械、対訳、構造、解析         機械翻訳、対訳、構造など クラスター④ 13件 カテゴリー:類似、文書、クラスタリング         文書からの類似の解析

比較のグラフ 分類 翻訳 音声 類似 関係 要約 棒グラフで年代間の関係を示す 検索 意味

2002年の考察 意味や言語の概念などの研究は2005年、2008年から見ても比較的多いことがわかった。 言語の概念を研究したいのであれば2002年の論文を参考にしてみたら良い。 「連想システムのための概念ベース構成法 : 属性信頼度の考え方に基づく属性重みの決定」(小島 一秀 他) 自然言語処理9(5) pp.93-110(20021010) 被引用論文数 14件 どんなことが分かった どんなことが得られたか どんな論文を勧めるか どんなところで苦労したか、工夫したところ PDF無し ログを取らなかったことにより、特定の語が大きくなりすぎて データに影響を与えた。 この論文を引用した数

2005年の考察 機械翻訳に関する研究が2005年で見られ、2008年ではその研究が増えてきている。 機械翻訳について研究したいのであれば、2005年の論文を調べると良い。 「機械翻訳を介したコミュニケーションにおける利用者の機械翻訳システム適応の言語依存性」(小倉 健太郎) 自然言語処理12(3) pp.183-201(20050710) 被引用論文数 6件 PDF有り 2005年はあまり円グラフを見るに研究のカテゴリーとしてはあまりない。 ロボットなどの研究が多い。それは2008年も同じ 画像認識だとまずい

2008年の考察 2008年はblogなどから人の評判や話題などを分析する研究が多く行われた年だった。 話題の研究を始めたい人は2008年の論文を調べると良い。 被引用論文数が無い 「トピック関連語の推定と文書ランキングへの適用」(石川 浩一郎 他) 情報処理学会研究報告. 自然言語処理研究会報告2008(90) pp.77-81(20080917)

今後の課題 クラスター分析以外の分析(例:潜在意味解析など)で調べる。 同じ意味の語をまとめる(例:サポートベクトルマシンとサポートベクターマシーンなど) 2002年の論文から2005年や2008年の論文にどれだけ影響を与えたか または論文の流れなど 訂正の必要あり 実際にそれらの論文を誰かに紹介して、評価を聞く

参考文献 CiNii http://ci.nii.ac.jp/ 2009年9月に参照 石田基広. (2008). 『Rによるテキストマイニング入門』. 森北出版 金明哲 (2005).『フリーソフトによるデータ解析・マイニング第28 回Rとクラスター分析(1) 』 :http://www1.doshisha.ac.jp/~mjin/R/28.pdf 2009/12/14アクセス 金明哲. (2009).『テキストデータの統計科学入門』.東京:岩波書店 新納浩幸. (2007).『Rで学ぶクラスタ解析』.東京:オーム社