Presentation is loading. Please wait.

Presentation is loading. Please wait.

情報理工学部 情報知能学科 H 柏木 康志 2010年 2月 2日

Similar presentations


Presentation on theme: "情報理工学部 情報知能学科 H 柏木 康志 2010年 2月 2日"— Presentation transcript:

1 情報理工学部 情報知能学科 H206018 柏木 康志 2010年 2月 2日
クラスター分析から探る論文間の繋がり 情報理工学部 情報知能学科 H206018 柏木 康志 2010年 2月 2日 ノイズが少ない 採点って誰が決めた 判定? 質問文 読め 芳しく良くなくて?

2 研究動機と目的 論文を調べるときにどの論文を読めば良いのかわからない
「この分野はこの論文を読むとわかる」という論文があれば、探す労力と時間の短縮になるのではないかと考えた。 私自身研究テーマを決めるとき、 では片っ端から読んでいけばよいというものではない 必ず似たような研究があるはずだ。似通った分野は固まるはずだ どんな研究があるのかわからない 一つ一つ論文を読んでたら時間がかかる。 こんな研究をしたいならこの論文を読むと良い

3 研究の概要 年代ごとの論文の特徴を調べる 年代から年代への特徴の移り代わりを関連付ける
その中で沢山引用された論文が一番重要な論文ではないかと考えた どんな分野があるのかを知るために年代ごとの論文の特徴というのがわかればいいのではないか 年代毎にどのような論文があるのかをしるため、 以上のことがわかれば年毎にこんな分野があって、どのように発展したのかがわかる 動機との繋がり 最終的にどう繋がったかを結論付ける

4 手法 どんな分野の研究が行われているか。 年代の特徴的な研究や傾向を知るためにクラスター分析を行う

5 クラスター分析とは データの集まりをデータ間の類似度(あるいは非類似度)に従って、いくつかのグループに分けることをクラスタリングと言う(金,2009 ,p.34 ) クラスター分析とは大量にあるデータをクラスタリングすることである 本研究ではクラスタリングにより、 これにより、おおまかな特徴を調べられるのではないかと考えました。

6 クラスター分析までの流れ ① 論文データの収集 ② ターム(用語)・文章行列の作成 ③ クラスター分析
    ①    論文データの収集     ② ターム(用語)・文章行列の作成     ③     クラスター分析 ここでクラスター分析を行うまでの過程を図に示します。 形態素解析で解析をして語毎の頻度表を作ります。 ターム・文章行列を行うのは論文と論文の類似度を測るため 頻度表を元にクラスター分析を行います。 ターム・文章行列をつくる理由

7 ①データ NII論文情報ナビゲータCiNii(http://ci.nii.ac.jp/ )に載っている論文を対象
本文から特徴を調べようとすると膨大なデータ量と時間がかかるため、「タイトル」、「キーワード」、「アブストラクト(概要)」のみで特徴を抽出する CiNiiを対象とした理由 CiNiiを選んだのは、学協会誌約1000タイトル、約280万件の論文が掲載されている データ的には問題ないと考えた。 タイトルというのはその論文の特徴を凝縮されたデータであり キーワードはその論文の中で重要な言葉である。 アブストラクトは論文の概要である。いわばこの論文の内容である。

8 データの絞込み 検索するキーワードを「自然言語処理」にする 対象とする論文誌・学会誌・研究報告を 英語で書かれた論文は含めない
「情報処理」 「電子情報通信」 「人工知能」 「言語処理」                   の名が付くもの 英語で書かれた論文は含めない 同一著者タイトルの論文は一つにする タイトルだけしか情報がない論文は対象外 分野の理由 なぜキーワードを自然言語処理にしたのか? 自分が論文を検索するキーワードに「自然言語処理」で検索したから 理由 なぜこの論文誌・学会誌にしたのか? この四つが論文の信頼度的には高いと判断したから 同一著者タイトルを一つにしたのは、論文の特徴を抽出したいので 複数そんざいする同一著者の論文は一つとみなしても問題ないと思った。 逆にそれらの論文を認めてしまうと、その論文の特徴が強まってデータに影響が生じる。 タイトルだけしか情報がない論文は、情報が少なすぎて、それ故に重要度が高い論文だと認識されてしまう。

9 対象論文の期間 2002年、2005年、2008年の論文を対象とする 絞込み前 絞込み後 2002年 239件 161件
       絞込み前      絞込み後  2002年 239件       161件  2005年 344件       214件  2008年 258件       141件 年代を空けることにより、 1999年からやらなかったのは 年数を空けることにより

10 使用ツール 本研究では形態素解析にMeCab(0.98 版 ),実行環境にR言語(2.10.0 版)を用いている
MeCabで解析した結果をRで利用するためにRのパッケージであるRMeCab(0.86 版)を導入した

11 ②ターム・文章行列の作成(1) 各年代ごとにターム・文章行列を作成する ターム・文章行列とは、文書に出現する語の頻度を表にしたものである
頻度表から論文間の類似度を計算する RMeCabではターム・文章行列を作成するdocMatrix関数が備わっている なぜ語句・文章行列を作るのかを説明 文書ベクトルとは、各タームの出現頻度を要素とするベクトル。 ターム・文章行列を作るのは、その論文のベクトルを表すため。 クラスター分析をするときに論文ごとの類似性を測るため docMatrix関数は抽出してくる品詞や、語の重みなど指定することが出来ます。 抽出する品詞が名詞のみなのは Tf-idfの説明とどのように重み付けを行っているかの説明。

12 ターム・文章行列の作成(2) 抽出してくる品詞は名詞のみを指定
重み付けにTF-IDFを用いる。TFは対数化索引語頻度、IDFは文書頻度の逆数 TF = log(Fij+1)  IDF =log N/ni  Fijは文書jでの索引語iの頻度。Nは文書の数、niはタームを含む文書の数。 これにより特定のテキストでしか現れない単語が重要視される (コサイン)正規化を行う 名詞だけでよいのか 名詞(固有名詞)が語の特徴を凝縮していると考えているから 対数化索引語頻度 出現頻度の高い索引語が極端に大きい重みを持たないようにするために対数を使う。 これにより特定のテキストでしか現れない単語が重要視される 正規化しないと特定の語だけが大きい数値となってしまう。 コサイン正規化を行うことにより、各ベクトルの長さが1になるように調整された。 各文書の列の数値を自乗して足せば、それぞれ1となる。

13 ターム・文章行列の例 論文のタイトル ターム 表は2002年のもの 列がターム

14 ③クラスター分析の適用 ターム・文章行列を使ってクラスター分析を行う 論文間の距離の計算方法としてユークリッド距離を用いた
さらにクラスターの位置づけにウォード法を用い、各クラスターを位置づけた ウォード法は2つのクラスターを融合した際に、群内の分散と群間の分散の比を最大化する基準でクラスターを形成していく方法である(金,2005,p4) ユークリッド距離・・・ ウォード法を用いた理由は分類感度が高く最も明確なクラスターを作るため本研究に適していると思ったからである。

15 2002年 この図は2002年のもの 高さ=論文間の距離

16 クラスター分割 クラスターを高さ1.5のところで分割する 試行錯誤した結果高さ1.5のところがまとまりとしてはちょうど良い高さだと判断した
高い所で分割するとクラスターの特徴が見えにくくなる 逆に低すぎる所で分割するとクラスターとしてのまとまりがなくなり、特徴が見えなくなる。 試行錯誤した結果高さ1.5のところがまとまりとしてはちょうど良い高さだと判断した 高さについての説明 高さとは論文と論文との距離である。 高さが低く繋がっていればいるほど、論文同士の類似度が高いということになります。

17 日本語LFGパーザによる助詞・助動詞の無形表示の統語意味解析 語彙概念構造を利用した助詞「に」に関する複合名詞の分析
高さ 1.5 2002年 文章概念記憶ニューラルネットワーク 日本語LFGパーザによる助詞・助動詞の無形表示の統語意味解析 語彙概念構造を利用した助詞「に」に関する複合名詞の分析                                 など 色で囲む

18 分割クラスターの数 論文数が6件以上のクラスターをピックアップ 2002年 161件で8個 2005年 214件で12個
  2002年  161件で8個   2005年  214件で12個   2008年  141件で8個 論文数が6件以上の理由 論文件数がある程度ないとクラスターにはならない。 5件ぐらいだとクラスターとしては小さい 同じ著者が書いた論文はクラスターとしては固まりやすい 6件ぐらいあれば違う著者も入っている可能性は高いと判断した。

19 結果 年代ごとの特徴 年代間の関係 根拠となる論文の提示 クラスターごとのターム・文章行列のタームの合計を求め 降順にソートした。
さらにアブストラクトを見てカテゴリを決定。

20 2002年の論文の特徴 クラスター① 44件 カテゴリー:意味、言語、概念、語彙 クラスター② 12件 カテゴリー:検索、入力、文書
クラスター① 44件 カテゴリー:意味、言語、概念、語彙      言語の概念的な意味 クラスター② 12件 カテゴリー:検索、入力、文書          入力の仕方や検索の仕方 クラスター③ 12件 カテゴリー:用語、関係、自動、獲得      用語の関係付けとその自動獲得 クラスター④ 12件 カテゴリー:対話、発話、音声、理解      発話や対話の理解 各年の一番論文数が多かったクラスターから表示 クラスター番号についての説明

21 2005年の論文の特徴 クラスター① 29件 カテゴリー:表現、意味、概念、構造、抽出 クラスター② 25件
クラスター① 29件 カテゴリー:表現、意味、概念、構造、抽出    意味表現や概念、言語構造など クラスター② 25件 カテゴリー:要約、対話、システム、コーパス   記事などの要約、対話認識システム クラスター③ 19件 カテゴリー:画像、空間、識別、尺度、特徴 画像から特徴を認識 クラスター④ 16件 カテゴリー:換言、獲得、対訳、言語        言葉の言い換えや訳

22 2008年の論文の特徴 クラスター① 35件 カテゴリー:検索、概念、トピック、コーパス、ブログ クラスター② 26件
クラスター① 35件 カテゴリー:検索、概念、トピック、コーパス、ブログ    ブログなどから話題の抽出 クラスター② 26件 カテゴリー:解析、特徴、学習、ブログ、意味、関係   意味関係や特徴の解析 クラスター③ 18件 カテゴリー:翻訳、機械、対訳、構造、解析         機械翻訳、対訳、構造など クラスター④ 13件 カテゴリー:類似、文書、クラスタリング         文書からの類似の解析

23 比較のグラフ 分類 翻訳 音声 類似 関係 要約 棒グラフで年代間の関係を示す 検索 意味

24 2002年の考察 意味や言語の概念などの研究は2005年、2008年から見ても比較的多いことがわかった。
言語の概念を研究したいのであれば2002年の論文を参考にしてみたら良い。 「連想システムのための概念ベース構成法 : 属性信頼度の考え方に基づく属性重みの決定」(小島 一秀 他) 自然言語処理9(5) pp ( ) 被引用論文数 14件 どんなことが分かった どんなことが得られたか どんな論文を勧めるか どんなところで苦労したか、工夫したところ PDF無し ログを取らなかったことにより、特定の語が大きくなりすぎて データに影響を与えた。 この論文を引用した数

25 2005年の考察 機械翻訳に関する研究が2005年で見られ、2008年ではその研究が増えてきている。
機械翻訳について研究したいのであれば、2005年の論文を調べると良い。 「機械翻訳を介したコミュニケーションにおける利用者の機械翻訳システム適応の言語依存性」(小倉 健太郎) 自然言語処理12(3) pp ( ) 被引用論文数 6件 PDF有り 2005年はあまり円グラフを見るに研究のカテゴリーとしてはあまりない。 ロボットなどの研究が多い。それは2008年も同じ 画像認識だとまずい

26 2008年の考察 2008年はblogなどから人の評判や話題などを分析する研究が多く行われた年だった。
話題の研究を始めたい人は2008年の論文を調べると良い。 被引用論文数が無い 「トピック関連語の推定と文書ランキングへの適用」(石川 浩一郎 他) 情報処理学会研究報告. 自然言語処理研究会報告2008(90) pp.77-81( )

27 今後の課題 クラスター分析以外の分析(例:潜在意味解析など)で調べる。
同じ意味の語をまとめる(例:サポートベクトルマシンとサポートベクターマシーンなど) 2002年の論文から2005年や2008年の論文にどれだけ影響を与えたか または論文の流れなど 訂正の必要あり 実際にそれらの論文を誰かに紹介して、評価を聞く

28 参考文献 CiNii http://ci.nii.ac.jp/ 2009年9月に参照
石田基広. (2008). 『Rによるテキストマイニング入門』. 森北出版 金明哲 (2005).『フリーソフトによるデータ解析・マイニング第28 回Rとクラスター分析(1) 』 : /12/14アクセス 金明哲. (2009).『テキストデータの統計科学入門』.東京:岩波書店 新納浩幸. (2007).『Rで学ぶクラスタ解析』.東京:オーム社


Download ppt "情報理工学部 情報知能学科 H 柏木 康志 2010年 2月 2日"

Similar presentations


Ads by Google