構造的類似性を持つ半構造化文書における頻度分析

構造的類似性を持つ半構造化文書における頻度分析
山田泰寛* 池田大輔** 廣川佐千男** *九州大学大学院システム情報科学府 **九州大学情報基盤センター

発表内容背景頻度分布まとめ今後の課題共通パタン特定自然言語文共通テンプレートを持つ半構造化文書群
発表内容は以下のようになっています。まず、背景について述べます。背景では我々の目標である共通パタンの特定について述べます。次に、頻度分布についてですが、本論文では共通パタン特定の予備実験として、自然言語文と共通テンプレートを持つ半構造化文書群を対象として頻度分析を行なったので、そのグラフをいくつかお見せします。最後にまとめと今後の課題について述べます。本研究では、難しいことは行なっておらず、部分文字列の頻度をカウントし、グラフ化したものをお見せするだけなので、簡単に理解していただけると思います。

背景共通パタンの特定文字列処理パタン言語の学習ゲノムテキストの圧縮計算量が高い最長共通部分文字列最長共通部分列問題
与えられた例に共通するパタンの探索ゲノムモチーフ発見最大反復テキストの圧縮頻出するパタンの予測複数の対象が与えられたときに、これらの多くに共通する性質、あるいは頻出する部分を見つける問題を解くことは、非常に一般的であり、様々な分野で研究されています。例えば、。。。。この他にも、自然言語処理、囲碁の棋譜からの定石の発見など様々な分野で研究されています。しかし、入力が個数が可変であったり、パタンが複雑であったりすると、計算量が大きくなることが問題として上げられます。計算量が高い

情報抽出(Web マイニング) ラッパーコンテンツ抽出プログラム共通テンプレートを持つ文書群を対象
共通テンプレートの特定し、コンテンツを抽出するルールを生成もう一つ共通パタン特定が研究されている分野に、セッションが「Webとデータベース」ということで、Webマイニングの分野があります。 Webマイニングの研究の一つに、共通テンプレートを持つ文書群を対象とし、そこからラッパーと呼ばれるコンテンツを抽出プログラムの生成に関する研究が行なわれています。（ＨＴＭＬ）例えば新聞記事を対象として、見出しや本文などのコンテンツ部分を抽出したい場合、このようあページは共通のテンプレートを用いて作成されていつので共通テンプレート部分を特定すれば、コンテンツ部分を抽出することができます。この後もテンプレートという言葉を使うのですが、テンプレートはタグだけでなく、このような全文書中に共通している記号や文字列も含みます。

目的共通パタン特定の予備実験として頻度分析共通テンプレートを持つ半構造化文書群頻度分布の差を用いた共通テンプレートの特定自然言語文
構造的類似性（共通テンプレート）を持つ半構造化文書群共通テンプレートを持つ半構造化文書群テンプレート部分とコンテンツ部分で構成コンテンツ部分は自然な文字列頻度分布の差を用いた共通テンプレートの特定部分文字列の出現頻度だけを使う計算量が小さい本研究では、最終的には、入力文字列からの共通パタンの特定が目的なのですが、予備実験として頻度分析を行ないました。対象として、自然言語文、具体的には小説と構造的類似性を持つ半構造化文書群を対象として頻度分析を行ないました。

発表内容背景共通パタン特定頻度分布自然言語文共通テンプレートを持つ半構造化文書群まとめと今後の課題

テンプレートを持たないテキスト夏目漱石「こころ」これより、頻度の大きい部分文字文字列はほとんど存在しないことが分かります。
487KByte V(f) n : 部分文字列の長さ f : 出現頻度 V(f) :出現頻度 f を持つ部分文字列の種類数入力として、コンテンツ部分の頻度分布を調べるために、自然言語文として青空文庫から夏目漱石「こころ」を使用し、長さ３０まで頻度をカウントしました。縦軸が部分文字列の長さ、横軸が出現頻度、垂直軸が出現頻度 f を持つ部分文字列の種類数です。ただし頻度が１の部分文字列は省略しています。これより、頻度の大きい部分文字文字列はほとんど存在しないことが分かります。また、長さが長くなれば、部分文字列の種類数が減っていることが分かります。 n f

テンプレートを持たないテキストべき分布に従う両軸を対数化しています。
種類数 V(f) 次に、横軸が出現頻度、縦軸が出現頻度 f を持つ部分文字列の種類数を表し、両軸を対数化しています。このグラフより、頻度と種類数がべき分布に従っていることが分かります。頻度 f

テンプレートを持たないテキストジップの第２法則テキスト中の単語の頻度分布、
特に低頻度部分において、頻度がfである単語の種類数V(f)は頻度fとの間に以下の関係が成り立つ log V(f) = - a (log f) + b 種類数 V(f) 頻度 f

共通テンプレートを持つテキスト産経新聞 50ファイル 328KByte V(f) n f

テンプレートを持たないテキスト夏目漱石「こころ」 487KByte V(f) n f n : 部分文字列の長さ f : 出現頻度
V(f) :出現頻度 f を持つ部分文字列の種類数 n f

共通テンプレートを持つテキスト産経新聞 50ファイル 328KByte V(f) n f

頻度分布の差 (a) テンプレート部分 (b) コンテンツ部分

共通テンプレートを持つテキスト f vs. V(f) 種類数 V(f) 頻度 f

テンプレートを持たないテキスト f vs. V(f) 種類数 V(f) 頻度 f

共通テンプレートを持つテキスト f vs. V(f) べき分布からの乖離する点の出現種類数 V(f) 頻度 f
このような点はテンプレート部分の部分文字列の頻度が影響している。頻度 f

頻度分析グラフ1 グラフ2 グラフ3 部分文字列の長さ n 出現頻度 f 出現頻度 f を持つ部分文字列の種類数 V(f)

テンプレートを持たないテキスト夏目漱石「こころ」 f vs. f * V(f) 頻度 f*V(f) 頻度 f

共通テンプレートを持つテキスト産経新聞 50ファイルピークが出現５０ファイル数１００ファイル数の２倍頻度 f*V(f)
共通テンプレートを持つテキスト群を入力として与えた場合、ファイル数のn倍にあたる頻度にピークが表れる傾向がありました。また、このような頻度を持つ部分文字列はテンプレート上に出現する部分文字列でした。１００　ファイル数の２倍頻度 f

まとめなしあり f vs. V(f) べき分布べき分布からの乖離 f vs. f*V(f) ピークなしピークあり共通テンプレート
　　　レート頻度分布

今後の課題共通パタンの発見べき分布からの外れの数値化他データへの応用ゲノム

参考論文文字列の頻度分布による共通パタン発見, 池田大輔, 山田泰寛, 廣川佐千男, 第72回情報学基礎研究会, 2003年9月29,30日テンプレート発見問題の定義 f vs. f * V(f)

yahooの検索結果 f vs. f * V(f) ４６全ファイルに共通頻度 f*V(f) カテゴリ名９１９１３検索結果頻度 f

ノイズを含む入力九州大学トップページから深さ３まで 598ファイル６２頻度 f

頻度62の部分文字列を持つページ

複数のテンプレート f vs. F(f) １４０産経：５０朝日：１０４読売：１４０１０４４９，５０

部分文字列の長さによる頻度の差 (a) 長さ 2 (b) 長さ 5

構造的類似性を持つ半構造化文書における頻度分析

Similar presentations

Presentation on theme: "構造的類似性を持つ半構造化文書における頻度分析"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

構造的類似性を持つ半構造化文書における頻度分析

Similar presentations

Presentation on theme: "構造的類似性を持つ半構造化文書における頻度分析"— Presentation transcript:

Similar presentations

About project

フィードバック