構造的類似性を持つ半構造化文書における頻度分析

Slides:



Advertisements
Similar presentations
北海道大学 Hokkaido University 1 情報理論 講義資料 2016/06/22 情報エレクトロニクス学科共通科目・2年次・第 1 学期〔必修 科目〕 講義「情報理論」第 5 回 第 3 章 情報源のモデル [ 後半 ] 3.5 情報源のエントロピー.
Advertisements

XML ゼミ 独習 XML ~ 第 6 章 XHTML~ 6.1 XHTML の概要 6.2 XHTML の構造 谷津 哲平.
コーパス言語学実践 2006 年度 2 学期 第 2 回. 2 本日の内容 前半の作業について – 語彙調査の演習 – 用語の説明 語彙,単位語,延べ語,異なり語,見出し 語 作成作業 その1 – データ収集開始.
電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
テキストデータベースからの 構文構造のマイニング
情報処理実習 第05回 Excelマクロ機能入門 操作マクロ入門.
国内線で新千歳空港を利用している航空会社はどこですか?
レポートの作成 効果的な発表の仕方.
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
情報学類 吉田光男 アドバイザー教官: 山本幹雄 先生
JavaによるCAI学習ソフトウェアの開発
ホームページの作り方.
第4回 (10/16) 授業の学習目標 先輩の卒論の調査に協力する。 2つの定量的変数間の関係を調べる最も簡単な方法は?
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
分子生物情報学 動的計画法に基づく配列比較法 (ペアワイズアライメント法)
このPowerPointファイルは、 情報処理演習用に作った フィクションです。
テキストマイニング, データマイニングと 社会活動のトレース
時空間データからのオブジェクトベース知識発見
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
共通科目「情報(実習)」 第7回 プレゼンテーション資料作成 標準表示中は矢印下でスライド移動
プログラムの動作を理解するための技術として
形態素解析および係り受け解析・主語を判別
テキストの類似度計算
ランダムプロジェクションを用いた 音声特徴量変換
日本大学 文理学部 情報システム解析学科 谷研究室 益田真太郎
疑似頻出アイテム集合の 多項式遅延列挙アルゴリズム
統計リテラシー育成のための数学の指導方法に関する実践的研究
自動車レビューにおける検索と分析 H208032 松岡 智也 H208060 中西 潤 H208082 松井泰介.
10.通信路符号化手法2 (誤り検出と誤り訂正符号)
SGMLについて 2年8組  原口 文晃.
日本語解析済みコーパス管理ツール 「茶器」
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
川口真司 松下誠 井上克郎 大阪大学大学院情報科学研究科
平成22年6月15日 図書系職員のための アプリケーション開発講習会
情報管理論 2018/11/9 情報分析の道具 2018/11/9 情報分析の道具 情報分析の道具.
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
コードクローンに含まれるメソッド呼び出しの 変更度合の分析
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
動的依存グラフの3-gramを用いた 実行トレースの比較手法
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
ゴールドバッハ予想と その類似問題の考察 情報科学科 白柳研究室   小野澤純一.
環境リスクマネジメントに関する 検索システム
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
トレーニング プレゼンテーションのタイトル
岩村雅一 知能情報工学演習I 第13回(後半第7回) 岩村雅一
オープンソース開発支援のための リビジョン情報と電子メールの検索システム
コードクローンの動作を比較するためのコードクローン周辺コードの解析
情報スキル活用 第2週 基礎技術ー2 : Webページの基本形.
半構造化テキストに対する 文字列照合アルゴリズム
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
情報スキル活用 第4週 基礎技術-4 : その1(タグのまとめ).
テキストマイニング, データマイニングと 社会活動のトレース
様々な情報源(4章).
アルゴリズム論 (第12回) 佐々木研(情報システム構築学講座) 講師 山田敬三
コーディングパターンの あいまい検索の提案と実装
Qiwi: テキスト中の 数値表現マイニング
短い部分文字列の ミスマッチトレランスを 高速計算するアルゴリズム
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
設計情報の再利用を目的とした UML図の自動推薦ツール
保守請負時を対象とした 労力見積のためのメトリクスの提案
クローン検出ツールを用いた ソフトウェアシステムの類似度調査
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
自然言語処理2015 Natural Language Processing 2015
4.プッシュダウンオートマトンと 文脈自由文法の等価性
欠陥検出を目的とした類似コード検索法 吉田則裕,石尾隆,松下誠,井上克郎 大阪大学 大学院情報科学研究科
Webページタイプによるクラスタ リングを用いた検索支援システム
医療科学B演習のおさらい 杏林大学医学図書館 医療科学B.
Presentation transcript:

構造的類似性を持つ半構造化文書における頻度分析 山田泰寛* 池田大輔** 廣川佐千男** *九州大学大学院システム情報科学府 **九州大学情報基盤センター

発表内容 背景 頻度分布 まとめ 今後の課題 共通パタン特定 自然言語文 共通テンプレートを持つ半構造化文書群 発表内容は以下のようになっています。 まず、背景について述べます。 背景では我々の目標である共通パタンの特定について述べます。 次に、頻度分布についてですが、本論文では共通パタン特定の予備実験として、 自然言語文と共通テンプレートを持つ半構造化文書群を対象として 頻度分析を行なったので、そのグラフをいくつかお見せします。 最後にまとめと今後の課題について述べます。 本研究では、難しいことは行なっておらず、 部分文字列の頻度をカウントし、グラフ化したものをお見せするだけなので、 簡単に理解していただけると思います。

背景 共通パタンの特定 文字列処理 パタン言語の学習 ゲノム テキストの圧縮 計算量が高い 最長共通部分文字列 最長共通部分列問題 与えられた例に共通するパタンの探索 ゲノム モチーフ発見 最大反復 テキストの圧縮 頻出するパタンの予測 複数の対象が与えられたときに、これらの多くに共通する性質、 あるいは頻出する部分を見つける問題を解くことは、 非常に一般的であり、様々な分野で研究されています。 例えば、。。。。 この他にも、自然言語処理、囲碁の棋譜からの定石の発見など 様々な分野で研究されています。 しかし、入力が個数が可変であったり、パタンが複雑であったりすると、 計算量が大きくなることが問題として上げられます。 計算量が高い

情報抽出(Web マイニング) ラッパー コンテンツ抽出プログラム 共通テンプレートを持つ文書群を対象 共通テンプレートの特定し、コンテンツを抽出するルールを生成 もう一つ共通パタン特定が研究されている分野に、セッションが「Webとデータベース」 ということで、Webマイニングの分野があります。 Webマイニングの研究の一つに、共通テンプレートを持つ文書群を対象とし、 そこからラッパーと呼ばれるコンテンツを抽出プログラムの生成 に関する研究が行なわれています。 (HTML) 例えば新聞記事を対象として、見出しや本文などのコンテンツ部分を抽出したい場合、 このようあページは共通のテンプレートを用いて作成されていつので 共通テンプレート部分を特定すれば、コンテンツ部分を抽出することができます。 この後もテンプレートという言葉を使うのですが、テンプレートはタグだけでなく、 このような全文書中に共通している記号や文字列も含みます。

目的 共通パタン特定の予備実験として頻度分析 共通テンプレートを持つ半構造化文書群 頻度分布の差を用いた共通テンプレートの特定 自然言語文 構造的類似性(共通テンプレート)を持つ半構造化文書群 共通テンプレートを持つ半構造化文書群 テンプレート部分とコンテンツ部分で構成 コンテンツ部分は自然な文字列 頻度分布の差を用いた共通テンプレートの特定 部分文字列の出現頻度だけを使う 計算量が小さい 本研究では、最終的には、入力文字列からの共通パタンの特定が目的なのですが、 予備実験として頻度分析を行ないました。 対象として、自然言語文、具体的には小説と 構造的類似性を持つ半構造化文書群を対象として頻度分析を行ないました。

発表内容 背景 共通パタン特定 頻度分布 自然言語文 共通テンプレートを持つ半構造化文書群 まとめと今後の課題

テンプレートを持たないテキスト 夏目漱石「こころ」 これより、頻度の大きい部分文字文字列はほとんど存在しないことが分かります。 487KByte V(f) n : 部分文字列の長さ f : 出現頻度 V(f) :出現頻度 f を持つ部分文字列の種類数 入力として、コンテンツ部分の頻度分布を調べるために、自然言語文として 青空文庫から夏目漱石「こころ」を使用し、長さ30まで頻度をカウントしました。 縦軸が部分文字列の長さ、横軸が出現頻度、 垂直軸が出現頻度 f を持つ部分文字列の種類数です。 ただし頻度が1の部分文字列は省略しています。 これより、頻度の大きい部分文字文字列はほとんど存在しないことが分かります。 また、長さが長くなれば、部分文字列の種類数が減っていることが分かります。 n f

テンプレートを持たないテキスト べき分布に従う 両軸を対数化しています。 種類数 V(f) 次に、横軸が出現頻度、縦軸が出現頻度 f を持つ部分文字列の種類数を表し、 両軸を対数化しています。 このグラフより、頻度と種類数がべき分布に従っていることが分かります。 頻度 f

テンプレートを持たないテキスト ジップの第2法則 テキスト中の単語の頻度分布、 特に低頻度部分において、頻度がfである単語の種類数V(f)は頻度fとの間に以下の関係が成り立つ log V(f) = - a (log f) + b 種類数 V(f) 頻度 f

共通テンプレートを持つテキスト 産経新聞 50ファイル 328KByte V(f) n f

テンプレートを持たないテキスト 夏目漱石「こころ」 487KByte V(f) n f n : 部分文字列の長さ f : 出現頻度 V(f) :出現頻度 f を持つ部分文字列の種類数 n f

共通テンプレートを持つテキスト 産経新聞 50ファイル 328KByte V(f) n f

頻度分布の差 (a) テンプレート部分 (b) コンテンツ部分

共通テンプレートを持つテキスト f vs. V(f) 種類数 V(f) 頻度 f

テンプレートを持たないテキスト f vs. V(f) 種類数 V(f) 頻度 f

共通テンプレートを持つテキスト f vs. V(f) べき分布からの乖離する点の出現 種類数 V(f) 頻度 f このような点はテンプレート部分の部分文字列の頻度が影響している。 頻度 f

頻度分析 グラフ1 グラフ2 グラフ3 部分文字列の長さ n 出現頻度 f 出現頻度 f を持つ部分文字列の種類数 V(f)

テンプレートを持たないテキスト 夏目漱石「こころ」 f vs. f * V(f) 頻度 f*V(f) 頻度 f

共通テンプレートを持つテキスト 産経新聞 50ファイル ピークが出現 50 ファイル数 100 ファイル数の2倍 頻度 f*V(f) 共通テンプレートを持つテキスト群を入力として与えた場合、 ファイル数のn倍にあたる頻度にピークが表れる傾向がありました。 また、このような頻度を持つ部分文字列はテンプレート上に出現する部分文字列でした。 100 ファイル数の2倍 頻度 f

まとめ なし あり f vs. V(f) べき分布 べき分布からの乖離 f vs. f*V(f) ピークなし ピークあり 共通テンプ レート    レート 頻度分布

今後の課題 共通パタンの発見 べき分布からの外れの数値化 他データへの応用 ゲノム

参考論文 文字列の頻度分布による共通パタン発見, 池田大輔, 山田泰寛, 廣川佐千男, 第72回情報学基礎研究会, 2003年9月29,30日 テンプレート発見問題の定義 f vs. f * V(f)

yahooの検索結果 f vs. f * V(f) 46 全ファイルに共通 頻度 f*V(f) カテゴリ名 91 913 検索結果 頻度 f

ノイズを含む入力 九州大学 トップページから深さ3まで 598ファイル 62 頻度 f

頻度62の部分文字列を持つページ

複数のテンプレート f vs. F(f) 140 産経:50 朝日:104 読売:140 104 49,50

部分文字列の長さによる頻度の差 (a) 長さ 2 (b) 長さ 5