大容量データベースのデータマイニング手法 (積分型波形データの類似検索)

Slides:



Advertisements
Similar presentations
1 高速フーリエ変換 (fast Fourier transform). 2 高速フーリエ変換とは? – 簡単に言うとフーリエ変換を効率よく計算 する方法 – アルゴリズムの設計技法は分割統治法に基 づいている 今回の目的は? – 多項式の積を求める問題を取り上げ、高速 フーリエ変換のアルゴリズムを用いた解法.
Advertisements

生物統計学・第 4 回 比べる準備をする 平均、分散、標準偏差、標準誤差、標準 化 2015 年 10 月 20 日 生命環境科学域 応用生命科学類 尾形 善之.
ヒストグラム5品種 松江城 出雲大社 石見銀山 三瓶山 アクアス しかしグラフで比較するのはめんどうなところがある 端的に1つの数字(代表値)で品種の特徴を表したい.
A Simple Constant Time Enumeration Algorithm for Free Trees 中野 眞一 宇野 毅明 群馬大学 情報学研究所 2003 年 9 月 19 日 アルゴリズム研究会.
白井ゼミ 豊田秀樹(2008)『データマイニング入門』 (東京図書)。4章
区間グラフにおける区間表現からMPQ-treeを効率よく構成するアルゴリズム
3次元nクイーン問題の 解に関する研究 論理工学研究室 伊藤精一
パネル型クエリ生成インタフェース画像検索システムの改良
東邦大学理学部情報科学科 白柳研究室 小泉宏美
Ⅰ.電卓キーの基本的機能 00 0 1 2 3 6 ⑤ 4 9 8 7 M- MR MC + × % M+ - = ÷ C √ +/- GT
復習.
ファーストイヤー・セミナーⅡ 第8回 データの入力.
生物統計学・第3回 全体を眺める(2) 主成分分析
神奈川大学大学院工学研究科 電気電子情報工学専攻
仮想マシンの並列処理性能に対するCPU割り当ての影響の評価
デジタル信号処理①
大阪工業大学 情報科学部 情報システム学科 宇宙物理研究室 B 木村悠哉
 Combinations(2)        古川 勇輔.
相関と回帰:相関分析 2つの変量それぞれが正規分布にしたがってばらつく量であるとき,両変数の直線的な関係を相関分析する. 例:兄弟の身長
主成分分析                     結城  隆   .
首都大学東京 都市教養学部数理科学コース 関谷博之
3.8 m望遠鏡主鏡エッジセンサ 開発進捗 京都大学 理学研究科 M2 河端 洋人.
高山建志 五十嵐健夫 テクスチャ合成の新たな応用と展開 k 情報処理 vol.53 No.6 June 2012 pp
(ラプラス変換の復習) 教科書には相当する章はない
金沢大学 工学部 情報システム工学科3年 岩淵 勇樹
Yuri Y. Boykov Marie-Pierre Jolly
IPv6アドレスによる RFIDシステム利用方式
繰り返しのない二元配置の例 ヤギに与えると成長がよくなる4種類の薬(A~D,対照区)とふだんの餌の組み合わせ
スペクトル・時系列データの前処理方法 ~平滑化 (スムージング) と微分~
MPIによる行列積計算 情報論理工学研究室 渡邉伊織 情報論理工学研究室 渡邉伊織です。
プログラム実行履歴を用いたトランザクションファンクション抽出手法
長岡技科大オープンハウス 岐阜高専4年電子制御工学科 森 永二郎.
MPIを用いた並列処理 ~GAによるTSPの解法~
決定木とランダムフォレスト 和田 俊和.
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
プログラミング論 II 2008年吉日 主成分分析 数値積分
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
データ構造とアルゴリズム 第14回 文字列の照合.
北大MMCセミナー 第70回 附属社会創造数学センター主催 Date: 2017年7月6日(木) 16:30~18:00
位相カメラの進捗状況 京都大学修士1回 横山 洋海.
中性子干渉実験 2008/3/10 A4SB2068 鈴木 善明.
6. ラプラス変換.
相関.
コードクローン検出ツールを用いた ソースコード分析システムの試作と プログラミング演習への適用
トーリックイデアルの グレブナ基底を求める アルゴリズム – F4およびF5 –
主成分分析 Principal Component Analysis PCA
コードクローンの動作を比較するためのコードクローン周辺コードの解析
決定木 Decision Tree DT 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
非対称リンクにおける ジャンボフレームの性能評価
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
実空間における関連本アウェアネス 支援システム
○ 後藤 祥1,吉田 則裕2 ,井岡 正和1 ,井上 克郎1 1大阪大学 2奈良先端科学技術大学院大学
第10回:Microsoft Excel (2/2)
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
自己組織化マップ Self-Organizing Map SOM
1:Weak lensing 2:shear 3:高次展開 4:利点 5:問題点
フーリエ級数.
プログラミング入門2 第13回、14回 総合演習 情報工学科 篠埜 功.
クローン検出ツールを用いた ソフトウェアシステムの類似度調査
原子核物理学 第7講 殻模型.
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
ヒープソート.
コロトコフ音と運動の関連性について ~拍動血流ポンプを用いた模擬血管血流システムの構築と検討~
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
回帰分析入門 経済データ解析 2011年度.
データ構造とアルゴリズム 第14回 文字列の照合.
木構造の比較に基づく メソッド呼び出し履歴の変化の可視化手法
市松模様を使用した カメラキャリブレーション
Q q 情報セキュリティ 第7回:2005年5月27日(金) q q.
6.2 高速フーリエ変換 (1)FFT(fast Fourier transform)とは
Presentation transcript:

大容量データベースのデータマイニング手法 (積分型波形データの類似検索) 寶珍 輝尚 大阪府立大学 総合科学部 数理・情報科学科 (平成17年4月から理学系研究科 情報数理科学専攻)

背景 核融合科学の実験 効率の良いデータ管理が必要 類似データの発見 → 規則の発見(?) 膨大な量のデータが発生 膨大な数のデータが発生 類似データの発見 → 規則の発見(?) まず背景としまして、 核融合科学の実験では膨大な量のデータが発生し、 効率のよいデータ管理が必要とされています。 また、今回の研究で用いたデータは、 Bolometer計測と言って、放射熱量を計測したもので、 右のような波形のデータです。 横軸が時間で、縦軸が放射熱量を表しています。 またこういった研究において、類似したデータを得ることは、 新たな規則発見などにつながる場合があり、 大変意味があります。 そこで、類似データの的確かつ迅速な 検索方法の検討を目的とします。 ------------------------ 512コの点でフーリエ変換 1000個ずつ飛ばす 波形全体をとっている

目的 類似波形の的確かつ迅速な検索 対象データ Bolometer計測データ (放射熱量の計測) 積分型の波形 まず背景としまして、   (放射熱量の計測)   積分型の波形 まず背景としまして、 核融合科学の実験では膨大な量のデータが発生し、 効率のよいデータ管理が必要とされています。 また、今回の研究で用いたデータは、 Bolometer計測と言って、放射熱量を計測したもので、 右のような波形のデータです。 横軸が時間で、縦軸が放射熱量を表しています。 またこういった研究において、類似したデータを得ることは、 新たな規則発見などにつながる場合があり、 大変意味があります。 そこで、類似データの的確かつ迅速な 検索方法の検討を目的とします。 ------------------------ 512コの点でフーリエ変換 1000個ずつ飛ばす 波形全体をとっている

フーリエ変換を用いた検索方法 Davood Rafiei, Alberto Mendelzon(1999) 1. フーリエ変換 1. フーリエ変換 2. 最初の係数k個を使用(2個目以降は複素数) 3. 2k-1次元の点として多次元インデックス(R木)で管理 4. 距離計算:ユークリッド距離 今までに考えられている 時系列データの類似検索の方法として、 フーリエ変換を用いた検索があります。 この方法は、 まずデータにフーリエ変換を行い、 最初の係数k個を使用します。 2個目以降の係数が複素数になるため、 2k-1次元の点として多次元インデックスであるR木によって 管理します。 また、距離計算にはユークリッドの距離を用います。

多次元インデックスR木 10次元を超えると検索効率低下 data a d c e b R1 R2 g f h R3 Overlap R1R2R3 a b d f g h c e data Oid 次に多次元インデックスであるR木について説明します。 まずR木は、外接矩形を作成しながら 木を構築していきます。 丸で囲まれたa~hがデータで、このように存在しているとします。 まずa,b,c・・・・hに外接する矩形を作り、 それらが、木の構造でいうと下位ノードのこれらになります。 その次に近い矩形同士で外接矩形を作成します。 a,b,dが近い矩形なので、 それらを囲む外接矩形R1を作成します。 木の構造で言うと a,b,dの上位ノードにR1があると言ったようにです。 またc,eの上位ノードにR2があり、 f,g,hの上位ノードにR3があるといったようになります。 そして、検索は問い合わせで指定された領域と 重なる領域を再帰的に検索していきます。 またR1とR2の重なりは、オーバラップといい、 検索効率の低下を起こします。 また実験的な研究により、10次元を超えると 検索効率が低下する場合があると わかっています。 ---------------------------- 次元の呪い ある問い合わせから最も近い点と最も遠い点との 距離の差があまりなくなっていまい、 検索範囲の設定が困難。 ある範囲では1000個ちかく取れる場合でも、 すこし範囲を下げたら全く取れなくなってしまったりする。 10次元を超えると検索効率低下

問題点1 最初のk個(2k-1次元)の係数がほぼ同じでも 波形が異なるデータが存在 例)インデックス5次元、データ数1000 検索キー:No094 距離が最も近いデータ:No029 フーリエ変換を用いた検索方法での問題点として、 最初の2k-1個の係数がほぼ同じでも、 波形が異なるデータが存在してしまうことがあります。 例えば、インデックスを5次元、データ数を1000個として、 左の図のNo.094というキーで検索した場合、 右のNo029というデータが得られます。 波形を見比べてみると、あまり似ていないように思えます。 (そこで、最初の2k-1次元の係数以外にも、 特徴となる係数があるのではないかと考えました。)

検索精度の改良 2段階の処理 ・1段階目:R木を使用(2k-1次元) 足切りに利用 ・2段階目:波形の類似度を判定 値の大きいm個の係数        足切りに利用 ・2段階目:波形の類似度を判定        値の大きいm個の係数  を使用(最初の2k-1以外) そこで、2段階の処理を行うことを考えました。 まず1段階目では、2k-1次元のR木を使用し、 足切りを行います。 次に2段階目で、波形の類似度を判定します。 2段階目では、1段階目で使う2k-1個以外の係数のうち 値の大きい係数をm個使用して、距離を比較します。 ----------------------------- 同じ位置に大きい値があるなら、 その値同士で引くのですが。 同じ場所に大きい値がなければ、 キーの値から、0を引きます。

次元数(2k-1)の選定 計測データ1000個の係数の平均 k:2から4(2k-1:3,5,7)で 大まかな波形の類似度が判断可能 k 1  計測データ1000個の係数の平均 k 1 2 3 4 5 6 7 実部 2059 8 -7 -12 -9 -6 -4 虚部 -14 1 まず、2k-1次元をいくつにするかと いうことを考えました。 この表は計測データ1000個の係数を平均したもので、 次数の低い係数です。 この表を見ると、 実部と虚部がともに大きいので、 kが2~4つまり、2k-1が3から7で 大まかな波形の類似度を判断できるのではないかと考えました。 k:2から4(2k-1:3,5,7)で 大まかな波形の類似度が判断可能

mの選定 値の大きい係数の個数m:実験的に選定 ・データ数:1000 ・k:2~4(2k-1:3,5,7) ・m:2,4,6,8 ・検索キー:2個(波形が大きく異なる) ・類似データ:4個(あらかじめ選定) ・順位の平均で評価 (同距離のもの:同順位) データ 距離 順位 A 2 1 B 3 C D 4 次にmをいくつにするかということを考えました。 kが2~4つまり、2k-1が3、5、7に対して、 mを2,4,6,8と変えていき、 もっとも精度の良いkとmの組み合わせを選ぶことにしました。 方法としては、データ数を1000個の中から、 波形が大きく異なるデータを2個検索キーとして選びます。 そしてあらかじめ、そのキーに似たデータを4個選んでおきます。 あらかじめ選んでおいたデータが 何番目に現れるかという順位の平均で、評価します。 ただし、同じ距離のものは順位を同じにしています。 例えば、右下の例で説明すると、 ある検索キーに対して、 あらかじめ選んでおいたデータA,B,C,Dが この距離ので上から順に得られたとすると、 その順序はこのようになります。 これと同じことを別のキーに対しても行い、 二つの平均を取ったものが、次のグラフです。 --------------------------- 1つのキーに対して、距離が遠くなるものを選んだ

mの選定 5次元インデックス(k=3)、m=4の時 最も精度が良い 横軸がmの個数で、縦軸が平均順位となっています。 またこれが3次元、これが5次元、これが7次元の 波形に結果になります。 これは、似ている4個のデータの順位の平均なので、 グラフで下のほうに行くほど、似たデータが上位にあるということです。 このグラフを見ると、5次元(kが3)でm=4のときに 最も精度が良いので、この方法に決定しました。 -------------------------------- k=3、m=4のときの平均順位が2.5 k=3、m=2のときの平均順位が2.6 7次元で検索効率が低下している。 これはあまり重要でない係数を取ってしまっていると 考えられます。 ので、9次元でmを変化させても、 7次元と同様に重要でない係数をとってしまうと思い、 やっていません。 5次元インデックス(k=3)、m=4の時 最も精度が良い

検索例 検索キー:No325 ①No329 ②No332 ③No321 検索例として、 右上の波形が最も距離が近かったデータです。 下2つの波形がその次に近かったデータです。 似ているデータを得られていることがわかると思います。

問題点2 周波数領域への変換法: キー波形の波長が支配的 多少異なる波長の波形も検索したい まず背景としまして、 核融合科学の実験では膨大な量のデータが発生し、 効率のよいデータ管理が必要とされています。 また、今回の研究で用いたデータは、 Bolometer計測と言って、放射熱量を計測したもので、 右のような波形のデータです。 横軸が時間で、縦軸が放射熱量を表しています。 またこういった研究において、類似したデータを得ることは、 新たな規則発見などにつながる場合があり、 大変意味があります。 そこで、類似データの的確かつ迅速な 検索方法の検討を目的とします。 ------------------------ 512コの点でフーリエ変換 1000個ずつ飛ばす 波形全体をとっている

近似 仮定 t=0 以前で 0 t=t1 以降で 0 G(ω)≒F(ω)exp(- jαω t1) g(t)=f(t/(1+α)) ただし、α<<1 t=0 以前で 0 t=t1 以降で 0 G(ω)≒F(ω)exp(- jαω t1) G(ω) :g(t) のフーリエ変換 F(ω) :f(t) のフーリエ変換 まず背景としまして、 核融合科学の実験では膨大な量のデータが発生し、 効率のよいデータ管理が必要とされています。 また、今回の研究で用いたデータは、 Bolometer計測と言って、放射熱量を計測したもので、 右のような波形のデータです。 横軸が時間で、縦軸が放射熱量を表しています。 またこういった研究において、類似したデータを得ることは、 新たな規則発見などにつながる場合があり、 大変意味があります。 そこで、類似データの的確かつ迅速な 検索方法の検討を目的とします。 ------------------------ 512コの点でフーリエ変換 1000個ずつ飛ばす 波形全体をとっている

検索法 角度法 貪欲法 対角法 少しずつ角度を変化 最初は検索範囲を大きくし絞り込む 対角のみ 原検索範囲 小領域 まず背景としまして、 核融合科学の実験では膨大な量のデータが発生し、 効率のよいデータ管理が必要とされています。 また、今回の研究で用いたデータは、 Bolometer計測と言って、放射熱量を計測したもので、 右のような波形のデータです。 横軸が時間で、縦軸が放射熱量を表しています。 またこういった研究において、類似したデータを得ることは、 新たな規則発見などにつながる場合があり、 大変意味があります。 そこで、類似データの的確かつ迅速な 検索方法の検討を目的とします。 ------------------------ 512コの点でフーリエ変換 1000個ずつ飛ばす 波形全体をとっている

評価 対象:1000個のボロメータ計測データ 角度αの増加量を変化させて測定 まず背景としまして、 核融合科学の実験では膨大な量のデータが発生し、 効率のよいデータ管理が必要とされています。 また、今回の研究で用いたデータは、 Bolometer計測と言って、放射熱量を計測したもので、 右のような波形のデータです。 横軸が時間で、縦軸が放射熱量を表しています。 またこういった研究において、類似したデータを得ることは、 新たな規則発見などにつながる場合があり、 大変意味があります。 そこで、類似データの的確かつ迅速な 検索方法の検討を目的とします。 ------------------------ 512コの点でフーリエ変換 1000個ずつ飛ばす 波形全体をとっている

まとめ 今後の課題 波形の高速類似検索(FFT利用) 波長の多少異なる波形も検索(近似) 他の積分型波形への適用 揺動型波形に対する検討 1段階目:R木による検索(5次元インデックス) 2段階目:係数4個を使用(1段階目で使用の係数以外) 波長の多少異なる波形も検索(近似) 今後の課題 まず背景としまして、 核融合科学の実験では膨大な量のデータが発生し、 効率のよいデータ管理が必要とされています。 また、今回の研究で用いたデータは、 Bolometer計測と言って、放射熱量を計測したもので、 右のような波形のデータです。 横軸が時間で、縦軸が放射熱量を表しています。 またこういった研究において、類似したデータを得ることは、 新たな規則発見などにつながる場合があり、 大変意味があります。 そこで、類似データの的確かつ迅速な 検索方法の検討を目的とします。 ------------------------ 512コの点でフーリエ変換 1000個ずつ飛ばす 波形全体をとっている 他の積分型波形への適用 揺動型波形に対する検討