Presentation is loading. Please wait.

Presentation is loading. Please wait.

圧縮類似度を用いた方言の自動分類 ~ライス符号を用いた前処理~ ~連結クラスタリング法~ ~余弦類似度を用いた方言分類木の評価~

Similar presentations


Presentation on theme: "圧縮類似度を用いた方言の自動分類 ~ライス符号を用いた前処理~ ~連結クラスタリング法~ ~余弦類似度を用いた方言分類木の評価~"— Presentation transcript:

1 圧縮類似度を用いた方言の自動分類 ~ライス符号を用いた前処理~ ~連結クラスタリング法~ ~余弦類似度を用いた方言分類木の評価~
日本大学文理学部 情報システム解析学科 谷 研究室 本荘 智則 佐藤 雄太 益田 真太郎

2 1.はじめに-研究概要 本研究の手順 方言桃太郎(音源) テキストファイル 前処理+ライス符号 類似度距離 系統樹作成クラスタリング
方言分類木の評価

3 目次 1.はじめに 2.研究項目 3.研究結果 4.考察、今後の課題 1.1背景 1.2先行研究 1.3研究動機 1.4研究概要
2.1余弦類似度 2.2木の評価 3.研究結果 4.考察、今後の課題

4 目次 1.はじめに 2.研究項目 3.研究結果 4.考察、今後の課題 1.1背景 1.2先行研究 1.3研究動機 1.4研究概要
2.1余弦類似度 2.2木の評価 3.研究結果 4.考察、今後の課題

5 背景 NJ法 UPGMA法 Quartet Methodの 3種類でグラフを作成 3種類のどれがより良い分類をしているだろうか???

6 視覚的な比較

7 背景 3種類のどれが木として より類似度距離を反映しているか グラフを見ても客観的には分からない

8 背景 3種類のどれが木として より類似度距離を反映しているか グラフを見ても客観的には分からない
3種類のグラフでどれが木として類似度距離をより反映しているか?

9 背景 3種類のグラフでどれが木として類似度距離をより反映しているか?

10 背景 3種類のグラフでどれが木として類似度距離をより反映しているか? 反映しているか評価する値を定義し 客観的な木の評価を行う

11 背景 2007年度谷研究室在籍の堀中氏の先行研究 3種類のグラフでどれが類似度距離をより反映しているか?? 反映しているか評価する値を定義し
客観的な木の評価を行う

12 目次 1.はじめに 2.研究項目 3.研究結果 4.考察、今後の課題 1.1背景 1.2先行研究 1.3研究動機 1.4研究概要
2.1余弦類似度 2.2木の評価 3.研究結果 4.考察、今後の課題

13 先行研究.木の距離定義

14 先行研究.木の距離定義 td(u,v)を類似度の距離に対応させた距離を グラフを見た場合の距離 sd(u,v):類似度距離とする
ノードの辺の数を距離と したもの sd(u,v):類似度距離とする td(u,v)を類似度の距離に対応させた距離を ntd(u,v) とする

15 先行研究.木の距離定義 td(u,v)を類似度の距離に対応させた距離を なぜntd(u,v)を定義する? グラフを見た場合の距離
ノードの辺の数を距離と したもの sd(u,v):類似度距離とする td(u,v)を類似度の距離に対応させた距離を ntd(u,v) とする なぜntd(u,v)を定義する?

16 先行研究.木の距離定義 td(u,v)を類似度の距離に対応させた距離を なぜntd(u,v)を定義する? グラフを見た場合の距離
ノードの辺の数を距離と したもの sd(u,v):類似度距離とする td(u,v)を類似度の距離に対応させた距離を ntd(u,v) とする なぜntd(u,v)を定義する? td(u,v):グラフで定まる sd(u,v):距離表で定まる

17 先行研究.木の距離定義 td(u,v)を類似度の距離に対応させた距離を なぜntd(u,v)を定義する? グラフを見た場合の距離
ノードの辺の数を距離と したもの sd(u,v):類似度距離とする td(u,v)を類似度の距離に対応させた距離を ntd(u,v) とする なぜntd(u,v)を定義する? td(u,v):グラフで定まる sd(u,v):距離表で定まる 木における距離td(u,v)を類似度距離sd(u,v)に対応させることで 木が類似度距離にどれ位反映しているか検証できるから

18 先行研究.木の距離定義 グラフを見た場合の距離 E F td(u,v):グラフ間の ノードの辺の    数を距離としたもの A C D B

19 先行研究.木の距離定義 グラフを見た場合の距離 E F td(u,v):グラフ間の ノードの辺の 数を距離としたもの td(A,E)=4 A
C D B

20 先行研究.木の距離定義 グラフを見た場合の距離 td(u,v)を類似度の距離に対応させた距離を ntd(u,v) とする

21 先行研究.木の距離定義 td(u,v)を類似度の距離に対応させた距離を グラフを見た場合の距離 ntd(u,v) とする
sd(u,v):類似度距離

22 先行研究.木の距離定義 td(u,v)を類似度の距離に対応させた距離を グラフを見た場合の距離 ntd(u,v) とする
max(sd):sd(u,v)の最大値 min(sd):sd(u,v)の最小値 max(td):td(u,v)の最大値 min(td):td(u,v)の最大値 sd(u,v):類似度距離

23 先行研究.木の距離定義 td(u,v)を類似度の距離に対応させた距離を グラフを見た場合の距離 ntd(u,v) とする
max(sd):sd(u,v)の最大値 min(sd):sd(u,v)の最小値 max(td):td(u,v)の最大値 min(td):td(u,v)の最大値 sd(u,v):類似度距離 max(sd)-min(sd) ntd(u,v)= min(sd) (td(u,v)-min(td)) max(td)-min(td)

24 先行研究.木の距離定義 グラフを見た場合の距離 td(u,v)を類似度距離に対応させた距離を ntd(u,v)とする E F A B C D

25 先行研究.木の距離定義 グラフを見た場合の距離 td(u,v)を類似度距離に対応させた距離を ntd(u,v)とする E F
max(sd):17 min(sd):5 max(td):4 min(td):2 A B C D

26 先行研究.木の距離定義 グラフを見た場合の距離 td(u,v)を類似度距離に対応させた距離を ntd(u,v)とする max(sd):17
min(sd):5 max(td):4 min(td):2 E F max(sd)-min(sd) 12 = = 6 max(td)-min(td) 2 A B C D

27 先行研究.木の距離定義 グラフを見た場合の距離 td(u,v)を類似度距離に対応させた距離を ntd(u,v)とする max(sd):17
min(sd):5 max(td):4 min(td):2 E F ntd(A,E):5+6(4-2)=5+12=17 A B C D

28 先行研究.木の評価の定義値 (M-CT) S(T) = (M-m) 2 TV1 = Σ |sd(u,v) - ntd(u,v)|
平均値 TV1 = Σ |sd(u,v) - ntd(u,v)| N(N-1) 2乗和の平方根 TV2 = √Σ(sd(u,v) - ntd(u,v)) 2 sd(u,v):類似度距離

29 先行研究.{S(T)値} 1 (M-CT) S(T) = (M-m) M :maximum cost m :minimum cost
CT :total cost 最高 最悪 1 木:TのS(T)

30 先行研究.木の評価の定義値 (M-CT) S(T) = (M-m) 2 TV1 = Σ |sd(u,v) - ntd(u,v)|
平均値 TV1 = Σ |sd(u,v) - ntd(u,v)| N(N-1) 2乗和の平方根 TV2 = √Σ(sd(u,v) - ntd(u,v)) 2 sd(u,v):類似度距離 TVは 値が0に,S(T)は1に近い程sd(u,v)をより反映したグラフ

31 先行研究.{S(T)値} (M-CT) S(T) = (M-m)

32 先行研究.(差の平均) 2 TV1 = Σ |sd(u,v) - ntd(u,v)| N(N-1)

33 先行研究.(差の平均) 2 TV1 = Σ |sd(u,v) - ntd(u,v)| N(N-1)

34 先行研究.(2乗和の平方根) 2 TV2 = √Σ(sd(u,v) - ntd(u,v))

35 先行研究.(2乗和の平方根) 2 TV2 = √Σ(sd(u,v) - ntd(u,v))

36 先行研究.結果 (M-CT) S(T) = (M-m) 2 TV1 = Σ |sd(u,v) - ntd(u,v)| N(N-1)

37 先行研究.結果 (M-CT) S(T) = (M-m) 2 TV1 = Σ |sd(u,v) - ntd(u,v)| N(N-1)
Quartet-Methodはsd(u,v)をあまり反映しない (M-m) 2 TV1 = Σ |sd(u,v) - ntd(u,v)| N(N-1)

38 先行研究.結果 (M-CT) S(T) = (M-m) 2 TV1 = Σ |sd(u,v) - ntd(u,v)| N(N-1)
Quartet-Methodはsd(u,v)をあまり反映しない (M-m) 2 TV1 = Σ |sd(u,v) - ntd(u,v)| TVはNJ法がよかった N(N-1)

39 目次 1.はじめに 2.研究項目 3.研究結果 4.考察、今後の課題 1.1背景 1.2先行研究 1.3研究動機 1.4研究概要
2.1余弦類似度 2.2木の評価 3.研究結果 4.考察、今後の課題

40 研究動機   S(T)値 信頼できる??   TV1    情報が失われているかも 情報が失われず信頼できる評価方法はないか??

41 研究動機 情報が失われず信頼できる評価方法はないか??   S(T)値 信頼できる?? ベクトルで類似度判定を行う余弦類似度

42 目次 1.はじめに 2.研究項目 3.研究結果 4.考察、今後の課題 1.1背景 1.2先行研究 1.3研究動機 1.4研究概要
2.1余弦類似度 2.2木の評価 3.研究結果 4.考察、今後の課題

43 研究概要 本研究 ・余弦類似度を用いた分類木の新たな評価法 以上から木の評価の精度をあげる

44 研究概要 本研究 ・余弦類似度を用いた分類木の新たな評価法 以上から木の評価の精度をあげる   ・従来の前処理のデータと符号化されたデータの比較       

45 目次 1.はじめに 2.研究項目 3.研究結果 4.考察、今後の課題 1.1背景 1.2先行研究 1.3研究動機 1.4研究概要
2.1余弦類似度 2.2木の評価 3.研究結果 4.考察、今後の課題

46 ベクトルpとベクトルqの余弦を計算して 2つのベクトルの類似度で評価する
余弦類似度 ベクトルpとベクトルqの余弦を計算して 2つのベクトルの類似度で評価する COS(p,q) = <p, q> |p | ・| q| = 1 > > = 0

47 ベクトルpとベクトルqの余弦を計算して 2つのベクトルの類似度で評価する 入力:sd距離表,ntd距離表 出力: 0から1の値
余弦類似度 ベクトルpとベクトルqの余弦を計算して 2つのベクトルの類似度で評価する 入力:sd距離表,ntd距離表 出力: 0から1の値 COS(p,q) = <p, q> |p | ・| q|

48 目次 1.はじめに 2.研究項目 3.研究結果 4.考察、今後の課題 1.1背景 1.2先行研究 1.3研究動機 1.4研究概要
2.1余弦類似度 2.2木の評価 3.研究結果 4.考察、今後の課題

49 木の評価.定義値 (M-CT) S(T) = (M-m) 2 TV1 = Σ |sd(u,v) - ntd(u,v)| N(N-1)
平均値 TV1 = Σ |sd(u,v) - ntd(u,v)| N(N-1) 2乗和の平方根 TV2 = √Σ(sd(u,v) - ntd(u,v)) 2

50 木の評価.定義値 (M-CT) S(T) = (M-m) 2 TV1 = Σ |sd(u,v) - ntd(u,v)| N(N-1)
平均値 TV1 = Σ |sd(u,v) - ntd(u,v)| N(N-1) 2乗和の平方根 TV2 = √Σ(sd(u,v) - ntd(u,v)) 2 <sd(u,v)・ntd(u,v)> CV : COSθ= 余弦類似度 ||sd(u,v) || ・|| ntd(u,v)||

51 木の評価.定義値 (M-CT) S(T) = (M-m) 2 TV1 = Σ |sd(u,v) - ntd(u,v)| N(N-1)
平均値 TV1 = Σ |sd(u,v) - ntd(u,v)| N(N-1) 2乗和の平方根 TV2 = √Σ(sd(u,v) - ntd(u,v)) 2 <sd(u,v)・ntd(u,v)> CV : COSθ= 余弦類似度 ||sd(u,v) || ・|| ntd(u,v)|| TVは 値が0に,S(T),CV は1に近い程sdをより反映したグラフ

52 目次 1.はじめに 2.研究項目 3.研究結果 4.考察、今後の課題 1.1背景 1.2先行研究 1.3研究動機 1.4研究概要
2.1余弦類似度 2.2木の評価 3.研究結果 4.考察、今後の課題

53 3. 符号化無し{S(T)値} (M-CT) S(T) = (M-m) preprocess2 NJ法 0.487411 0.482618
UPGMA Quartet-Method

54 3. 符号化無し(差の平均) 2 TV1 = Σ |sd(u,v) - ntd(u,v)| N(N-1) preprocess2 NJ法
UPGMA Quartet-Method

55 3. 符号化無し(2乗和の平方根) TV2 = √Σ(sd(u,v) - ntd(u,v)) preprocess2 NJ法 4.98775
UPGMA Quartet-Method

56 3. 符号化無し(余弦類似度) <sd(u,v)・ntd(u,v)> CV : COSθ=
preprocess1 preprocess2 NJ法 UPGMA Quartet-Method

57 3. 符号化{S(T)値} (M-CT) S(T) = (M-m) preprocess1 preprocess2 b=8 b=16 NJ法
UPGMA Quartet-Method

58 3. 符号化(差の平均) 2 TV1 = Σ |sd(u,v) - ntd(u,v)| N(N-1) preprocess1
b=8 b=16 NJ法 UPGMA Quartet-Method

59 3. 符号化(2乗和の平方根) TV2 = √Σ(sd(u,v) - ntd(u,v)) preprocess1 preprocess2
b=8 b=16 NJ法 2.8588 4.0197 UPGMA Quartet-Method

60 3. 符号化(余弦類似度) <sd(u,v)・ntd(u,v)> CV : COSθ=
preprocess1 preprocess2 b=8 b=16 NJ法 UPGMA Quartet-Method

61 3. 結果一覧(符号化無し) preprocess1 S(T) TV1 TV2 CV NJ法 0.427187 0.15427 1.8345
UPGMA Quartet-Method preprocess2 S(T) TV1 TV2 CV NJ法 UPGMA Quartet-Method 12.389

62 3. 結果一覧(符号化-前処理1) rice/b=8 preprocess1 S(T) TV1 TV2 CV NJ法 0.576013
UPGMA Quartet-Method rice/b=16 preprocess1 S(T) TV1 TV2 CV NJ法 UPGMA Quartet-Method

63 3. 結果一覧(符号化-前処理2) rice/b=8 preprocess2 S(T) TV1 TV2 CV NJ法 0.49459
UPGMA Quartet-Method rice/b=16 preprocess2 S(T) TV1 TV2 CV NJ法 UPGMA Quartet-Method

64 目次 1.はじめに -背景 -先行研究 -研究動機 -研究概要 2.研究項目 -余弦類似度 -木の評価 3.研究結果 4.考察、今後の課題

65 4. 考察 余弦類似度でも2007年度研究と同じで NJ法の評価値が一番よかった ・過去の研究から3つののクラスタリングの中では
前処理2の評価値が前処理1よりよい ・50音順より使用頻度順のデータの方が圧縮後の  ファイルサイズが小さくなったと考えられるため 符号化すると評価値がよくなった ・符号化することにより圧縮前のファイルサイズが小さく  なったと考えられるため ライス符号のb=16のとき評価が最もよくなった  ・パラメータを大きくしたことにより   更に圧縮前のファイルサイズが小さくなったと考えられるため

66 4. 今後の課題 Nj法 UPGMA法 Quartet Methodの 系統樹作成クラスタリング以外でも 評価値を出す
(例:連結クラスタリング)

67 御清聴ありがとうございます

68 1. はじめに-先行研究 過去の入力 2007年 音声ファイルを人が聞いてそれを手作業でテキスト化したもの
2007年 音声ファイルを人が聞いてそれを手作業でテキスト化したもの   ・とてもよい結果が出たが、以下の2点の問題があった  -テキスト化に人間が介入している  -方言で重要なはずの音声情報を全て捨てている 2008年 テキスト化に「ドラゴンスピーチ」ソフトを使い自動的にテキ スト化したもの    ・2007年研究より良くない結果となった 2009年 テキストのみのデータに加え音声情報(ピッチを付加したもの)      ・2007年研究より良くない結果となった

69 1. はじめに-目的 昨年の研究結果ではピッチの有用性を十分に確認出 来なかった
本研究では2008年研究のテキストファイルをもとに 新たな研究項目を追加する

70 1.はじめに-研究概要 本研究の手順 方言桃太郎(音源) テキストファイル 前処理 ライス符号を用いて符号化 類似度距離
系統樹をつくるクラスタリング法 余弦類似度を用いた木の評価

71 1.はじめに-研究概要 本研究の手順 方言桃太郎(音源) テキストファイル 前処理+ライス符号 類似度距離 系統樹作成クラスタリング
余弦類似度を用いた木の評価

72 研究動機 S(T)値はQuartet Method以外では 評価値が同一になり正当に評価されてい る のか疑わしい
  TV1 差の平均を求めているが   平均では情報に大きなバラツキがあると   情報が失われてしまう


Download ppt "圧縮類似度を用いた方言の自動分類 ~ライス符号を用いた前処理~ ~連結クラスタリング法~ ~余弦類似度を用いた方言分類木の評価~"

Similar presentations


Ads by Google