圧縮類似度を用いた方言の自動分類 ~ライス符号を用いた前処理~ ~連結クラスタリング法~ ~余弦類似度を用いた方言分類木の評価~

Slides:



Advertisements
Similar presentations
画像処理・実習 第十四回:パターン認識 東海大学 情報理工学部 情報メディア学科 濱本和彦. 今回の内容 5. パターン認識 5.1 マッチングの原理 5.2 テンプレートマッチング 実習 相互相関とテンプレートマッチング.
Advertisements

果物識別 補足資料 1. やりたい事  入力された画像内に映っている果物が何かを自動判 別するプログラムを組むこと 識別器 りんご です.
静岡大学情報学研究科 戸根木千洋 ユーザーイメージ収集 インターフェースの開発. 2 目次 背景と目的 研究の構成 研究の詳細 イメージ収集インターフェースの提案 映画イメージ収集システムの開発 システムの評価 今後の課題.
1 変量データの記述 (度数分布表とヒストグラム) 経済データ解析 2009 年度後 期. あるクラスのテストの点数が次のように なっていたとする。 このように出席番号と点数が並んでいるものだけでは、 このクラスの特徴がわかりづらい。 → このクラスの特徴がわかるような工夫が必要 → このクラスの特徴がわかるような工夫が必要.
生物統計学・第 4 回 比べる準備をする 平均、分散、標準偏差、標準誤差、標準 化 2015 年 10 月 20 日 生命環境科学域 応用生命科学類 尾形 善之.
コンピュータプラクティ スⅠ アンケート 水野嘉明 1. 本日の予定 「アンケート」  人間的な要因を評価するための 一手段として、アンケートの方 法について学ぶ  実験では、アンケートの集計を 行う 2.
学事予算の支出状況表作成に 係る業務の効率化 教学部 高輪教学課 加藤美博. 目 次 ①背景 ②財務情報システムの現状 ③これまでの取り組み ④新たな改善事項 ⑤効果.
ユーザーイメージ収集 インターフェイスの開発
白井ゼミ 豊田秀樹(2008)『データマイニング入門』 (東京図書)。4章
3次元nクイーン問題の 解に関する研究 論理工学研究室 伊藤精一
UECコンピュータ大貧民大会 参加後の考察
平成14年2月8日 卒業研究報告 相関行列に基づく非計量多次元尺度法 に関する研究
最新ファイルの提供を保証する代理FTPサーバの開発
点対応の外れ値除去の最適化によるカメラの動的校正手法の精度向上
パネル型クエリ生成インタフェース画像検索システムの改良
データモデリング 推薦のための集合知プログラミング.
アジア開発銀行(ADB)の 融資による途上国の経済成長への影響
「絵葉書を通じてのハルビンの 街の印象調査」システムUIの iPadアプリ化 谷研究室  飯 祐貴.
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
神奈川大学大学院工学研究科 電気電子情報工学専攻
遺伝アルゴリズムによる NQueen解法 ~遺伝補修飾を用いた解探索の性能評価~
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
臨床統計入門(3) 箕面市立病院小児科  山本威久 平成23年12月13日.
プログラムの動作を理解するための技術として
動的ハフマン符号化の例 入力:ABCDEからなる文字列 出力:動的に作ったハフマン木.
日本大学 文理学部 情報システム解析学科 谷研究室 益田真太郎
1変量データの記述 経済データ解析 2006年度.
リファクタリングのための 変更波及解析を利用した テスト支援ツールの提案
プログラミング入門2 総合演習課題 2008年 1/7, 1/21 実施 これまでの講義内容についての腕試し
果物識別 マハラノビス距離を求める.
プログラム実行履歴を用いたトランザクションファンクション抽出手法
MPIによるwavからmp3圧縮の検証 情報論理工学研究室 04‐1‐47‐200 木村 惇一.
Fuzzy c-Means法による クラスター分析に関する研究
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
決定木とランダムフォレスト 和田 俊和.
動的依存グラフの3-gramを用いた 実行トレースの比較手法
グラフアルゴリズムの可視化 数理科学コース 福永研究室 高橋 優子 2018/12/29.
中京大学 情報理工学部 機械情報学科 H 野口裕司
Internet広域分散協調サーチロボット の研究開発
ソースコードの特徴量を用いた機械学習による メソッド抽出リファクタリング推薦手法
2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典.
生  物  数  学 斉木 里恵.
GPSを使わないBebop Droneの 自動飛行
決定木 Decision Tree DT 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
ILC実験における ヒッグス・ポータル模型での ヒッグス事象に関する測定精度の評価
プログラミング入門2 総合演習課題 2008年 12/22(月), 2009年 1/14(水) 実施 これまでの講義内容についての腕試し
コードクローン分類の詳細化に基づく 集約パターンの提案と評価
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
Wavelet係数の局所テクスチャ特徴量を用いたGraph Cutsによる画像セグメンテーション
ソフトウェアプロダクト集合に対する 派生関係木の構築
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
C9 石橋を叩いて渡るか? ~システムに対する信頼度評価~
設計情報の再利用を目的とした UML図の自動推薦ツール
発表32 レポート評価支援について (剽窃部分と指導箇所の検出)
クローン検出ツールを用いた ソフトウェアシステムの類似度調査
メソッドの同時更新履歴を用いたクラスの機能別分類法
A-17 検索履歴のプライバシーを秘匿した ユーザクラスタリング
1変量データの記述 (度数分布表とヒストグラム)
臨床統計入門(1) 箕面市立病院小児科  山本威久 平成23年10月11日.
分枝カット法に基づいた線形符号の復号法に関する一考察
音響伝達特性を用いたシングルチャネル音源方向推定
Webページタイプによるクラスタ リングを用いた検索支援システム
ゴールドバッハ予想と その類似における組み合わせ数
ベイジアンネットワークと クラスタリング手法を用いたWeb障害検知システムの開発
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
空間図形の取り扱いについて.
Presentation transcript:

圧縮類似度を用いた方言の自動分類 ~ライス符号を用いた前処理~ ~連結クラスタリング法~ ~余弦類似度を用いた方言分類木の評価~ 日本大学文理学部 情報システム解析学科 谷 研究室 本荘 智則 佐藤 雄太 益田 真太郎

1.はじめに-研究概要 本研究の手順 方言桃太郎(音源) テキストファイル 前処理+ライス符号 類似度距離 系統樹作成クラスタリング 方言分類木の評価

目次 1.はじめに 2.研究項目 3.研究結果 4.考察、今後の課題 1.1背景 1.2先行研究 1.3研究動機 1.4研究概要 2.1余弦類似度 2.2木の評価 3.研究結果 4.考察、今後の課題

目次 1.はじめに 2.研究項目 3.研究結果 4.考察、今後の課題 1.1背景 1.2先行研究 1.3研究動機 1.4研究概要 2.1余弦類似度 2.2木の評価 3.研究結果 4.考察、今後の課題

背景 NJ法 UPGMA法 Quartet Methodの 3種類でグラフを作成 3種類のどれがより良い分類をしているだろうか???

視覚的な比較

背景 3種類のどれが木として より類似度距離を反映しているか グラフを見ても客観的には分からない

背景 3種類のどれが木として より類似度距離を反映しているか グラフを見ても客観的には分からない 3種類のグラフでどれが木として類似度距離をより反映しているか?

背景 3種類のグラフでどれが木として類似度距離をより反映しているか?

背景 3種類のグラフでどれが木として類似度距離をより反映しているか? 反映しているか評価する値を定義し 客観的な木の評価を行う

背景 2007年度谷研究室在籍の堀中氏の先行研究 3種類のグラフでどれが類似度距離をより反映しているか?? 反映しているか評価する値を定義し 客観的な木の評価を行う

目次 1.はじめに 2.研究項目 3.研究結果 4.考察、今後の課題 1.1背景 1.2先行研究 1.3研究動機 1.4研究概要 2.1余弦類似度 2.2木の評価 3.研究結果 4.考察、今後の課題

先行研究.木の距離定義

先行研究.木の距離定義 td(u,v)を類似度の距離に対応させた距離を グラフを見た場合の距離 sd(u,v):類似度距離とする ノードの辺の数を距離と したもの sd(u,v):類似度距離とする td(u,v)を類似度の距離に対応させた距離を ntd(u,v) とする

先行研究.木の距離定義 td(u,v)を類似度の距離に対応させた距離を なぜntd(u,v)を定義する? グラフを見た場合の距離 ノードの辺の数を距離と したもの sd(u,v):類似度距離とする td(u,v)を類似度の距離に対応させた距離を ntd(u,v) とする なぜntd(u,v)を定義する?

先行研究.木の距離定義 td(u,v)を類似度の距離に対応させた距離を なぜntd(u,v)を定義する? グラフを見た場合の距離 ノードの辺の数を距離と したもの sd(u,v):類似度距離とする td(u,v)を類似度の距離に対応させた距離を ntd(u,v) とする なぜntd(u,v)を定義する? td(u,v):グラフで定まる sd(u,v):距離表で定まる

先行研究.木の距離定義 td(u,v)を類似度の距離に対応させた距離を なぜntd(u,v)を定義する? グラフを見た場合の距離 ノードの辺の数を距離と したもの sd(u,v):類似度距離とする td(u,v)を類似度の距離に対応させた距離を ntd(u,v) とする なぜntd(u,v)を定義する? td(u,v):グラフで定まる sd(u,v):距離表で定まる 木における距離td(u,v)を類似度距離sd(u,v)に対応させることで 木が類似度距離にどれ位反映しているか検証できるから

先行研究.木の距離定義 グラフを見た場合の距離 E F td(u,v):グラフ間の ノードの辺の    数を距離としたもの A C D B

先行研究.木の距離定義 グラフを見た場合の距離 E F td(u,v):グラフ間の ノードの辺の 数を距離としたもの td(A,E)=4 A C D B

先行研究.木の距離定義 グラフを見た場合の距離 td(u,v)を類似度の距離に対応させた距離を ntd(u,v) とする

先行研究.木の距離定義 td(u,v)を類似度の距離に対応させた距離を グラフを見た場合の距離 ntd(u,v) とする sd(u,v):類似度距離

先行研究.木の距離定義 td(u,v)を類似度の距離に対応させた距離を グラフを見た場合の距離 ntd(u,v) とする max(sd):sd(u,v)の最大値 min(sd):sd(u,v)の最小値 max(td):td(u,v)の最大値 min(td):td(u,v)の最大値 sd(u,v):類似度距離

先行研究.木の距離定義 td(u,v)を類似度の距離に対応させた距離を グラフを見た場合の距離 ntd(u,v) とする max(sd):sd(u,v)の最大値 min(sd):sd(u,v)の最小値 max(td):td(u,v)の最大値 min(td):td(u,v)の最大値 sd(u,v):類似度距離 max(sd)-min(sd) ntd(u,v)= min(sd)+ (td(u,v)-min(td)) max(td)-min(td)

先行研究.木の距離定義 グラフを見た場合の距離 td(u,v)を類似度距離に対応させた距離を ntd(u,v)とする E F A B C D

先行研究.木の距離定義 グラフを見た場合の距離 td(u,v)を類似度距離に対応させた距離を ntd(u,v)とする E F max(sd):17 min(sd):5 max(td):4 min(td):2 A B C D

先行研究.木の距離定義 グラフを見た場合の距離 td(u,v)を類似度距離に対応させた距離を ntd(u,v)とする max(sd):17 min(sd):5 max(td):4 min(td):2 E F max(sd)-min(sd) 12 = = 6 max(td)-min(td) 2 A B C D

先行研究.木の距離定義 グラフを見た場合の距離 td(u,v)を類似度距離に対応させた距離を ntd(u,v)とする max(sd):17 min(sd):5 max(td):4 min(td):2 E F ntd(A,E):5+6(4-2)=5+12=17 A B C D

先行研究.木の評価の定義値 (M-CT) S(T) = (M-m) 2 TV1 = Σ |sd(u,v) - ntd(u,v)| 平均値 TV1 = Σ |sd(u,v) - ntd(u,v)| N(N-1) 2乗和の平方根 TV2 = √Σ(sd(u,v) - ntd(u,v)) 2 sd(u,v):類似度距離

先行研究.{S(T)値} 1 (M-CT) S(T) = (M-m) M :maximum cost m :minimum cost CT :total cost 最高 最悪 1 木:TのS(T)

先行研究.木の評価の定義値 (M-CT) S(T) = (M-m) 2 TV1 = Σ |sd(u,v) - ntd(u,v)| 平均値 TV1 = Σ |sd(u,v) - ntd(u,v)| N(N-1) 2乗和の平方根 TV2 = √Σ(sd(u,v) - ntd(u,v)) 2 sd(u,v):類似度距離 TVは 値が0に,S(T)は1に近い程sd(u,v)をより反映したグラフ

先行研究.{S(T)値} (M-CT) S(T) = (M-m)

先行研究.(差の平均) 2 TV1 = Σ |sd(u,v) - ntd(u,v)| N(N-1)

先行研究.(差の平均) 2 TV1 = Σ |sd(u,v) - ntd(u,v)| N(N-1)

先行研究.(2乗和の平方根) 2 TV2 = √Σ(sd(u,v) - ntd(u,v))

先行研究.(2乗和の平方根) 2 TV2 = √Σ(sd(u,v) - ntd(u,v))

先行研究.結果 (M-CT) S(T) = (M-m) 2 TV1 = Σ |sd(u,v) - ntd(u,v)| N(N-1)

先行研究.結果 (M-CT) S(T) = (M-m) 2 TV1 = Σ |sd(u,v) - ntd(u,v)| N(N-1) Quartet-Methodはsd(u,v)をあまり反映しない (M-m) 2 TV1 = Σ |sd(u,v) - ntd(u,v)| N(N-1)

先行研究.結果 (M-CT) S(T) = (M-m) 2 TV1 = Σ |sd(u,v) - ntd(u,v)| N(N-1) Quartet-Methodはsd(u,v)をあまり反映しない (M-m) 2 TV1 = Σ |sd(u,v) - ntd(u,v)| TVはNJ法がよかった N(N-1)

目次 1.はじめに 2.研究項目 3.研究結果 4.考察、今後の課題 1.1背景 1.2先行研究 1.3研究動機 1.4研究概要 2.1余弦類似度 2.2木の評価 3.研究結果 4.考察、今後の課題

研究動機   S(T)値 信頼できる??   TV1    情報が失われているかも 情報が失われず信頼できる評価方法はないか??

研究動機 情報が失われず信頼できる評価方法はないか??   S(T)値 信頼できる?? ベクトルで類似度判定を行う余弦類似度

目次 1.はじめに 2.研究項目 3.研究結果 4.考察、今後の課題 1.1背景 1.2先行研究 1.3研究動機 1.4研究概要 2.1余弦類似度 2.2木の評価 3.研究結果 4.考察、今後の課題

研究概要 本研究 ・余弦類似度を用いた分類木の新たな評価法 以上から木の評価の精度をあげる

研究概要 本研究 ・余弦類似度を用いた分類木の新たな評価法 以上から木の評価の精度をあげる   ・従来の前処理のデータと符号化されたデータの比較       

目次 1.はじめに 2.研究項目 3.研究結果 4.考察、今後の課題 1.1背景 1.2先行研究 1.3研究動機 1.4研究概要 2.1余弦類似度 2.2木の評価 3.研究結果 4.考察、今後の課題

ベクトルpとベクトルqの余弦を計算して 2つのベクトルの類似度で評価する 余弦類似度 ベクトルpとベクトルqの余弦を計算して 2つのベクトルの類似度で評価する COS(p,q) = <p, q> |p | ・| q| = 1 > > = 0

ベクトルpとベクトルqの余弦を計算して 2つのベクトルの類似度で評価する 入力:sd距離表,ntd距離表 出力: 0から1の値 余弦類似度 ベクトルpとベクトルqの余弦を計算して 2つのベクトルの類似度で評価する 入力:sd距離表,ntd距離表 出力: 0から1の値 COS(p,q) = <p, q> |p | ・| q|

目次 1.はじめに 2.研究項目 3.研究結果 4.考察、今後の課題 1.1背景 1.2先行研究 1.3研究動機 1.4研究概要 2.1余弦類似度 2.2木の評価 3.研究結果 4.考察、今後の課題

木の評価.定義値 (M-CT) S(T) = (M-m) 2 TV1 = Σ |sd(u,v) - ntd(u,v)| N(N-1) 平均値 TV1 = Σ |sd(u,v) - ntd(u,v)| N(N-1) 2乗和の平方根 TV2 = √Σ(sd(u,v) - ntd(u,v)) 2

木の評価.定義値 (M-CT) S(T) = (M-m) 2 TV1 = Σ |sd(u,v) - ntd(u,v)| N(N-1) 平均値 TV1 = Σ |sd(u,v) - ntd(u,v)| N(N-1) 2乗和の平方根 TV2 = √Σ(sd(u,v) - ntd(u,v)) 2 <sd(u,v)・ntd(u,v)> CV : COSθ= 余弦類似度 ||sd(u,v) || ・|| ntd(u,v)||

木の評価.定義値 (M-CT) S(T) = (M-m) 2 TV1 = Σ |sd(u,v) - ntd(u,v)| N(N-1) 平均値 TV1 = Σ |sd(u,v) - ntd(u,v)| N(N-1) 2乗和の平方根 TV2 = √Σ(sd(u,v) - ntd(u,v)) 2 <sd(u,v)・ntd(u,v)> CV : COSθ= 余弦類似度 ||sd(u,v) || ・|| ntd(u,v)|| TVは 値が0に,S(T),CV は1に近い程sdをより反映したグラフ

目次 1.はじめに 2.研究項目 3.研究結果 4.考察、今後の課題 1.1背景 1.2先行研究 1.3研究動機 1.4研究概要 2.1余弦類似度 2.2木の評価 3.研究結果 4.考察、今後の課題

3. 符号化無し{S(T)値} (M-CT) S(T) = (M-m) preprocess2 NJ法 0.487411 0.482618 UPGMA Quartet-Method 0.347207 0.632892

3. 符号化無し(差の平均) 2 TV1 = Σ |sd(u,v) - ntd(u,v)| N(N-1) preprocess2 NJ法 0.106931 0.121357 UPGMA 0.153092 0.151837 Quartet-Method 0.294744 0.275692

3. 符号化無し(2乗和の平方根) TV2 = √Σ(sd(u,v) - ntd(u,v)) preprocess2 NJ法 4.98775 5.64342 UPGMA 6.42743 6.36746 Quartet-Method 13.8222 13.2202

3. 符号化無し(余弦類似度) <sd(u,v)・ntd(u,v)> CV : COSθ= preprocess1 preprocess2 NJ法 0.472792 0.494139 UPGMA 0.476677 0.49831 Quartet-Method 0.0254528 0.0270263

3. 符号化{S(T)値} (M-CT) S(T) = (M-m) preprocess1 preprocess2 b=8 b=16 NJ法 0.503624 0.508153 0.49763 0.474975 UPGMA Quartet-Method 0.828499 0.811279 0.819522 0.798682

3. 符号化(差の平均) 2 TV1 = Σ |sd(u,v) - ntd(u,v)| N(N-1) preprocess1 b=8 b=16 NJ法 0.643953 0.051637 0.0610053 0.831602 UPGMA 0.140783 0.0992494 0.199053 0.156328 Quartet-Method 0.803195 0.902535 0.855343 0.888123

3. 符号化(2乗和の平方根) TV2 = √Σ(sd(u,v) - ntd(u,v)) preprocess1 preprocess2 b=8 b=16 NJ法 3.12369 2.8588 4.0197 4.03721 UPGMA 5.69323 4.18645 8.14697 6.56131 Quartet-Method 32.6971 36.8786 34.7177 36.2311

3. 符号化(余弦類似度) <sd(u,v)・ntd(u,v)> CV : COSθ= preprocess1 preprocess2 b=8 b=16 NJ法 0.600193 0.849169 0.597294 0.626059 UPGMA 0.602148 0.850227 0.628886 0.762099 Quartet-Method 0.032723 0.0410279 0.0323438 0.0385313

3. 結果一覧(符号化無し) preprocess1 S(T) TV1 TV2 CV NJ法 0.427187 0.15427 1.8345 0.351619 UPGMA 0.245212 16.8321 0.0168566 Quartet-Method 0.41834 0.256335 12.4018 0.0199777 preprocess2 S(T) TV1 TV2 CV NJ法 0.351794 0.15508 1.85215 0.37094 UPGMA 0.21914 15.5783 0.0178468 Quartet-Method 0.504066 0.248758 12.389 0.0181531

3. 結果一覧(符号化-前処理1) rice/b=8 preprocess1 S(T) TV1 TV2 CV NJ法 0.576013 0.0643147 0.727892 0.50471 UPGMA 0.730638 29.7128 0.0245355 Quartet-Method 0.472181 0.294063 13.8375 0.0273412 rice/b=16 preprocess1 S(T) TV1 TV2 CV NJ法 0.465594 0.0573145 0.693105 0.822158 UPGMA 0.282483 20.4416 0.0392706 Quartet-Method 0.579318 0.372329 17.5248 0.0446572

3. 結果一覧(符号化-前処理2) rice/b=8 preprocess2 S(T) TV1 TV2 CV NJ法 0.49459 0.0933362 1.12188 0.725118 UPGMA 0.271887 19.6051 0.0345233 Quartet-Method 0.561546 0.360401 16.9093 0.0385271 rice/b=16 preprocess2 S(T) TV1 TV2 CV NJ法 0.439778 0.0712431 0.808413 0.847463 UPGMA 0.281534 20.4286 0.0402256 Quartet-Method 0.61914 0.390121 18.4503 0.0414795

目次 1.はじめに -背景 -先行研究 -研究動機 -研究概要 2.研究項目 -余弦類似度 -木の評価 3.研究結果 4.考察、今後の課題

4. 考察 余弦類似度でも2007年度研究と同じで NJ法の評価値が一番よかった ・過去の研究から3つののクラスタリングの中では 前処理2の評価値が前処理1よりよい ・50音順より使用頻度順のデータの方が圧縮後の  ファイルサイズが小さくなったと考えられるため 符号化すると評価値がよくなった ・符号化することにより圧縮前のファイルサイズが小さく  なったと考えられるため ライス符号のb=16のとき評価が最もよくなった  ・パラメータを大きくしたことにより   更に圧縮前のファイルサイズが小さくなったと考えられるため

4. 今後の課題 Nj法 UPGMA法 Quartet Methodの 系統樹作成クラスタリング以外でも 評価値を出す (例:連結クラスタリング)

御清聴ありがとうございます

1. はじめに-先行研究 過去の入力 2007年 音声ファイルを人が聞いてそれを手作業でテキスト化したもの 2007年 音声ファイルを人が聞いてそれを手作業でテキスト化したもの   ・とてもよい結果が出たが、以下の2点の問題があった  -テキスト化に人間が介入している  -方言で重要なはずの音声情報を全て捨てている 2008年 テキスト化に「ドラゴンスピーチ」ソフトを使い自動的にテキ スト化したもの    ・2007年研究より良くない結果となった 2009年 テキストのみのデータに加え音声情報(ピッチを付加したもの)      ・2007年研究より良くない結果となった

1. はじめに-目的 昨年の研究結果ではピッチの有用性を十分に確認出 来なかった 本研究では2008年研究のテキストファイルをもとに 新たな研究項目を追加する

1.はじめに-研究概要 本研究の手順 方言桃太郎(音源) テキストファイル 前処理 ライス符号を用いて符号化 類似度距離 系統樹をつくるクラスタリング法 余弦類似度を用いた木の評価

1.はじめに-研究概要 本研究の手順 方言桃太郎(音源) テキストファイル 前処理+ライス符号 類似度距離 系統樹作成クラスタリング 余弦類似度を用いた木の評価

研究動機 S(T)値はQuartet Method以外では 評価値が同一になり正当に評価されてい る のか疑わしい   TV1 差の平均を求めているが   平均では情報に大きなバラツキがあると   情報が失われてしまう