VI-7 連続分布(面データ)を分析する方法

Slides:



Advertisements
Similar presentations
生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
Advertisements

Lesson 9. 頻度と分布 §D. 正規分布. 正規分布 Normal Distribution 最もよく使われる連続確率分布 釣り鐘形の曲線 -∽から+ ∽までの値を取る 平均 mean =中央値 median =最頻値 mode 曲線より下の面積は1に等しい.
地図の重ね合わせに伴う 位相関係の矛盾訂正手法 萬上 裕 † 阿部光敏* 高倉弘喜 † 上林彌彦 ‡ 京都大学工学研究科 † 京都大学工学部 * 京都大学情報学研究科 ‡
地理情報システム論 第11回 GIS による処理技法 アドレスマッチングの利用 空間的分布の特徴の把握.
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
「わかりやすいパターン認識」 第1章:パターン認識とは
画像処理工学 2012年2月2日 担当教員 北川 輝彦.
重回帰分析入門 経済データ解析 2009年度.
Pattern Recognition and Machine Learning 1.5 決定理論
第4回 (10/16) 授業の学習目標 先輩の卒論の調査に協力する。 2つの定量的変数間の関係を調べる最も簡単な方法は?
重回帰分析入門 経済データ解析 2011年度.
神奈川大学大学院工学研究科 電気電子情報工学専攻
データ解析基礎 4. 正規分布と相関係数 keyword 正規分布(教科書:31ページ~38ページ) 正規分布の性質 偏差値
先端論文紹介ゼミ Role-based Context-specific Multiagent Q-learning
第2章補足Ⅱ 2項分布と正規分布についての補足
第3章 重回帰分析 ー 計量経済学 ー.
第3章 重回帰分析 ー 計量経済学 ー.
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
マイクロシミュレーションにおける 可変属性セル問題と解法
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
統計学 11/08(木) 鈴木智也.
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
5.5 The Linear Arboricity of Graphs (グラフの線形樹化数)
繰り返しのない二元配置の例 ヤギに与えると成長がよくなる4種類の薬(A~D,対照区)とふだんの餌の組み合わせ
スペクトル・時系列データの前処理方法 ~平滑化 (スムージング) と微分~
VI-5 線分布(ネットワークデータ)を分析する方法
母集団と標本:基本概念 母集団パラメーターと標本統計量 標本比率の標本分布
線形フィルタと畳み込み積分 マスクによる画像のフィルタリング 1.入力画像中の関心の画素のまわりの画素値
原子核物理学 第4講 原子核の液滴模型.
相関分析.
VI-3 異なる2つの点分布の関係を分析する方法
Fuzzy c-Means法による クラスター分析に関する研究
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
II. GISデータの種類と構造.
画像処理工学 2013年1月23日 担当教員 北川 輝彦.
音高による音色変化に着目した音源同定に関する研究
第14章 モデルの結合 修士2年 山川佳洋.
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
中澤 港 統計学第4回 中澤 港
生物統計学・第3回 全体を眺める(1) R、クラスタリング、ヒートマップ、各種手法
VIII. 空間情報表現.
都市・港湾経済学(総) 国民経済計算論(商)
VI. 空間解析.
主成分分析 Principal Component Analysis PCA
相互調整によるエージェントのクラスタ化: コンピュータシミュレーションによる検討
(昨年度のオープンコースウェア) 10/17 組み合わせと確率 10/24 確率変数と確率分布 10/31 代表的な確率分布
Data Clustering: A Review
部分的最小二乗回帰 Partial Least Squares Regression PLS
1.母平均の検定:小標本場合 2.母集団平均の差の検定
生物統計学・第3回 全体を眺める(2) クラスタリング、ヒートマップ
コードクローンの理解支援を目的としたコードクローン周辺コードの解析
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
第4章 統計的検定 (その2) 統計学 2006年度.
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
経営学研究科 M1年 学籍番号 speedster
第5回 確率変数の共分散 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
第9章 学習アルゴリズムとベイズ決定側 〔3〕最小2乗法とベイズ決定側 発表:2003年7月4日 時田 陽一
第3日目第4時限の学習目標 第1日目第3時限のスライドによる、名義尺度2変数間の連関のカイ2乗統計量についての復習
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
クローン検出ツールを用いた ソフトウェアシステムの類似度調査
1.基本概念 2.母集団比率の区間推定 3.小標本の区間推定 4.標本の大きさの決定
プログラミング論 相関
重回帰分析入門 (第5章補足) 統計学 2007年度.
回帰分析入門 経済データ解析 2011年度.
電磁気学C Electromagnetics C 7/10講義分 電気双極子による電磁波の放射 山田 博仁.
Presentation transcript:

VI-7 連続分布(面データ)を分析する方法

VI-7.1 可視化  面データの可視化には,普通はコロプレス地図(属性値を色分けによって表したもの)が用いられる.

注意点  1) 属性の境界値の取り方によって見え方が異なる  2) 領域の取り方によって見え方が異なる

 場合によっては,面データの元々の境界線ではなくラスター化したものを用いることもある.ラスターデータの場合,領域の大きさが同じであるため,視覚的な錯覚を起こしにくいと言う利点がある(一般に,大きな領域の値は強調されて見える).

 その他,カーネル法による平滑化や,鳥瞰図による表現が用いられることもある.

VI-7.2 join統計量(空間的自己相関1)  面データの分析における大きな関心    ・・・空間的自己相関(spatial autocorrelation)

空間的自己相関とは,  単一のオブジェクト分布における空間的近接性と属性の類似性の関係を記述する概念 正の空間的自己相関・・・空間的に近いオブジェクト同士ほど類似した属性を持つ(似たもの同士が集まっている)状態 負の空間的自己相関・・・空間的に近いオブジェクト同士ほど異なる属性を持つ(似たもの同士が避け合っている)状態

正 負 なし 空間的自己相関

正 負 なし 空間的自己相関

 空間的自己相関を分析するには,オブジェクトの位置と属性を同時に考えなければならない.従って,点パターン分析などの方法では十分ではない.

 join統計量は,空間的自己相関の中でも最も単純なものを扱う.即ち, 1) 空間データは正方形セルのラスターデータに限られる 2) 各オブジェクトの属性は2値(白と黒など)しか取り得ない  という場合にのみ適用可能である.

 このようなデータについて, 1) 白は白同士,黒は黒同士集まっている(正の空間的自己相関) 2) 白,黒,それぞれ分かれて分布している(負の空間的自己相関) 3) 特定の傾向を持たない(空間的自己相関がない) のどれに当てはまるかを考える.

正 負 なし 空間的自己相関

方法  全ての隣接する(上下左右)セル対のうち,白黒の対になっているものを数える(この数をNとする).   Nが小・・・正の自己相関   Nが大・・・負の自己相関

N=45 N=104 N=80 ランダム分布の場合:E[N]=75.40

 Nの大きさを相対的に評価するには,特定の傾向が存在しない場合,即ち,白と黒がランダムに割り当てられている場合を考えればよい.  領域内の白と黒の数をそれぞれwとb,領域の縦横のセル数をそれぞれcとrとする.もちろん,  w+b=c r である.

 すると,白と黒がランダムに割り当てられている場合のNの期待値は,

 さらに,セルの数が比較的大きい場合には,Nの値を統計的に検定することができる.白と黒がランダムに割り当てられている場合には,Nの確率分布は正規分布で近似され,その分散V[N]は となる.但し,

 従って,統計量 が十分大きな値を示せば,同じ色のセル同士が集まると結論することができる.なお,上の式で0.5を引いているのは, Nが整数値しか取らないことを考慮し,調整するためである.

 なお,join統計量は,隣接関係を上下左右の4方向ではなく,斜めを加えた8方向にしてもほぼ同様に用いることができる.

join統計量の注意点 1) 領域の設定,セルの大きさによって結果が異なる. 2) セル数が十分多い必要がある.

join統計量の応用(多値属性を持つ場合)  ・・・コンビニエンスストアの競合関係

 コンビニエンスストアの商圏は,ボロノイダイアグラムによってほぼ近似できる.商圏の隣接している店舗同士は,ある意味で競合関係にあると言って良い.従って,ボロノイダイアグラムの双対グラフであるドローネ三角網の各リンクの両端にある店舗を調べることで,店舗間,さらにはチェーン間の競合の様子が分析できる.

全店舗数:N 各チェーンの店舗数:N1, N2, …, Nm ドローネ三角網のリンク数:L 両端がそれぞれチェーンi,jというリンクの数:nij  nijの大きいチェーンi,jの組み合わせが,競合の多いコンビニエンスストアチェーンといえる.

 一方,各点にチェーンをランダムに割り当てるとき, nijの期待値E[nij]は

東京都練馬区におけるコンビニエンスストアの分布 ファミリーマート セブン・イレブン ローソン その他 東京都練馬区におけるコンビニエンスストアの分布

ファミリーマート セブン・イレブン ローソン その他 コンビニエンスストア間の競合関係

コンビニエンスストアチェーン間の競合関係 ファミリー マート セブン・ イレブン ローソン その他 ファミリーマート 0.846 1.200 1.263 1.056 セブン・イレブン 0.625 0.818 0.939 ローソン 0.666 0.969 その他 0.973 コンビニエンスストアチェーン間の競合関係

 なお,統計的検定はモンテカルロシミュレーションによって行う.

join統計量の問題点 1) 属性が二値に限定される. 2) セルが全て合同である. 3) 2つのセルの隣接関係にのみ依存し,距離によらない.

VI-7.3 Moran’s I統計量(空間的自己相関2)  join統計量の3つの問題点を解決する. 1) 連続量を属性として扱うことができる. 2) セルの形や大きさに制約がない(オブジェクトは点や線でも良い) 3) 2つのオブジェクト間の関係を様々に定義することができる,

領域数:n 領域iの属性値:xi 領域iと領域jの間の距離:dij

Moran’s Iの変域 Iが1に近い・・・  正の空間的自己相関(距離の近い領域ほど属性値が近い) Iが-1に近い・・・  負の空間的自己相関

 なお, Moran’s Iの計算に用いられる領域間距離dijは,どのような距離を用いてもかまわない.実際, Moran’s Iの定義は とも書かれる(ここで,Aijは領域iと領域jの近接性を表す).

Moran’s Iの計算に用いられる領域間距離dijの例 重心間距離の逆数,その2乗の逆数 最短距離 隣接していれば0,離れていれば1 平均距離 ネットワーク距離 時間距離

 Moran’s Iは,面データだけではなく点データや線データにも適用可能である.要は,オブジェクトの属性とオブジェクト間の近接性が定義されている対象であればよい.

I=0.910 I=-0.797 I=-0.052 ランダム分布の場合:E[I]=-0.071 7 6 6 6 7 1 7 6 1 6 3 4 3 5 4 5 6 6 6 5 5 3 3 7 2 3 3 5 3 6 6 1 2 4 6 2 5 6 7 5 I=0.910 I=-0.797 I=-0.052 ランダム分布の場合:E[I]=-0.071

Moran’s Iの統計的検定 ・・・各領域に属性値をランダムに割り当てる,という状態を考える.このとき, Iの期待値は である.

一方,Iの分散は 但し,

 そして, Moran’s Iは近似的に正規分布 に従うので,統計的検定が可能である.

Moran’s Iの注意点  近接度を表す変数の設定が重要である.自由度が大きい分,分析対象に適した変数を選ぶのが難しいという面がある.

VI-8 その他の分析方法

1) 連続分布と点分布の関係

2) 2つの連続分布間の関係

3) 連続分布と点分布の関係

4) 多数の点分布間の関係

VI-9 空間データマイニング  大量の空間データの中から,有益な情報やパターンをコンピュータによって半自動的に見つける方法  コンピュータ性能の向上に伴って,ここ数年急速に研究が進んでいる.

空間クラスタリング 分類 規則発見

VI-10 今後必要とされる分析方法

1) より多様な点パターンの記述方法

2) より多様な分布間関係の記述方法

3) 時間を含めたパターン記述・分析方法