VI-7 連続分布(面データ)を分析する方法
VI-7.1 可視化 面データの可視化には,普通はコロプレス地図(属性値を色分けによって表したもの)が用いられる.
注意点 1) 属性の境界値の取り方によって見え方が異なる 2) 領域の取り方によって見え方が異なる
場合によっては,面データの元々の境界線ではなくラスター化したものを用いることもある.ラスターデータの場合,領域の大きさが同じであるため,視覚的な錯覚を起こしにくいと言う利点がある(一般に,大きな領域の値は強調されて見える).
その他,カーネル法による平滑化や,鳥瞰図による表現が用いられることもある.
VI-7.2 join統計量(空間的自己相関1) 面データの分析における大きな関心 ・・・空間的自己相関(spatial autocorrelation)
空間的自己相関とは, 単一のオブジェクト分布における空間的近接性と属性の類似性の関係を記述する概念 正の空間的自己相関・・・空間的に近いオブジェクト同士ほど類似した属性を持つ(似たもの同士が集まっている)状態 負の空間的自己相関・・・空間的に近いオブジェクト同士ほど異なる属性を持つ(似たもの同士が避け合っている)状態
正 負 なし 空間的自己相関
正 負 なし 空間的自己相関
空間的自己相関を分析するには,オブジェクトの位置と属性を同時に考えなければならない.従って,点パターン分析などの方法では十分ではない.
join統計量は,空間的自己相関の中でも最も単純なものを扱う.即ち, 1) 空間データは正方形セルのラスターデータに限られる 2) 各オブジェクトの属性は2値(白と黒など)しか取り得ない という場合にのみ適用可能である.
このようなデータについて, 1) 白は白同士,黒は黒同士集まっている(正の空間的自己相関) 2) 白,黒,それぞれ分かれて分布している(負の空間的自己相関) 3) 特定の傾向を持たない(空間的自己相関がない) のどれに当てはまるかを考える.
正 負 なし 空間的自己相関
方法 全ての隣接する(上下左右)セル対のうち,白黒の対になっているものを数える(この数をNとする). Nが小・・・正の自己相関 Nが大・・・負の自己相関
N=45 N=104 N=80 ランダム分布の場合:E[N]=75.40
Nの大きさを相対的に評価するには,特定の傾向が存在しない場合,即ち,白と黒がランダムに割り当てられている場合を考えればよい. 領域内の白と黒の数をそれぞれwとb,領域の縦横のセル数をそれぞれcとrとする.もちろん, w+b=c r である.
すると,白と黒がランダムに割り当てられている場合のNの期待値は,
さらに,セルの数が比較的大きい場合には,Nの値を統計的に検定することができる.白と黒がランダムに割り当てられている場合には,Nの確率分布は正規分布で近似され,その分散V[N]は となる.但し,
従って,統計量 が十分大きな値を示せば,同じ色のセル同士が集まると結論することができる.なお,上の式で0.5を引いているのは, Nが整数値しか取らないことを考慮し,調整するためである.
なお,join統計量は,隣接関係を上下左右の4方向ではなく,斜めを加えた8方向にしてもほぼ同様に用いることができる.
join統計量の注意点 1) 領域の設定,セルの大きさによって結果が異なる. 2) セル数が十分多い必要がある.
join統計量の応用(多値属性を持つ場合) ・・・コンビニエンスストアの競合関係
コンビニエンスストアの商圏は,ボロノイダイアグラムによってほぼ近似できる.商圏の隣接している店舗同士は,ある意味で競合関係にあると言って良い.従って,ボロノイダイアグラムの双対グラフであるドローネ三角網の各リンクの両端にある店舗を調べることで,店舗間,さらにはチェーン間の競合の様子が分析できる.
全店舗数:N 各チェーンの店舗数:N1, N2, …, Nm ドローネ三角網のリンク数:L 両端がそれぞれチェーンi,jというリンクの数:nij nijの大きいチェーンi,jの組み合わせが,競合の多いコンビニエンスストアチェーンといえる.
一方,各点にチェーンをランダムに割り当てるとき, nijの期待値E[nij]は
東京都練馬区におけるコンビニエンスストアの分布 ファミリーマート セブン・イレブン ローソン その他 東京都練馬区におけるコンビニエンスストアの分布
ファミリーマート セブン・イレブン ローソン その他 コンビニエンスストア間の競合関係
コンビニエンスストアチェーン間の競合関係 ファミリー マート セブン・ イレブン ローソン その他 ファミリーマート 0.846 1.200 1.263 1.056 セブン・イレブン 0.625 0.818 0.939 ローソン 0.666 0.969 その他 0.973 コンビニエンスストアチェーン間の競合関係
なお,統計的検定はモンテカルロシミュレーションによって行う.
join統計量の問題点 1) 属性が二値に限定される. 2) セルが全て合同である. 3) 2つのセルの隣接関係にのみ依存し,距離によらない.
VI-7.3 Moran’s I統計量(空間的自己相関2) join統計量の3つの問題点を解決する. 1) 連続量を属性として扱うことができる. 2) セルの形や大きさに制約がない(オブジェクトは点や線でも良い) 3) 2つのオブジェクト間の関係を様々に定義することができる,
領域数:n 領域iの属性値:xi 領域iと領域jの間の距離:dij
Moran’s Iの変域 Iが1に近い・・・ 正の空間的自己相関(距離の近い領域ほど属性値が近い) Iが-1に近い・・・ 負の空間的自己相関
なお, Moran’s Iの計算に用いられる領域間距離dijは,どのような距離を用いてもかまわない.実際, Moran’s Iの定義は とも書かれる(ここで,Aijは領域iと領域jの近接性を表す).
Moran’s Iの計算に用いられる領域間距離dijの例 重心間距離の逆数,その2乗の逆数 最短距離 隣接していれば0,離れていれば1 平均距離 ネットワーク距離 時間距離
Moran’s Iは,面データだけではなく点データや線データにも適用可能である.要は,オブジェクトの属性とオブジェクト間の近接性が定義されている対象であればよい.
I=0.910 I=-0.797 I=-0.052 ランダム分布の場合:E[I]=-0.071 7 6 6 6 7 1 7 6 1 6 3 4 3 5 4 5 6 6 6 5 5 3 3 7 2 3 3 5 3 6 6 1 2 4 6 2 5 6 7 5 I=0.910 I=-0.797 I=-0.052 ランダム分布の場合:E[I]=-0.071
Moran’s Iの統計的検定 ・・・各領域に属性値をランダムに割り当てる,という状態を考える.このとき, Iの期待値は である.
一方,Iの分散は 但し,
そして, Moran’s Iは近似的に正規分布 に従うので,統計的検定が可能である.
Moran’s Iの注意点 近接度を表す変数の設定が重要である.自由度が大きい分,分析対象に適した変数を選ぶのが難しいという面がある.
VI-8 その他の分析方法
1) 連続分布と点分布の関係
2) 2つの連続分布間の関係
3) 連続分布と点分布の関係
4) 多数の点分布間の関係
VI-9 空間データマイニング 大量の空間データの中から,有益な情報やパターンをコンピュータによって半自動的に見つける方法 コンピュータ性能の向上に伴って,ここ数年急速に研究が進んでいる.
空間クラスタリング 分類 規則発見
VI-10 今後必要とされる分析方法
1) より多様な点パターンの記述方法
2) より多様な分布間関係の記述方法
3) 時間を含めたパターン記述・分析方法