中谷友樹 nakaya@lt.ritsumei.ac.jp 第4章 空間解析 9 空間相関分析 中谷友樹 nakaya@lt.ritsumei.ac.jp.

Slides:



Advertisements
Similar presentations
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
Advertisements

2016 年度 計量経済学 講義内容 担当者: 河田 正樹
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
データ分析入門(12) 第12章 単回帰分析 廣野元久.
寺尾 敦 青山学院大学社会情報学部 社会統計 第13回 重回帰分析(第11章後半) 寺尾 敦 青山学院大学社会情報学部
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
時系列の予測 時系列:観測値を時刻の順に並べたものの集合
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
補章 時系列モデル入門 ー 計量経済学 ー.
パネル分析について 中村さやか.
第3章 2変量データの記述 統計学基礎 2010年度.
重回帰分析入門 経済データ解析 2009年度.
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
実証分析の手順 経済データ解析 2011年度.
第4回 (10/16) 授業の学習目標 先輩の卒論の調査に協力する。 2つの定量的変数間の関係を調べる最も簡単な方法は?
第5章 回帰分析の諸問題(2) ー 計量経済学 ー.
Bassモデルにおける 最尤法を用いたパラメータ推定
重回帰分析入門 経済データ解析 2011年度.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
心理統計学 II 第7回 (11/13) 授業の学習目標 相関係数のまとめと具体的な計算例の復習 相関係数の実習.
Bias2 - Variance - Noise 分解
Bias2 - Variance - Noise 分解
質的データの分析手法 ---プロビットモデル・ロジットモデルの概要---
第3章 二つの変数の記述統計 二つの変数を対象として変数同士の関係を捉える 量的変数どうしの関係 質的変数どうしの関係.
寺尾 敦 青山学院大学社会情報学部 社会統計 第12回 重回帰分析(第11章前半) 寺尾 敦 青山学院大学社会情報学部
第3章 重回帰分析 ー 計量経済学 ー.
第3章 重回帰分析 ー 計量経済学 ー.
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
第5章 回帰分析入門 統計学 2006年度.
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
回帰モデル・クラス分類モデルを 評価・比較するための モデルの検証 Model validation
離婚が出生数に与える影響 -都道府県データを用いた計量分析
補章 時系列モデル入門 ー 計量経済学 ー.
スペクトル・時系列データの前処理方法 ~平滑化 (スムージング) と微分~
ガウス過程による回帰 Gaussian Process Regression GPR
相関分析.
データ解析 静岡大学工学部 安藤和敏
VII. 空間モデル.
第6章 連立方程式モデル ー 計量経済学 ー.
 統計学講義 第11回     相関係数、回帰直線    決定係数.
4章までのまとめ ー 計量経済学 ー.
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
T2統計量・Q統計量 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
主成分分析 Principal Component Analysis PCA
多変量解析 ~主成分分析~ 1.主成分解析とは 2.適用例と解析の目的 3.解析の流れ 4.変数が2個の場合の主成分分析
変換されても変換されない頑固ベクトル どうしたら頑固になれるか 頑固なベクトルは何に使える?
部分的最小二乗回帰 Partial Least Squares Regression PLS
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
第3章 線形回帰モデル 修士1年 山田 孝太郎.
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
経営学研究科 M1年 学籍番号 speedster
データ解析 静岡大学工学部 安藤和敏
データ解析 静岡大学工学部 安藤和敏
クロス表とχ2検定.
第5回 確率変数の共分散 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
回帰分析(Regression Analysis)
データ解析 静岡大学工学部 安藤和敏
重回帰分析入門 経済データ解析 2008年度.
Locally-Weighted Partial Least Squares LWPLS 局所PLS
重回帰分析入門 (第5章補足) 統計学 2007年度.
モデルの微分による非線形モデルの解釈 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
回帰分析入門 経済データ解析 2011年度.
第3章 統計的推定 (その2) 統計学 2006年度 <修正・補足版>.
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

中谷友樹 nakaya@lt.ritsumei.ac.jp 第4章 空間解析 9 空間相関分析 中谷友樹 nakaya@lt.ritsumei.ac.jp

ここで学ぶこと XとYの2変量をもった地理空間データセットにおいて、XとYの相関関係を分析する方法論を考える。 相関関係の計量化 空間的クロス相関・クロスバリオグラム 相関関係を利用したモデリング 空間的回帰モデル・空間的可変パラメターモデル

空間的クロス相関 spatial cross-correlation

2変量(xi, yi)のラティス・データ 地区1 x1, y1 地区2 x2, y2 地区i xi, yi

2変量の相関 (ラグ0のクロス相関) yi:地区iのyの値 xi:地区iのxの値 たとえ空間的なデータであっても、地区を1つの観測単位あるいはサンプルとみなすことで、XiとYiの2変量相関関係を、通常の統計学のテキスト通りに定義できる。これをラグ0のクロス相関と呼ぶことにしよう。ラグとは「遅れ」という意味であり、本来は時系列データ解析で、時間的な相関関係のずれを調べるために導入された概念である。 xi:地区iのxの値

(復習)ラグ1&2の空間的自己相関 ラグ1 ラグ2 地区iに隣接するセル のxの平均値 地区iのxの値 地区iに隣接するセル のxの平均値 xi, yi 地区iのxの値 地区iに隣接するセル のxの平均値 地区i xi, yi ラグ2 さて、わざわざ2変量の相関関係に、「クロス相関」の言葉をあてるのは、すでに学習した自己相関と区別するためである。空間的自己相関のもっとも簡単な例は、各セルのx値と隣接するセルのX平均値の相関関係であり、このような散布図をモラン散布図と呼ぶ。ここで、左側の図の縦軸にみられるような、1つ隣りのセルの値(ここでは平均値)を求める作業を、「ラグ1をとる」と言う。もし、「となりのとなり」を求める場合にはラグ2、「となりのとなりのとなり」であればラグ3。。。である。

ラグ1&2の空間的クロス相関 ラグ1 ラグ2 地区iに隣接するセル のyの平均値 地区iのxの値 地区iのとなりのとなり のyの平均値 xi, yi 地区iのxの値 地区iのとなりのとなり のyの平均値 地区i xi, yi ラグ2 先のラグ1および2の空間的自己相関と同様に、縦軸にプロットする指標を、隣接するセルのYの平均値にすれば、ラグ1の空間的クロス相関が定義できる。ラグ2の空間的クロス相関も同様である。

空間的自己相関係数とクロス相関係数 ピアソンの積率相関係数 モランのI(自己相関係数) 2変量 モラン(クロス相関係数) ここで、空間クロス相関係数を計量化する指数について考えてみよう。ここでnはサンプル数であり、σ(シグマ)記号は、それぞれの変数の標準偏差である。zからはじまる記号は、標準化した変数値である(zxi = (xi – x 平均)/x標準偏差)。なお、Wは重みwijの総和である。本来、自己相関係数を定義する方法は複数ありえるのだが、代表的な自己相関係数であるモランのI係数について考えてみよう。クロス相関係数もモランのIと同様に、空間的な重みwijを導入して修正された「重みつき積率相関係数」として定義できる。これを2変量モランI係数(Bivariate Moran’s I)係数と呼ぶ。 2変量 モラン(クロス相関係数)

(復習)空間的ラグと隣接性行列1 隣接性行列{cij(L)}: 隣接数 ラグ0の場合{cij(0)} cij(L) = 1 地区iからみて地区jはラグLで丁度つながる場合 cij(L) = 0 そうでない場合 隣接数 ni(L) = Σj cij(L)  地区iがラグLでつながっている地区数 ラグ0の場合{cij(0)} cii(0) = 1  cij(0) = 0  i ≠ j ni(0) = n for all i なお、空間的重みと空間的ラグの関係についても復習しておこう。まずはラグLの隣接性行列を考える。ここで、地区iがラグLでつながっている地区数は隣接性行列のi行の要素の総和である点に注意しよう。特別なケースとしてL=0(つまり、ラグ0)の場合には、地区iは地区iそれ自身としかつながっていないと考える。もちろん、隣接性というトポロジカルな関係でなく、各セルの中心座標間の距離によって空間的ラグを決めてもよい。

(復習)空間的ラグと隣接性行列2 行基準化による重み行列の定義 wij(L) = cij(L) / ni(L) 行基準化による重み行列の定義  wij(L) = cij(L) / ni(L) Σj {wij(L) zyj }: 地区iからみたラグL近傍のy標準化値の平均値 なお、この隣接性行列そのものを、自己相関やクロス相関係数の重みに用いることも可能だが、モラン散布図において縦軸をXないしYのラグLの平均値とし、直感的な理解が可能になるように、隣接性行列を隣接数で割った「行基準化」による重み行列が、実際の計算ではよく利用される。この式の展開でわかるように、2変量モランは、標準化したx_iとその近傍の標準化したyの平均値の積和で定義されており、通常のピアソンの積率相関係数との関係が一層明確になる。

空間的クロス相関の事例 東京大都市圏の社会経済的住み分け r = -0.82 ここで、事例として上層ホワイトカラーの代表的カテゴリである専門的・技術的職業の従事者割合と、ブルーカラー系職業のカテゴリである生産工程・労務作業の従事者割合の2つの相関関係を考えることにしよう。大都市圏では、ホワイトカラー系とブルーカラー系の構成比にはセクター的な地域差が生じることが知られている。2000年の国勢調査を利用した、東京大都市圏(都心から70km圏)の市区町村別統計で、まずラグ0の相関関係をみると-0.82と強い負の相関関係が確認できる。 Y:専門的・技術的職業従事者割合 X:生産工程・労務作業従事者割合

モラン散布図行列(ラグ1) I = -0.57 I = 0.65 地点iからラグ1の近傍 におけるZYの平均値 I = 0.71 散布図行列と同様に、モラン散布図を各変数の組み合わせに応じて配置したものを、モラン散布図行列と呼ぶ。左上と右下の対角部分は、空間的自己相関に関するプロットであり、モランのI係数値をみてもわかるように、2つの変数はそれぞれ強い正の自己相関をもって分布している。右上と左下は、2変量モラン散布図であり、ラグ1をとっても(すなわち、隣接する市区町村との比較をしても)、XとYの間には強い負の相関関係が確認できる。なお、ZXは標準化(平均0、標準偏差1)したXの値、ZYは標準化したYの値である。 地点iからラグ1の近傍 におけるZXの平均値 ZXi ZYi

2変量コレログラム 空間的自己相関に関するコレログラムと同様に、空間的ラグの次数と2変量モランの推移は、2変量コレログラムとして確認できる。縦軸は2変量モランであり、隣接性の次数があがるとともに、2変量モランの値が負から正へと連続的に推移していくことがわかる。とくにラグ7(7つ目の隣接性)において2変量間の相関は0となる。この結果から、二つの職業変数にみる社会経済的住み分けの空間的スケールの大きさがおおよそ把握できる。

クロスバリオグラム Cross-variogram

2変量(xi, yi)のポイント分布 u v 変数Xの値: xi(si) 変数Yの値: yi(si) 位置座標 si = (ui, vi) 変数Xの値: xj(sj) 変数Yの値: 欠損 位置座標 sj = (uj, vj) クロスバリオグラムはコクリギングと呼ばれる多変量クリギングのために導入された概念である。クリギングでは、連続的に分布するランダム変数Yについて、一部の点的位置で観測された情報から連続的な分布を予測する問題を取り扱う。ここでは黒い点で、変数Yの値が観測されるが、同時にYと強い相関関係をもって分布していると考えられるランダム変数Xの観測値も得られるとしよう。 u

コクリギングCo-Kriging u u v v  位置s0の未知の値y(s0)を予測する場合、通常クリギングでは、この周辺にある黒点の位置のy観測値のみを利用する。  これに対し、yの共変量である補助変数xをy分布面の予測に利用するコクリギングでは、位置s0周辺のx観測値も利用する。  x観測値は赤点の位置でも観測されており、もしこれが黒点よりも密に分布していれば、y観測点(黒点)が疎でも、詳細なy分布面が予測できると期待できる。 y(s0) u v v 通常クリギングでは、任意の位置の未知の値Y(s0)を推定する場合に、その近傍の観測値データの重みつきの和を利用する。ここで、Yの空間的な自己従属性を利用し、s0に近い観測値の重みλが大きくなる。つまり、s0付近にある観測値に近い値として推定が行われる。ここで、先のスライドのように、Xの値がYよりも密に観察される場合には、Yの分布予測にXの観測分布を利用すると、より精密な分布面が推定できると期待できる。なぜなら、黒点がない領域でも、赤点が近傍にある領域が増え、これを利用した予測が可能となるからである。ここでNは黒点の数、Mを黒点と赤点の和とすれば、コクリギングによるY(s0)の予測式は、左中央付近に示すような式で示される。 このスライドの下の仮想例では、Yの分布面を黒点のY値だけで予測した場合(左)よりも、黒点と赤点のX値も利用した場合(右)に、より現実的なY分布が推定される状況を示している。例えば、u-v平面の右上や左下にはほとんど黒点がないが、赤点を利用すると新たなY値の局所的な高まりが推定できる。このような多変量の2次定常確率場を前提として、空間的な相関を利用する空間予測を行う方法が、コクリギングである。 u 黒点のデータのみを利用して予測したy分布 黒点と赤点のデータを利用して予測したy分布

クロス・バリオグラム Cross-variogram 理論クロス・バリオグラム: コクリギングの予測に必要な、変数間の空間的従属性の関数であり、地点間の空間的ずれhの大きさ(距離)に応じた、2変数間の共変動関係(共分散)をみたものである。 経験クロス・バリオグラム: 理論クロス・バリオグラムの推定には、通常のバリオグラムの推定と同様に、地点間の距離が適当なレンジに含まれる地点の組み合わせグループGkごとに、この共分散の点推定値を求める経験クロス・バリオグラムを利用する。この距離帯ごとの点推定値に適当な理論曲線をあてはめて、クロス・バリオグラム関数の推定を行う。 このコクリギングの推定にはXとYの空間的共分散関数の1種であるクロス・バリオグラムを必要とする。これは、空間的なクロス相関の記述的モデルの1種と考えることもできる。 この経験クロス・バリオグラムの推定では、黒点のデータのようなXとYが同時に観測されているデータしか利用しないのが一般的である。ただし、コクリギングの推計においては、推定された理論バリオグラムの関数を利用して、赤点のようなXの観測値しか得られない情報も利用する。なお、Nk はグループGkに含まれる地点ペアの数である。 なお、collocated kriging (コロケーテッドクリギング)と呼ばれるクリギング手法では、異なるクロス・バリオグラム関数(疑似バリオグラム関数)をもって、経験クロス・バリオグラムの推定にXとYの同時観測を前提としない方法も提案されている。

鉛濃度とOM濃度のクロス・バリオグラム。距離が500m以下であれば、鉛濃度とOM濃度の地点間のずれは小さく、強い共変動関係がある。 クロス・バリオグラム例  オランダ南部のMeuse湖水質汚染データに基づく、鉛(Pb)汚染の分布推定問題。補助変数は有機物含有量(OM)である。OMは鉛濃度よりも容易に計測が可能であり、より多くの観測情報の利用が見込まれる。 Rのパッケージであるgstatのコクリギング技術資料(Rossiter, 2007)から作成。 青丸は、距離帯別の(クロス)バリオグラム推定値 青線は、これに当てはめられた球形関数モデル ただし、3つの(クロス)バリオグラムで同じレンジの関数があてはめられ、シルとナゲットのみが調整されている。 γ 鉛濃度とOM濃度のクロス・バリオグラム。距離が500m以下であれば、鉛濃度とOM濃度の地点間のずれは小さく、強い共変動関係がある。

(補足)コクリギングによる予測  任意の地点s0のy分布の予測には、重み係数{wiy}, {wjx}が必要である。定常確率場の前提に基づいた不偏予測量の中で、最小平均二乗予測誤差をもたらす重み係数ベクトルは、次のようにクロスバリオグラムを利用し算出される。 コクリギングの理論的な詳細はここでの範囲外であり、ここでは予測されたクロスバリオグラム関数が、コクリギングの予測に利用されている点のみを確認しておく。 なお、γxxとγyyは、それぞれ変数XとYの通常のバリオグラム関数でモデル化される自己従属性の共分散関数である。また、XとYのクロスバリオグラム関数を用いて予測する場合には、XとYについて対称性のある関数を仮定する必要がある。 ここで示した結果は、補助変数がX、1種類である場合であるが、補助変数は複数ある多変量クリギングとして容易に一般化される。 もし、補助変数が点的な分布ではなく、面的な分布として得られるなら、コクリギングではなく普遍クリギングを利用する。詳細は間瀬(2010)などの参考文献を参照されたい。 ただし λは予測値の不偏性を保証するために設けられる ラグランジュ未定乗数

空間的回帰分析 Spatial regression modelling

重回帰モデル 地区iの被説明変数 予測子: 地区iの回帰成分(説明変数による変動成分) 誤差項: 地区iの未知のランダムな変動成分 統計的なデータモデリングの基礎は、いわゆる回帰モデルである。ここで、被説明変数の予測値を、説明変数の線形結合によって構成し、その予測誤差は互いに独立した正規分布に従うと仮定されるのが一般的である。 ここで示す式の予測子は、いわゆる説明づけられた分布傾向(トレンド)であり、誤差は説明されない空間的な変動成分(ノイズ)に相当する。 説明変数(観測値): 地区iのk番目の説明変数 係数 被説明変数の空間的変動 = 回帰変動成分+独立変動成分                      (トレンド)     (ノイズ)

空間的従属性の問題 残差の空間的自己相関を調べると、正の自己相関を示すことが多い。 誤差は空間的に「独立」という仮定がもっともらしくない。 誤差が空間的に独立でないならば(空間的従属関係があるならば)? 実質的なサンプル数はもっと少ないことになる 係数や予測値の変動を過小に推定 e.g. 過度に狭い信頼区間・過度に小さなp値 なぜ従属性が生まれるのか? 空間的相互作用: 近くにある同士が相互に影響を及ぼし合う 噂や流行の逐域伝播、集団AとBはすみ分ける… 空間データは、いわゆるクラスター化されたサンプル 実質的なサンプル数 effective number of samples の意味は少し分かりにくいかもしれない。例えば、N人の家のデータがあったとしても、M個(N>M)の集落ごとに人々が住み分けており、集落の中で住む人のタイプが全く同じだとしよう。この場合、集落ごとに強い空間的な従属性がある。一見すればN個のサンプルがあるが、実質的にはM個のサンプルしかない状況に等しい。実際には「全く同じ」ということはないが、集落の中で似た人達が住む傾向があれば、実質的にNよりも小さなサンプル数しかない状況が生じる。この場合、通常の回帰モデルをあてはめると、実質的なサンプル数が少なく自由度が小さい状況でも、多くのサンプルにサポートされた小さな標準誤差を推定されることになりがちである。これ以外にも、回帰係数のバイアスの問題などもある。

空間的回帰モデルへ 空間的従属性を伴って現象が生起している状況(空間的プロセス)を、明示的にモデルに導入する。 被説明変数の空間的変動 = 被説明変数の空間的変動 =      回帰変動成分+近傍共変動成分+独立変動成分       (トレンド)    (シグナル)     (ノイズ) (例1)  犯罪発生率の地域差 =     (都市化度による説明)+(犯罪のスピルオーバー)+(ノイズ) (例2) 死亡率の地域差 =         (所得水準による説明)+(未知の地理的要因)+(ノイズ) このような空間的従属性のあるサンプルデータのモデリングについては、統計学的に考えれば、誤差項に空間的な相関関係を考慮してやればよい。しかし、いきなり誤差項のモデリングを考えるよりも、どのような空間的プロセスを考えるべきなのかを、まずは考えてみよう。これまで同様に、線形予測子による回帰変動成分は、説明が可能な被説明変数の変動成分である。これに加えて、空間的なパターンを伴った(空間的従属性を伴った)未知の変動成分を近傍共変動成分(シグナル)と考えて、空間的に独立したローカルな変動であるノイズと区別して考える。 例を2つ考えてみたい。犯罪の発生率をモデル化する場合、例えば都市化の程度によって、一定の説明がつくとしよう(トレンド)。さらに、ある地域で犯罪が多発すると、その周辺地域にも犯罪行為が波及しやすいスピルオーバー効果が想定されるならば、これは、犯罪発生率の分布そのものが、空間的に互いに関連している近傍共変動成分とみなせる(シグナル)。 今一つの例は、死亡率の地域差を考える場合、所得水準によって一定の説明がついたとしても、例えばここで説明変数として利用できていない地域の医療・福祉の状況やコミュニティの状況によって死亡率が異なっていることは十分想像できる。しかも、こうした説明変数として利用できない成分自身が、空間的に互いに関連している近傍共変動成分となりうる(シグナル)。

古典的な空間的回帰モデル 空間的自己回帰モデル spatial autoregressive model 空間的誤差自己回帰モデル spatial error model 先の犯罪率モデルの例のように、別地区jの被説明変数の水準に影響を及ぼされるプロセス(例えば、スピルオーバー効果)が想定されるならば、空間的な自己回帰成分をもつモデルが自然に導かれる。Wijは地区iからみた地区jとの相互作用の強さを示す重み成分であり、空間的自己相関やクロス相関での重みと同様に事前に決定しておくことが普通である(例えば、ラグ1の隣接性行列による重み)。係数ρは、空間的な自己回帰成分の大きさを示すパラメターである。 また、死亡率モデルの例のように、未知の成分が空間的に従属性をもって分布している場合には、空間的誤差自己回帰モデルspatial error model が導かれる。ここで、yj – μj は地区jの、(独立したノイズの変動を除いた上での)予測誤差である。 移動平均モデルは一見すると誤差自己回帰モデルと似た概念のモデル化であるが、空間的に独立なノイズそのものに地理的な連続性を仮定しており、yの局所的な(狭い範囲での)従属性をモデル化する。 これらのモデルは、計量経済学では、yiの予測におけるyjも同時に推定されるべきランダム変数と考える同時方程式モデルとして解かれることが多い(SAR: simultaneous atuoregressive model) 。ただし、生物統計学者らは、yiの予測を、他地区のyjの値を前提とする条件つき確率分布で想定する場合も多い(CAR: conditional autoregressive model)。CARの方が、空間的な重みに関する対称性の条件が強い点に注意が必要である。SARとCARのどちらでも、推定される結果には大きな違いはないと考えられている。ここでは、SARのみを考えることにしたい。 空間的移動平均モデル spatial moving average model

回帰分析の残差に対するモランIは0.294(p値:<0.01)で有意な正の空間的自己相関がある。 回帰モデルの事例 1990年東京大都市圏の保健所管轄区別死亡率(標準化死亡比:SMR)対数値を、専門技術者割合(PRO)に回帰する問題。 通常の回帰モデル classic OLS R2 = 0.458 AIC = -454.9 簡単な事例として、死亡率の地域差の単回帰分析の事例をとりあげてみよう。標準化死亡比(年齢の効果を調整した死亡率指標の1種)の常用対数値を被説明変数、教育水準や所得と関連性の強い専門技術者の割合を説明変数としたモデルである。左下の被説明変数の地域差を示してある。 推定された係数値の下に括弧で示してあるのは標準誤差である。適合度として決定係数R2とAIC(赤池の情報量基準)を示した。 残差をみると、総じて都心部周辺で正の残差(予測が過小)が地理的に連続して観測されるのが分かる。回帰分析の残差にある空間的自己相関を、モランIで検定したところ、有意な正の空間的自己相関が認められた。なお、モランIの計算には1次の隣接性(Queen基準)を利用した。 回帰分析の残差分布 回帰分析の残差に対するモランIは0.294(p値:<0.01)で有意な正の空間的自己相関がある。 Log(SMR)の分布 青(死亡率低)←→赤(死亡率高)

空間的誤差自己回帰モデルの事例 空間的(誤差)自己回帰モデルは、OpenGeoDaやRなどのソフトウェア環境で、容易に利用できるようになった。 回帰係数に大きな変化はないが、有意な誤差の自己回帰成分が認められ、モデルの適合度が改善している。 R2 = 0.567 AIC = -473.9 空間的誤差自己回帰モデル spatial error model 誤差自己回帰モデルをあてはめた結果である。ρの推定値と標準誤差をみると、有意な誤差の自己回帰成分があると分かる。なお、この重み行列は行基準化されており、誤差の自己回帰成分Σwij (yj – μj)は予測誤差の近傍平均値である。 回帰係数をみると、標準誤差が大きくなっているものの、係数の大きさと方向に、通常の回帰分析の結果と大きな違いはみられない。適合度は、R2が大きくなっているが、これはモデルの自己回帰成分に関するパラメターρが増えているため、自由度の違いをふまえた回帰モデルの比較が必要である。AICはこうしたモデルの自由度(地区数-モデルの自由パラメター数)をふまえたモデルを比較を可能とする指標で、これが小さいほど統計モデルとして優れる。空間的誤差自己回帰モデルを利用すると、普通の回帰モデルよりも、かなりAICが小さくなっていることが分かる。また、モデルの残差には有意な空間的自己相関はなくなっている。ただし、目立った残差の位置や大きさにはそれほど大きな変化はない。 注 この分析は中谷(2003)と同じデータとモデルであるが、そこでは重みを行基準化していないため、結果は若干異なる。 GeoDaによる誤差自己回帰モデルの残差分布 空間的回帰分析の残差に対するモランIは-0.0206であり、有意な空間的な自己相関は認められない。

空間的異質性の問題 地理的グループごとに回帰モデルを当てはめると、(偏)回帰係数や適合度に明確なグループ間の違いを認めることがある。 回帰モデルの係数が空間的に一定であるとする仮定(係数の定常性)がもっともらしくない。 回帰モデルに空間的異質性がある場合に、通常の回帰モデルを用いるならば? 回帰モデルの係数に大きなバイアスがある(集計問題) 適合度および予測力の低下が生じる なぜ異質性が生まれるのか? 地理的な文脈性 e.g. 持ち家や自家用車の保有は、農村よりも都市部で所得と強く関係する e.g. 文化的・制度的な条件による、変数間の関係性の変化

空間的可変パラメターモデルへ Spatial varying coefficient model 空間的異質性を、係数の地域差として想定し、これを推定するモデル。 ただし、地区(観測単位)ごとに重回帰モデルの係数を推定することは、自由度の問題から不可能である。 なお、古典的空間回帰モデルの1部は、定数項のみについて地理的な連続する変動を認めた、空間的可変パラメターモデルの一形態と考えることもできる。

空間的展開法 Spatial expansion method 係数の空間的変動は十分に滑らかな連続的関数で近似できると仮定する。 各係数の空間的変動関数を、空間座標値ui, vi の多項式(級数展開式)によってモデル化する。 いわゆる傾向面分析の拡張と考えてよい。 古典的な可変パラメター・モデルに空間的展開法がある。もし、回帰モデルの係数が十分滑らかに空間的に変動しているとみなせるなら、いわゆる級数展開の原理に従って、適当な多項式(ここではべき級数)でこれを近似できると見込める。適当な次数まで展開した各係数の変動式fを、回帰モデルに代入すれば、観測位置の座標(u および v)を説明変数に加えた通常の回帰モデルが得られる。 注意: 展開法は位置座標の変数を利用した級数展開ばかりを前提してはいない。パラメターの空間的な変動を説明する適当な文脈性の変数(例えば、都市化指標など)を利用した展開も可能であり、それは後述するGWRではできないメリットでもある。

地理的加重回帰法 GWR: Geographically weighted regression カーネル関数を利用したノンパラメトリックな係数推定法。 各地区iの予測に利用する係数は、地区i近傍のデータに重みをつけた最小2乗法によって推定する。 hij i j バンド幅 空間的重みづけに利用するカーネル関数には、ガウス型の関数などがある。 空間的展開法では、過度に滑らかな係数の空間的変動しか推計できないことがしばしば指摘されてきた。そのため、係数の空間的変動に特定の数学的関数を想定しない、ノンパラメトリックな係数の地理的変動を推計する方法として、地理的加重回帰法が提案された。この方法では、カーネル関数と呼ばれる一種の移動する窓を利用して、各地点i周辺の一部のデータのみを利用してローカルな回帰係数値を推計する作業を繰り返し、結果として係数値の地理的な分布を得る。 地点ごとに回帰係数の推定を繰り返すと、回帰係数の分布面が得られる Y X Y X

バンド幅 GWRでは、カーネル関数のバンド幅と呼ばれるパラメターが局所的な係数の推定に利用する近傍の範囲を決める。 これが小さすぎれば、わずかなサンプル数のみで局所的な係数値を推計するので、データへの適合度は高くなるかもしれないが、係数値の信頼性が低くなる。他方で、これが大きすぎれば、重要な係数の地理的変動を見逃してしまうかもしれない。 この問題は、いわゆるモデルの自由度と適合度のトレードオフ問題と同様に、AICcやCV(クロスバリデーション)と呼ばれる方法で、最適なバンド幅を統計的に求めることもできる。 Optimal どの程度のバンド幅が適当か? AICc バンド幅 バンド幅

GWRの事例 1990年東京大都市圏の保健所管轄区別死亡率(標準化死亡比:SMR)対数値を、専門技術者割合(PRO)に回帰したGWRの結果 回帰係数 β1 の分布図: 負の係数がほとんどであり、専門技術者割合が高い地区ほど死亡率が低いが、この傾きには地域差がみられる。 Local R2の分布図: カーネルで重みづけされた局所的なモデルの決定係数は都心部周辺で高く、専門技術者の割合によって死亡率の地域差がよく説明されている。 この事例は、先の空間的回帰モデルの事例と同様に、死亡率の地域差に関する素朴な単回帰分析をGWRで拡張したものである。ガウス型のカーネル関数を利用し、AICcによって得た最適なバンド幅は11.4 km だった(この数字は中谷(2003)に記載されている12.6km と微妙に異なるが、利用したGWRプログラムが異なるためである。分析結果の違いはほとんどない)。 対象地域全体で、専門技術者の割合が高い地域(所得や教育水準の高い地域とみなされる)で、死亡率が低い傾向が明らかだが、その傾向はとくに都心部周辺の社会経済的な居住地の住み分けが明確な地域で強いようである。 なお、ここでは対象地域全体で固定した大きなカーネル関数で重み付けを行っているが、重み付けされる地区の数が同じ程度になるように、バンド幅を調整する適応型adaptive なカーネル関数もよく利用される。解釈はバンド幅を固定した方が、分かりやすいかもしれないが、地区単位の大きさが著しく異なるデータの分析や周辺部でのエッジ効果の確認などに、適応型のカーネルはとくに有用である。詳細はGWRの参考文献などを参照されたい。 β1の分布図 Local R2の分布図

まとめ 相関関係の計量化 相関関係を利用したモデリング  XとYの2変量をもった地理空間データセットにおいて、XとYの相関関係を分析し、モデル化する方法論 相関関係の計量化 空間的クロス相関: 空間的ラグを考慮した相関係数の拡張 クロスバリオグラム: バリオグラムの2変量版(距離と観測値のずれの関数型をモデル化し、予測に利用する) 相関関係を利用したモデリング 空間的回帰モデル: 空間的従属性を考慮した回帰モデルの拡張 空間的可変パラメターモデル: 空間的異質性を考慮した回帰モデルの拡張

参考文献 de Smith, M.J., Goodchild, M.F. and Longley, P.A. (2007) Geospatial Analysis: A Comprehensive Guide to Principles, Techniques and Software Tools. Matador: Leicester, 394p. 間瀬茂(2010)「地球統計学とクリギング法: RとgeoRによるデータ解析」オーム社. 中谷友樹(2003) 空間的共変動分析, 杉浦 芳夫 編『地理空間分析』朝倉書店, pp. 23-48. Rossiter, DG (2007) Technical Note: Co-kriging with the gstat package of the R environment for statistical computing Version 2.1, (First version March 2005). Self-published online, 81p. http://www.itc.nl/personal/rossiter/teach/R/R_ck.pdf