中谷友樹 nakaya@lt.ritsumei.ac.jp 第4章　空間解析９　空間相関分析中谷友樹 nakaya@lt.ritsumei.ac.jp.

Slides:

Advertisements

Similar presentations

土木計画学第３回：１０月１９日調査データの統計処理と分析２担当：榊原弘之. 標本調査において，母集団の平均や分散などを直接知ることはできない．母集団の平均値（母平均）母集団の分散（母分散）母集団中のある値の比率（母比率） p Sample 標本平均標本分散（不偏分散）標本中の比率.

Advertisements

2016 年度計量経済学講義内容担当者：河田正樹

放射線の計算や測定における統計誤差「平均の誤差」とその応用（ 1H) 2 項分布、ポアソン分布、ガウス分布（ 1H ）最小二乗法（ 1H ）

統計学入門２関係を探る方法講義のまとめ. 今日の話変数間の関係を探るクロス集計表の検定：独立性の検定散布図、相関係数講義のまとめとキーワード「統計学入門」後の関連講義・実習社会調査士.

エクセルと SPSS によるデータ分析の方法社会調査法・実習資料. 仮説の分析に使う代表的なモデル１クロス表２ｔ検定（平均値の差の検定）３相関係数.

●母集団と標本母集団標本母数母平均、母分散無作為抽出標本データの分析（記述統計学）母集団における状態の推測（推測統計学）

第1回確率変数、確率分布確率･統計Ⅰ ここです！確率変数と確率分布確率変数の同時分布、独立性確率変数の平均確率変数の分散

看護学部中澤港統計学第５回看護学部　中澤　港

データ分析入門（12）第12章　単回帰分析廣野元久.

寺尾敦青山学院大学社会情報学部社会統計　第13回重回帰分析（第11章後半）寺尾　敦青山学院大学社会情報学部

確率･統計Ⅰ 第12回統計学の基礎1 ここです！確率論とは確率変数、確率分布確率変数の独立性／確率変数の平均

時系列の予測時系列：観測値を時刻の順に並べたものの集合

多変量解析　－重回帰分析－発表者：時田　陽一発表日：11月20日.

補章時系列モデル入門ｰ計量経済学ｰ.

パネル分析について中村さやか.

第3章　2変量データの記述統計学基礎　2010年度.

重回帰分析入門経済データ解析　2009年度.

確率･統計Ⅰ 第11回 i.i.d.の和と大数の法則ここです！確率論とは確率変数、確率分布確率変数の独立性／確率変数の平均

実証分析の手順経済データ解析　2011年度.

第４回 (10/16) 授業の学習目標先輩の卒論の調査に協力する。２つの定量的変数間の関係を調べる最も簡単な方法は？

第5章回帰分析の諸問題（２）ｰ計量経済学ｰ.

Bassモデルにおける最尤法を用いたパラメータ推定

重回帰分析入門経済データ解析　2011年度.

「データ学習アルゴリズム」第３章複雑な学習モデル 3.1 関数近似モデル ….. … ３層パーセプトロン

心理統計学 II 第７回 (11/13) 授業の学習目標相関係数のまとめと具体的な計算例の復習相関係数の実習.

Bias2 - Variance - Noise 分解

Bias2 - Variance - Noise 分解

質的データの分析手法 ---プロビットモデル・ロジットモデルの概要---

第3章　二つの変数の記述統計二つの変数を対象として変数同士の関係を捉える量的変数どうしの関係質的変数どうしの関係.

寺尾敦青山学院大学社会情報学部社会統計　第12回重回帰分析（第11章前半）寺尾　敦青山学院大学社会情報学部

第3章重回帰分析ｰ計量経済学ｰ.

第3章重回帰分析ｰ計量経済学ｰ.

「データ学習アルゴリズム」第2章学習と統計的推測報告者佐々木稔 2003年5月21日 2.1 データと学習

第5章回帰分析入門統計学　2006年度.

確率･統計輪講資料 6-5　適合度と独立性の検定 6-6　最小2乗法と相関係数の推定・検定 M1　西澤.

回帰モデル・クラス分類モデルを評価・比較するためのモデルの検証 Model validation

離婚が出生数に与える影響－都道府県データを用いた計量分析

補章時系列モデル入門ｰ計量経済学ｰ.

スペクトル・時系列データの前処理方法～平滑化 (スムージング) と微分～

ガウス過程による回帰 Gaussian Process Regression GPR

データ解析静岡大学工学部安藤和敏

VII. 空間モデル.

第６章連立方程式モデルｰ計量経済学ｰ.

　統計学講義　第11回　　　　相関係数、回帰直線　　　決定係数.

4章までのまとめｰ計量経済学ｰ.

混合ガウスモデルによる回帰分析および逆解析 Gaussian Mixture Regression GMR

T2統計量・Q統計量明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

主成分分析 Principal Component Analysis PCA

多変量解析～主成分分析～１．主成分解析とは２．適用例と解析の目的３．解析の流れ４．変数が２個の場合の主成分分析

変換されても変換されない頑固ベクトルどうしたら頑固になれるか頑固なベクトルは何に使える？

部分的最小二乗回帰 Partial Least Squares Regression PLS

データの型量的データ質的データ数字で表現されるデータ身長、年収、得点カテゴリで表現されるデータ性別、職種、学歴

「データ学習アルゴリズム」第3章複雑な学習モデル報告者佐々木稔 2003年6月25日 3.1 関数近似モデル

第3章　線形回帰モデル修士1年山田　孝太郎.

「アルゴリズムとプログラム」結果を統計的に正しく判断三学期第7回袖高の生徒ってどうよ調査(3)

経営学研究科 M1年学籍番号 speedster

データ解析静岡大学工学部安藤和敏

データ解析静岡大学工学部安藤和敏

クロス表とχ2検定.

第5回確率変数の共分散確率･統計Ⅰ ここです！確率変数と確率分布確率変数の同時分布、独立性確率変数の平均確率変数の分散

回帰分析（Regression Analysis)

データ解析静岡大学工学部安藤和敏

重回帰分析入門経済データ解析　2008年度.

Locally-Weighted Partial Least Squares LWPLS 局所PLS

重回帰分析入門 (第5章補足) 統計学　2007年度.

モデルの微分による非線形モデルの解釈明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

回帰分析入門経済データ解析　2011年度.

第3章統計的推定（その2）統計学　2006年度＜修正・補足版＞.

混合ガウスモデル Gaussian Mixture Model GMM

Presentation transcript:

中谷友樹 nakaya@lt.ritsumei.ac.jp 第4章　空間解析９　空間相関分析中谷友樹 nakaya@lt.ritsumei.ac.jp

ここで学ぶこと XとYの2変量をもった地理空間データセットにおいて、XとYの相関関係を分析する方法論を考える。相関関係の計量化空間的クロス相関・クロスバリオグラム相関関係を利用したモデリング空間的回帰モデル・空間的可変パラメターモデル

空間的クロス相関 spatial cross-correlation

２変量（xi, yi)のラティス・データ地区1 x1, y1 地区２ x2, y2 地区i xi, yi

２変量の相関（ラグ0のクロス相関） yi:地区iのyの値 xi:地区iのxの値たとえ空間的なデータであっても、地区を１つの観測単位あるいはサンプルとみなすことで、XiとYiの２変量相関関係を、通常の統計学のテキスト通りに定義できる。これをラグ０のクロス相関と呼ぶことにしよう。ラグとは「遅れ」という意味であり、本来は時系列データ解析で、時間的な相関関係のずれを調べるために導入された概念である。 xi:地区iのxの値

（復習）ラグ１&2の空間的自己相関ラグ１ラグ２地区iに隣接するセルのxの平均値地区iのxの値地区iに隣接するセルのxの平均値 xi, yi 地区iのxの値地区iに隣接するセルのxの平均値地区i xi, yi ラグ２さて、わざわざ２変量の相関関係に、「クロス相関」の言葉をあてるのは、すでに学習した自己相関と区別するためである。空間的自己相関のもっとも簡単な例は、各セルのｘ値と隣接するセルのX平均値の相関関係であり、このような散布図をモラン散布図と呼ぶ。ここで、左側の図の縦軸にみられるような、１つ隣りのセルの値（ここでは平均値）を求める作業を、「ラグ１をとる」と言う。もし、「となりのとなり」を求める場合にはラグ２、「となりのとなりのとなり」であればラグ３。。。である。

ラグ1&2の空間的クロス相関ラグ１ラグ２地区iに隣接するセルのyの平均値地区iのxの値地区iのとなりのとなりのyの平均値 xi, yi 地区iのxの値地区iのとなりのとなりのyの平均値地区i xi, yi ラグ２先のラグ１および2の空間的自己相関と同様に、縦軸にプロットする指標を、隣接するセルのYの平均値にすれば、ラグ１の空間的クロス相関が定義できる。ラグ２の空間的クロス相関も同様である。

空間的自己相関係数とクロス相関係数ピアソンの積率相関係数モランのI（自己相関係数）２変量モラン（クロス相関係数）ここで、空間クロス相関係数を計量化する指数について考えてみよう。ここでnはサンプル数であり、σ（シグマ）記号は、それぞれの変数の標準偏差である。zからはじまる記号は、標準化した変数値である（zxi = (xi – x 平均）／ｘ標準偏差）。なお、Wは重みwijの総和である。本来、自己相関係数を定義する方法は複数ありえるのだが、代表的な自己相関係数であるモランのI係数について考えてみよう。クロス相関係数もモランのIと同様に、空間的な重みwijを導入して修正された「重みつき積率相関係数」として定義できる。これを2変量モランI係数（Bivariate Moran’s I）係数と呼ぶ。２変量モラン（クロス相関係数）

（復習）空間的ラグと隣接性行列１隣接性行列{cij(L)}：隣接数ラグ0の場合{cij(0)} cij(L) = 1 地区iからみて地区jはラグLで丁度つながる場合 cij(L) = 0　そうでない場合隣接数 ni(L) = Σj cij(L) 　地区iがラグLでつながっている地区数ラグ0の場合{cij(0)} cii(0) = 1　 cij(0) = 0 　i ≠ j ni(0) = n for all i なお、空間的重みと空間的ラグの関係についても復習しておこう。まずはラグLの隣接性行列を考える。ここで、地区iがラグLでつながっている地区数は隣接性行列のi行の要素の総和である点に注意しよう。特別なケースとしてL＝０（つまり、ラグ０）の場合には、地区iは地区iそれ自身としかつながっていないと考える。もちろん、隣接性というトポロジカルな関係でなく、各セルの中心座標間の距離によって空間的ラグを決めてもよい。

（復習）空間的ラグと隣接性行列２行基準化による重み行列の定義 wij(L) = cij(L) / ni(L) 行基準化による重み行列の定義　 wij(L) = cij(L) / ni(L) Σj {wij(L) zyj }: 地区iからみたラグL近傍のy標準化値の平均値なお、この隣接性行列そのものを、自己相関やクロス相関係数の重みに用いることも可能だが、モラン散布図において縦軸をXないしYのラグLの平均値とし、直感的な理解が可能になるように、隣接性行列を隣接数で割った「行基準化」による重み行列が、実際の計算ではよく利用される。この式の展開でわかるように、2変量モランは、標準化したｘ_iとその近傍の標準化したyの平均値の積和で定義されており、通常のピアソンの積率相関係数との関係が一層明確になる。

空間的クロス相関の事例東京大都市圏の社会経済的住み分け r = -0.82 ここで、事例として上層ホワイトカラーの代表的カテゴリである専門的・技術的職業の従事者割合と、ブルーカラー系職業のカテゴリである生産工程・労務作業の従事者割合の２つの相関関係を考えることにしよう。大都市圏では、ホワイトカラー系とブルーカラー系の構成比にはセクター的な地域差が生じることが知られている。２０００年の国勢調査を利用した、東京大都市圏（都心から70km圏）の市区町村別統計で、まずラグ０の相関関係をみると-0.82と強い負の相関関係が確認できる。 Y：専門的・技術的職業従事者割合 X：生産工程・労務作業従事者割合

モラン散布図行列（ラグ１） I = -0.57 I = 0.65 地点iからラグ１の近傍におけるZYの平均値 I = 0.71 散布図行列と同様に、モラン散布図を各変数の組み合わせに応じて配置したものを、モラン散布図行列と呼ぶ。左上と右下の対角部分は、空間的自己相関に関するプロットであり、モランのI係数値をみてもわかるように、２つの変数はそれぞれ強い正の自己相関をもって分布している。右上と左下は、2変量モラン散布図であり、ラグ１をとっても（すなわち、隣接する市区町村との比較をしても）、XとYの間には強い負の相関関係が確認できる。なお、ZXは標準化（平均０、標準偏差１）したXの値、ZYは標準化したYの値である。地点iからラグ１の近傍におけるZXの平均値 ZXi ZYi

2変量コレログラム空間的自己相関に関するコレログラムと同様に、空間的ラグの次数と2変量モランの推移は、2変量コレログラムとして確認できる。縦軸は2変量モランであり、隣接性の次数があがるとともに、2変量モランの値が負から正へと連続的に推移していくことがわかる。とくにラグ７（7つ目の隣接性）において2変量間の相関は０となる。この結果から、二つの職業変数にみる社会経済的住み分けの空間的スケールの大きさがおおよそ把握できる。

クロスバリオグラム Cross-variogram

２変量（xi, yi)のポイント分布 u v 変数Xの値: xi(si) 変数Yの値： yi(si) 位置座標 si = （ui, vi) 変数Xの値: xj(sj) 変数Yの値：欠損位置座標 sj = （uj, vj) クロスバリオグラムはコクリギングと呼ばれる多変量クリギングのために導入された概念である。クリギングでは、連続的に分布するランダム変数Yについて、一部の点的位置で観測された情報から連続的な分布を予測する問題を取り扱う。ここでは黒い点で、変数Yの値が観測されるが、同時にYと強い相関関係をもって分布していると考えられるランダム変数Xの観測値も得られるとしよう。 u

コクリギングCo-Kriging u u v v 　位置s0の未知の値y(s0)を予測する場合、通常クリギングでは、この周辺にある黒点の位置のy観測値のみを利用する。　これに対し、yの共変量である補助変数xをy分布面の予測に利用するコクリギングでは、位置s0周辺のx観測値も利用する。　x観測値は赤点の位置でも観測されており、もしこれが黒点よりも密に分布していれば、y観測点（黒点）が疎でも、詳細なy分布面が予測できると期待できる。 y(s0) u v v 通常クリギングでは、任意の位置の未知の値Y（s0)を推定する場合に、その近傍の観測値データの重みつきの和を利用する。ここで、Yの空間的な自己従属性を利用し、s0に近い観測値の重みλが大きくなる。つまり、s0付近にある観測値に近い値として推定が行われる。ここで、先のスライドのように、Xの値がYよりも密に観察される場合には、Yの分布予測にXの観測分布を利用すると、より精密な分布面が推定できると期待できる。なぜなら、黒点がない領域でも、赤点が近傍にある領域が増え、これを利用した予測が可能となるからである。ここでNは黒点の数、Mを黒点と赤点の和とすれば、コクリギングによるY（s0）の予測式は、左中央付近に示すような式で示される。このスライドの下の仮想例では、Yの分布面を黒点のY値だけで予測した場合（左）よりも、黒点と赤点のX値も利用した場合（右）に、より現実的なY分布が推定される状況を示している。例えば、u-v平面の右上や左下にはほとんど黒点がないが、赤点を利用すると新たなY値の局所的な高まりが推定できる。このような多変量の2次定常確率場を前提として、空間的な相関を利用する空間予測を行う方法が、コクリギングである。 u 黒点のデータのみを利用して予測したy分布黒点と赤点のデータを利用して予測したy分布

クロス・バリオグラム Cross-variogram 理論クロス・バリオグラム：　コクリギングの予測に必要な、変数間の空間的従属性の関数であり、地点間の空間的ずれhの大きさ（距離）に応じた、２変数間の共変動関係（共分散）をみたものである。経験クロス・バリオグラム：　理論クロス・バリオグラムの推定には、通常のバリオグラムの推定と同様に、地点間の距離が適当なレンジに含まれる地点の組み合わせグループGkごとに、この共分散の点推定値を求める経験クロス・バリオグラムを利用する。この距離帯ごとの点推定値に適当な理論曲線をあてはめて、クロス・バリオグラム関数の推定を行う。このコクリギングの推定にはXとYの空間的共分散関数の1種であるクロス・バリオグラムを必要とする。これは、空間的なクロス相関の記述的モデルの1種と考えることもできる。この経験クロス・バリオグラムの推定では、黒点のデータのようなXとYが同時に観測されているデータしか利用しないのが一般的である。ただし、コクリギングの推計においては、推定された理論バリオグラムの関数を利用して、赤点のようなXの観測値しか得られない情報も利用する。なお、NｋはグループGkに含まれる地点ペアの数である。なお、collocated kriging （コロケーテッドクリギング）と呼ばれるクリギング手法では、異なるクロス・バリオグラム関数（疑似バリオグラム関数）をもって、経験クロス・バリオグラムの推定にXとYの同時観測を前提としない方法も提案されている。

鉛濃度とＯＭ濃度のクロス・バリオグラム。距離が500m以下であれば、鉛濃度とＯＭ濃度の地点間のずれは小さく、強い共変動関係がある。クロス・バリオグラム例　オランダ南部のMeuse湖水質汚染データに基づく、鉛（Pb)汚染の分布推定問題。補助変数は有機物含有量（ＯＭ）である。ＯＭは鉛濃度よりも容易に計測が可能であり、より多くの観測情報の利用が見込まれる。 Rのパッケージであるgstatのコクリギング技術資料(Rossiter, 2007)から作成。青丸は、距離帯別の（クロス）バリオグラム推定値青線は、これに当てはめられた球形関数モデルただし、３つの（クロス）バリオグラムで同じレンジの関数があてはめられ、シルとナゲットのみが調整されている。 γ 鉛濃度とＯＭ濃度のクロス・バリオグラム。距離が500m以下であれば、鉛濃度とＯＭ濃度の地点間のずれは小さく、強い共変動関係がある。

（補足）コクリギングによる予測　任意の地点s0のy分布の予測には、重み係数{wiy}, {wjx}が必要である。定常確率場の前提に基づいた不偏予測量の中で、最小平均二乗予測誤差をもたらす重み係数ベクトルは、次のようにクロスバリオグラムを利用し算出される。コクリギングの理論的な詳細はここでの範囲外であり、ここでは予測されたクロスバリオグラム関数が、コクリギングの予測に利用されている点のみを確認しておく。なお、γxxとγyyは、それぞれ変数XとYの通常のバリオグラム関数でモデル化される自己従属性の共分散関数である。また、XとYのクロスバリオグラム関数を用いて予測する場合には、XとYについて対称性のある関数を仮定する必要がある。ここで示した結果は、補助変数がX、1種類である場合であるが、補助変数は複数ある多変量クリギングとして容易に一般化される。もし、補助変数が点的な分布ではなく、面的な分布として得られるなら、コクリギングではなく普遍クリギングを利用する。詳細は間瀬（2010)などの参考文献を参照されたい。ただし λは予測値の不偏性を保証するために設けられるラグランジュ未定乗数

空間的回帰分析 Spatial regression modelling

重回帰モデル地区iの被説明変数予測子：地区iの回帰成分（説明変数による変動成分）誤差項：地区iの未知のランダムな変動成分統計的なデータモデリングの基礎は、いわゆる回帰モデルである。ここで、被説明変数の予測値を、説明変数の線形結合によって構成し、その予測誤差は互いに独立した正規分布に従うと仮定されるのが一般的である。ここで示す式の予測子は、いわゆる説明づけられた分布傾向（トレンド）であり、誤差は説明されない空間的な変動成分（ノイズ）に相当する。説明変数（観測値）：　地区iのk番目の説明変数係数被説明変数の空間的変動　＝　回帰変動成分＋独立変動成分　　　　　　　　　　　　　　　　　　　　　（トレンド）　　　　　（ノイズ）

空間的従属性の問題残差の空間的自己相関を調べると、正の自己相関を示すことが多い。誤差は空間的に「独立」という仮定がもっともらしくない。誤差が空間的に独立でないならば（空間的従属関係があるならば）？実質的なサンプル数はもっと少ないことになる係数や予測値の変動を過小に推定 e.g. 過度に狭い信頼区間・過度に小さなｐ値なぜ従属性が生まれるのか？空間的相互作用：　近くにある同士が相互に影響を及ぼし合う噂や流行の逐域伝播、集団AとBはすみ分ける… 空間データは、いわゆるクラスター化されたサンプル実質的なサンプル数 effective number of samples の意味は少し分かりにくいかもしれない。例えば、Ｎ人の家のデータがあったとしても、Ｍ個（Ｎ＞Ｍ）の集落ごとに人々が住み分けており、集落の中で住む人のタイプが全く同じだとしよう。この場合、集落ごとに強い空間的な従属性がある。一見すればＮ個のサンプルがあるが、実質的にはＭ個のサンプルしかない状況に等しい。実際には「全く同じ」ということはないが、集落の中で似た人達が住む傾向があれば、実質的にＮよりも小さなサンプル数しかない状況が生じる。この場合、通常の回帰モデルをあてはめると、実質的なサンプル数が少なく自由度が小さい状況でも、多くのサンプルにサポートされた小さな標準誤差を推定されることになりがちである。これ以外にも、回帰係数のバイアスの問題などもある。

空間的回帰モデルへ空間的従属性を伴って現象が生起している状況（空間的プロセス）を、明示的にモデルに導入する。被説明変数の空間的変動＝被説明変数の空間的変動　＝　　　　　回帰変動成分＋近傍共変動成分＋独立変動成分　　　　　　（トレンド）　　　　（シグナル）　　　　　（ノイズ）（例１）　犯罪発生率の地域差　＝　　　　（都市化度による説明）＋（犯罪のスピルオーバー）＋（ノイズ）（例２）死亡率の地域差　＝　　　　　　　　（所得水準による説明）＋（未知の地理的要因）＋（ノイズ）このような空間的従属性のあるサンプルデータのモデリングについては、統計学的に考えれば、誤差項に空間的な相関関係を考慮してやればよい。しかし、いきなり誤差項のモデリングを考えるよりも、どのような空間的プロセスを考えるべきなのかを、まずは考えてみよう。これまで同様に、線形予測子による回帰変動成分は、説明が可能な被説明変数の変動成分である。これに加えて、空間的なパターンを伴った（空間的従属性を伴った）未知の変動成分を近傍共変動成分（シグナル）と考えて、空間的に独立したローカルな変動であるノイズと区別して考える。例を２つ考えてみたい。犯罪の発生率をモデル化する場合、例えば都市化の程度によって、一定の説明がつくとしよう（トレンド）。さらに、ある地域で犯罪が多発すると、その周辺地域にも犯罪行為が波及しやすいスピルオーバー効果が想定されるならば、これは、犯罪発生率の分布そのものが、空間的に互いに関連している近傍共変動成分とみなせる（シグナル）。今一つの例は、死亡率の地域差を考える場合、所得水準によって一定の説明がついたとしても、例えばここで説明変数として利用できていない地域の医療・福祉の状況やコミュニティの状況によって死亡率が異なっていることは十分想像できる。しかも、こうした説明変数として利用できない成分自身が、空間的に互いに関連している近傍共変動成分となりうる（シグナル）。

古典的な空間的回帰モデル空間的自己回帰モデル spatial autoregressive model 空間的誤差自己回帰モデル spatial error model 先の犯罪率モデルの例のように、別地区jの被説明変数の水準に影響を及ぼされるプロセス（例えば、スピルオーバー効果）が想定されるならば、空間的な自己回帰成分をもつモデルが自然に導かれる。Wijは地区iからみた地区jとの相互作用の強さを示す重み成分であり、空間的自己相関やクロス相関での重みと同様に事前に決定しておくことが普通である（例えば、ラグ１の隣接性行列による重み）。係数ρは、空間的な自己回帰成分の大きさを示すパラメターである。また、死亡率モデルの例のように、未知の成分が空間的に従属性をもって分布している場合には、空間的誤差自己回帰モデルspatial error model が導かれる。ここで、yj – μj は地区jの、（独立したノイズの変動を除いた上での）予測誤差である。移動平均モデルは一見すると誤差自己回帰モデルと似た概念のモデル化であるが、空間的に独立なノイズそのものに地理的な連続性を仮定しており、ｙの局所的な（狭い範囲での）従属性をモデル化する。これらのモデルは、計量経済学では、yiの予測におけるyjも同時に推定されるべきランダム変数と考える同時方程式モデルとして解かれることが多い（ＳＡＲ: simultaneous atuoregressive model) 。ただし、生物統計学者らは、yiの予測を、他地区のyjの値を前提とする条件つき確率分布で想定する場合も多い（ＣＡＲ: conditional autoregressive model)。CARの方が、空間的な重みに関する対称性の条件が強い点に注意が必要である。ＳＡＲとＣＡＲのどちらでも、推定される結果には大きな違いはないと考えられている。ここでは、ＳＡＲのみを考えることにしたい。空間的移動平均モデル spatial moving average model

回帰分析の残差に対するモランIは0.294（ｐ値：<0.01)で有意な正の空間的自己相関がある。回帰モデルの事例 1990年東京大都市圏の保健所管轄区別死亡率（標準化死亡比：SMR）対数値を、専門技術者割合（PRO）に回帰する問題。通常の回帰モデル classic OLS R2 = 0.458 AIC = -454.9 簡単な事例として、死亡率の地域差の単回帰分析の事例をとりあげてみよう。標準化死亡比（年齢の効果を調整した死亡率指標の1種）の常用対数値を被説明変数、教育水準や所得と関連性の強い専門技術者の割合を説明変数としたモデルである。左下の被説明変数の地域差を示してある。推定された係数値の下に括弧で示してあるのは標準誤差である。適合度として決定係数R2とAIC（赤池の情報量基準）を示した。残差をみると、総じて都心部周辺で正の残差（予測が過小）が地理的に連続して観測されるのが分かる。回帰分析の残差にある空間的自己相関を、モランIで検定したところ、有意な正の空間的自己相関が認められた。なお、モランIの計算には1次の隣接性（Queen基準）を利用した。回帰分析の残差分布回帰分析の残差に対するモランIは0.294（ｐ値：<0.01)で有意な正の空間的自己相関がある。 Log(SMR)の分布青（死亡率低）←→赤（死亡率高）

空間的誤差自己回帰モデルの事例空間的（誤差）自己回帰モデルは、OpenGeoDaやRなどのソフトウェア環境で、容易に利用できるようになった。回帰係数に大きな変化はないが、有意な誤差の自己回帰成分が認められ、モデルの適合度が改善している。 R2 = 0.567 AIC = -473.9 空間的誤差自己回帰モデル spatial error model 誤差自己回帰モデルをあてはめた結果である。ρの推定値と標準誤差をみると、有意な誤差の自己回帰成分があると分かる。なお、この重み行列は行基準化されており、誤差の自己回帰成分Σwij (yj – μj）は予測誤差の近傍平均値である。回帰係数をみると、標準誤差が大きくなっているものの、係数の大きさと方向に、通常の回帰分析の結果と大きな違いはみられない。適合度は、R2が大きくなっているが、これはモデルの自己回帰成分に関するパラメターρが増えているため、自由度の違いをふまえた回帰モデルの比較が必要である。AICはこうしたモデルの自由度（地区数－モデルの自由パラメター数）をふまえたモデルを比較を可能とする指標で、これが小さいほど統計モデルとして優れる。空間的誤差自己回帰モデルを利用すると、普通の回帰モデルよりも、かなりAICが小さくなっていることが分かる。また、モデルの残差には有意な空間的自己相関はなくなっている。ただし、目立った残差の位置や大きさにはそれほど大きな変化はない。注　この分析は中谷(2003)と同じデータとモデルであるが、そこでは重みを行基準化していないため、結果は若干異なる。 GeoDaによる誤差自己回帰モデルの残差分布空間的回帰分析の残差に対するモランIは-0.0206であり、有意な空間的な自己相関は認められない。

空間的異質性の問題地理的グループごとに回帰モデルを当てはめると、（偏）回帰係数や適合度に明確なグループ間の違いを認めることがある。回帰モデルの係数が空間的に一定であるとする仮定（係数の定常性）がもっともらしくない。回帰モデルに空間的異質性がある場合に、通常の回帰モデルを用いるならば？回帰モデルの係数に大きなバイアスがある（集計問題）適合度および予測力の低下が生じるなぜ異質性が生まれるのか？地理的な文脈性 e.g. 持ち家や自家用車の保有は、農村よりも都市部で所得と強く関係する e.g. 文化的・制度的な条件による、変数間の関係性の変化

空間的可変パラメターモデルへ Spatial varying coefficient model 空間的異質性を、係数の地域差として想定し、これを推定するモデル。ただし、地区（観測単位）ごとに重回帰モデルの係数を推定することは、自由度の問題から不可能である。なお、古典的空間回帰モデルの1部は、定数項のみについて地理的な連続する変動を認めた、空間的可変パラメターモデルの一形態と考えることもできる。

空間的展開法 Spatial expansion method 係数の空間的変動は十分に滑らかな連続的関数で近似できると仮定する。各係数の空間的変動関数を、空間座標値ui, vi の多項式（級数展開式）によってモデル化する。いわゆる傾向面分析の拡張と考えてよい。古典的な可変パラメター・モデルに空間的展開法がある。もし、回帰モデルの係数が十分滑らかに空間的に変動しているとみなせるなら、いわゆる級数展開の原理に従って、適当な多項式（ここではべき級数）でこれを近似できると見込める。適当な次数まで展開した各係数の変動式fを、回帰モデルに代入すれば、観測位置の座標（u および v）を説明変数に加えた通常の回帰モデルが得られる。注意：　展開法は位置座標の変数を利用した級数展開ばかりを前提してはいない。パラメターの空間的な変動を説明する適当な文脈性の変数（例えば、都市化指標など）を利用した展開も可能であり、それは後述するGWRではできないメリットでもある。

地理的加重回帰法 GWR: Geographically weighted regression カーネル関数を利用したノンパラメトリックな係数推定法。各地区iの予測に利用する係数は、地区i近傍のデータに重みをつけた最小2乗法によって推定する。 hij i j バンド幅空間的重みづけに利用するカーネル関数には、ガウス型の関数などがある。空間的展開法では、過度に滑らかな係数の空間的変動しか推計できないことがしばしば指摘されてきた。そのため、係数の空間的変動に特定の数学的関数を想定しない、ノンパラメトリックな係数の地理的変動を推計する方法として、地理的加重回帰法が提案された。この方法では、カーネル関数と呼ばれる一種の移動する窓を利用して、各地点i周辺の一部のデータのみを利用してローカルな回帰係数値を推計する作業を繰り返し、結果として係数値の地理的な分布を得る。地点ごとに回帰係数の推定を繰り返すと、回帰係数の分布面が得られる Y X Y X

バンド幅ＧＷＲでは、カーネル関数のバンド幅と呼ばれるパラメターが局所的な係数の推定に利用する近傍の範囲を決める。これが小さすぎれば、わずかなサンプル数のみで局所的な係数値を推計するので、データへの適合度は高くなるかもしれないが、係数値の信頼性が低くなる。他方で、これが大きすぎれば、重要な係数の地理的変動を見逃してしまうかもしれない。この問題は、いわゆるモデルの自由度と適合度のトレードオフ問題と同様に、ＡＩＣcやＣＶ（クロスバリデーション）と呼ばれる方法で、最適なバンド幅を統計的に求めることもできる。 Optimal どの程度のバンド幅が適当か？ AICc バンド幅バンド幅

GWRの事例 1990年東京大都市圏の保健所管轄区別死亡率（標準化死亡比：SMR）対数値を、専門技術者割合（PRO）に回帰したGWRの結果回帰係数 β1 の分布図：　負の係数がほとんどであり、専門技術者割合が高い地区ほど死亡率が低いが、この傾きには地域差がみられる。 Local R2の分布図：　カーネルで重みづけされた局所的なモデルの決定係数は都心部周辺で高く、専門技術者の割合によって死亡率の地域差がよく説明されている。この事例は、先の空間的回帰モデルの事例と同様に、死亡率の地域差に関する素朴な単回帰分析をGWRで拡張したものである。ガウス型のカーネル関数を利用し、AICｃによって得た最適なバンド幅は11.4 km だった（この数字は中谷(2003)に記載されている12.6km と微妙に異なるが、利用したGWRプログラムが異なるためである。分析結果の違いはほとんどない）。対象地域全体で、専門技術者の割合が高い地域（所得や教育水準の高い地域とみなされる）で、死亡率が低い傾向が明らかだが、その傾向はとくに都心部周辺の社会経済的な居住地の住み分けが明確な地域で強いようである。なお、ここでは対象地域全体で固定した大きなカーネル関数で重み付けを行っているが、重み付けされる地区の数が同じ程度になるように、バンド幅を調整する適応型adaptive なカーネル関数もよく利用される。解釈はバンド幅を固定した方が、分かりやすいかもしれないが、地区単位の大きさが著しく異なるデータの分析や周辺部でのエッジ効果の確認などに、適応型のカーネルはとくに有用である。詳細はGWRの参考文献などを参照されたい。 β1の分布図 Local R2の分布図

まとめ相関関係の計量化相関関係を利用したモデリング　XとYの2変量をもった地理空間データセットにおいて、XとYの相関関係を分析し、モデル化する方法論相関関係の計量化空間的クロス相関：　空間的ラグを考慮した相関係数の拡張クロスバリオグラム：　バリオグラムの2変量版（距離と観測値のずれの関数型をモデル化し、予測に利用する）相関関係を利用したモデリング空間的回帰モデル：　空間的従属性を考慮した回帰モデルの拡張空間的可変パラメターモデル：　空間的異質性を考慮した回帰モデルの拡張

参考文献 de Smith, M.J., Goodchild, M.F. and Longley, P.A. (2007) Geospatial Analysis: A Comprehensive Guide to Principles, Techniques and Software Tools. Matador: Leicester, 394p. 間瀬茂(2010)「地球統計学とクリギング法: RとgeoRによるデータ解析」オーム社. 中谷友樹(2003) 空間的共変動分析, 杉浦　芳夫編『地理空間分析』朝倉書店, pp. 23-48. Rossiter, DG (2007) Technical Note: Co-kriging with the gstat package of the R environment for statistical computing Version 2.1, (First version March 2005). Self-published online, 81p. http://www.itc.nl/personal/rossiter/teach/R/R_ck.pdf