浅見泰司 asami@csis.u-tokyo.ac.jp 2010年10月17日 第4章 空間解析 6. 傾向面分析 浅見泰司 asami@csis.u-tokyo.ac.jp.

Slides:



Advertisements
Similar presentations
環境経済論 第 7 回目 ヘドニック・アプローチ. Court (米国自動車工業会 ) による自動車 価格変化の研究、 1939 – 自動車価格とさまざまな特性(馬力、長さな ど)との数量的関係 – 財の諸特性が快楽( hedonic pleasure )を生 み出すと考える – ヘドニック要因で説明される価格(又はその.
Advertisements

Lesson 9. 頻度と分布 §D. 正規分布. 正規分布 Normal Distribution 最もよく使われる連続確率分布 釣り鐘形の曲線 -∽から+ ∽までの値を取る 平均 mean =中央値 median =最頻値 mode 曲線より下の面積は1に等しい.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
2016 年度 計量経済学 講義内容 担当者: 河田 正樹
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
データ解析
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
データ分析入門(12) 第12章 単回帰分析 廣野元久.
寺尾 敦 青山学院大学社会情報学部 社会統計 第13回 重回帰分析(第11章後半) 寺尾 敦 青山学院大学社会情報学部
  個人投資家向け株式分析   と予測システム A1グループ  劉 チュン.
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
重回帰分析入門 経済データ解析 2009年度.
実証分析の手順 経済データ解析 2011年度.
第2章 単純回帰分析 ー 計量経済学 ー.
第4回 (10/16) 授業の学習目標 先輩の卒論の調査に協力する。 2つの定量的変数間の関係を調べる最も簡単な方法は?
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
Bassモデルにおける 最尤法を用いたパラメータ推定
重回帰分析入門 経済データ解析 2011年度.
心理統計学 II 第7回 (11/13) 授業の学習目標 相関係数のまとめと具体的な計算例の復習 相関係数の実習.
Bias2 - Variance - Noise 分解
放射線の計算や測定における統計誤差 「平均の誤差」とその応用(1H) 2項分布、ポアソン分布、ガウス分布(1H) 最小二乗法(1H)
回帰分析.
寺尾 敦 青山学院大学社会情報学部 社会統計 第12回 重回帰分析(第11章前半) 寺尾 敦 青山学院大学社会情報学部
相関と回帰:相関分析 2つの変量それぞれが正規分布にしたがってばらつく量であるとき,両変数の直線的な関係を相関分析する. 例:兄弟の身長
第6章 数量化I類.
第3章 重回帰分析 ー 計量経済学 ー.
第3章 重回帰分析 ー 計量経済学 ー.
第5章 回帰分析入門 統計学 2006年度.
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
透視投影(中心射影)とは  ○ 3次元空間上の点を2次元平面へ投影する方法の一つ  ○ 投影方法   1.投影中心を定義する   2.投影平面を定義する
最尤推定によるロジスティック回帰 対数尤度関数の最大化.
需要の価格弾力性 価格の変化率と需要の変化率の比.
スペクトル・時系列データの前処理方法 ~平滑化 (スムージング) と微分~
VI-5 線分布(ネットワークデータ)を分析する方法
ガウス過程による回帰 Gaussian Process Regression GPR
第6章 カーネル法 修士2年 藤井 敬士.
線形フィルタと畳み込み積分 マスクによる画像のフィルタリング 1.入力画像中の関心の画素のまわりの画素値
相関分析.
データ解析 静岡大学工学部 安藤和敏
 統計学講義 第11回     相関係数、回帰直線    決定係数.
4章までのまとめ ー 計量経済学 ー.
確率・統計Ⅰ 第3回 確率変数の独立性 / 確率変数の平均 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
プログラミング論 II 2008年吉日 主成分分析 数値積分
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
最小自乗法.
主成分分析 Principal Component Analysis PCA
第1日目第3時限の学習目標 2変量データを手にした時の分布の特徴の記述方法(前回からの続き)について学ぶ。 基本的な2変量統計量ー1
部分的最小二乗回帰 Partial Least Squares Regression PLS
第3章補足2 多変量データの記述 統計学基礎 2010年度.
確率と統計2009 第12日目(A).
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
データ解析 静岡大学工学部 安藤和敏
データ解析 静岡大学工学部 安藤和敏
回帰分析(Regression Analysis)
第9章 学習アルゴリズムとベイズ決定側 〔3〕最小2乗法とベイズ決定側 発表:2003年7月4日 時田 陽一
第3日目第4時限の学習目標 第1日目第3時限のスライドによる、名義尺度2変数間の連関のカイ2乗統計量についての復習
データ解析 静岡大学工学部 安藤和敏
第2章 統計データの記述 データについての理解 度数分布表の作成.
重回帰分析入門 経済データ解析 2008年度.
重回帰分析入門 (第5章補足) 統計学 2007年度.
モデルの微分による非線形モデルの解釈 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
回帰分析入門 経済データ解析 2011年度.
電磁気学C Electromagnetics C 7/10講義分 電気双極子による電磁波の放射 山田 博仁.
最終プレゼンテーション 「合併率と都道府県格差の 関係について」 2006年1月24日(火) 2002359 秦 数正
Presentation transcript:

浅見泰司 asami@csis.u-tokyo.ac.jp 2010年10月17日 第4章 空間解析 6. 傾向面分析 浅見泰司 asami@csis.u-tokyo.ac.jp

ここで学ぶこと 大まかな空間分布をとらえる手法として傾向面分析の内容を理解する。 1,2,4次関数の曲面で近似することで、どちらの方向で高いか、どちらの方向に広がっているのかなどをとらえることができる。

傾向面分析のニーズ 地表面上の連続的な分布は、サーフェス(surface)を形成する。 これを簡単な関数で近似できると便利。 例 人口密度 地価 気温 これを簡単な関数で近似できると便利。 概略の形がわかる 数値計算に便利なこともある 大まかな傾向把握が可能となる

都市の人口密度分布で考えてみる。 まずは都心からの距離で表す方法を紹介し、次に、2次関数などで空間分布を近似する傾向面分析に発展させていく。

都心からの距離と人口密度 都市内の人口分布を簡単な関数で近似する方法があると便利。 よく行われる方法は、都心部からの距離で人口密度を表すこと。 地形・地質上の制約がなければ、都市はほぼ同心円的に発展する。そのため、都心部からの距離が似ていれば地区の市街化状況も似ていると考えられる。そこで、人口密度もおおまかには都心部からの距離で決まっているだろうと仮定する。 この考え方をもとに、20世紀半ばから様々な式が開発されてきた。 都心部からの距離をx、その地点での人口密度をD(x)として、いくつかの式を紹介する。 下記の式は夜間人口を念頭に開発されたものだが、人口分布に適合するならば昼間人口やその他の人口分布に応用してもかまわない。

クラーク(Clark)の式 よく使われる表現式は、クラークの式(Clark (1951))と呼ばれる。 D(x)=a exp(bx) ただし、aは(モデル上の)都心部の人口密度、bは定数。 都心部から離れるに従って人口密度が減少するため、b < 0。 Clark (1951)は、アメリカなどの都市の人口密度を調べ、比較的よく記述できることを示した。 その頃の都市は都心部ほど人口密度の高い単峰的な分布を示す都市が多かった。 その後都市が発展するに従って、都心部より離れた部分の人口密度の方が高い都市が増えた。これは、副都心が発達したり、都心部が空洞化するため。 negative exponential modelとも呼ばれる。この式は、次のような特徴を持つ。 (1)中心地点で最も密度が高い。 (2)人口密度のグラフは下に凸の形である。

パラメータa, bを推定するのには、各地点での人口密度の対数を都心部からの距離で単回帰分析すればよい。 すなわち、   log D(x)=log a + bx という式で回帰分析し、定数項を後で変換すれば良い。 クラークの式を用いた分析で、特にbの値が経年的にどのように変化するかを調べることにより、都市の外延化現象を分析することができる。bが減少するほど、外延化現象が進んでいる。

ニューリング(Newling)の式 クラークの式では空洞化現象の進んだ規模の大きい都市の人口分布を表現することは困難。そこで、この欠点を改めるために提案されたのが、ニューリングの式(Newling (1969))。  D(x) = a exp(bx+cx2) aは(モデル上の)都心部の人口密度、bとcは定数。 都心部から離れるにつれて人口密度は上昇しそれから減少するというのが一般的なので、b>0, c<0となる。 単峰的な都市ではb<0となることもある。 指数の部分が2次式であるため、quadratic exponential model ともいわれる。 この式には次のような特徴がある。 (1) b>0の時、中心からやや離れた地点において人口密度が最大になる。  (x = -b/(2c) において最大値a exp[-b2/(4c)]をとる。) (2) b>0の時、最大人口密度点ではグラフが上に凸である。 (3) 都心部から充分離れた地点では人口密度のグラフは下に凸で、人口密度は都心部から離れるに従って減少する。 (4) b<0ならば都心部を最大密度とする分布となり、グラフは下に凸となる。 (5) b<0かつc=0とすれば、Clark の式となる。従って、ニューリングの式はクラークの式を含む、より一般的な式である。 空洞化現象も表すことができる。

ニューリングの式のパラメータを実際の人口密度分布から推定するには、各地点での人口密度の対数を都心部からの距離とその二乗値で重回帰分析すればよい。 すなわち、   log D(x) = log a + bx+cx2 という式で回帰分析し、定数項を後で変換すれば良い。 ニューリングの式の応用として、モデル上の人口密度最大点の経年的変化を求めることにより、ドーナツ化現象を分析できる。すなわち、最大点( -b/(2c) )が都心部から離れるほど、ドーナツ化現象が進行していると考えられる。 ただ、xがあまりに小さな範囲に限定される場合は、この回帰分析による推定方法は不安定となる。

アインバーグ(Aynvarg)の式 都市の空洞化現象を表す別の改良された式として、アインバーグの式(Aynvarg (1969); Angel and Hyman (1972))がある。この式は次のように表せる。   D(x) = a exp(bx)xc a, b, cは定数。 通常、都心部からやや離れた地点で密度が最大に達し、その後減少していくという分布なので、a>0, b<0, c>0という符号をとる。 この式を現実の都市の人口分布にあてはめるには、通常の線形回帰分析ではできない。このことと、上記・の性質が多くの都市では成り立たないために、アインバーグの式はさほど用いられない。ただ、xの二乗の指数関数項がないため、ニューリングの式よりも、「ゆるやかに」密度が減少するような関数になり、都心部を除いて、現実の都市内人口密度分布に適合しやすい。 この式は関数形からlinear gamma function model とも呼ばれる。 この式には次のような特徴がある。 (1)中心からやや離れた地点において人口密度が最大になる。(x = -c/bにおいて、最大値a exp(-c)(-c/b)cをとる。) (2)中心地点での人口密度は0。 (3)最大人口密度点のすぐ外側では(ニューリングの式と異なり)下に凸で人口  密度が減少する。 (4)c=0とすれば、クラークの式となる。従って、クラークの式の別の拡張とも言える。

パール(Parr)らの式 パールら(Parr, et al. (1988))は、二つの新しい関数形を提案している。その中で、実用にもなりそうな式を紹介する。   D(x) = a exp[b(log x) + c(log x)2] ただし、a, b, cは定数で、対数は自然対数である。典型的にはa > 0, c<0という符号をとる。 この式もアインバーグの式と同様、中心部の人口密度は0に限定されるという欠点を持つ。 ただし、関数形から人口減少がより「ゆるやかな」関数形を推定でき、かなり外延化した人口分布に(都心部を除いて)適合しやすい。 関数形からlognormal function modelとも呼ばれる。 この式の特徴は、 (1)中心部の人口密度は0である。 (2)中心からやや離れた地点で人口密度は最大となる。(x = exp[-b/(2c)]において最大値a exp[-b2/(4c)]) をとる。) (3)最大密度点以遠では下に凸で減少する。 である。

参考: 人口密度分布式 Stewart (1947) Clark (1951) Tanner (1961) Smeed (1963) 参考: 人口密度分布式 Stewart (1947) D(x) = D0-bx Clark (1951) D(x) = D0 exp(-bx) Tanner (1961) D(x) = D0 exp(-cx2) Smeed (1963) D(x) = D0 x-a Aynvarg (1969) D(x) = D0 exp[(bx)x-f] Stewart (1947)の式は都心からの一次式

Newling (1969) Newling (1971) McDonald and Bowman (1976) D(x) = D0 exp(bx+cx2) Newling (1971) D(x) = D0+bx-cx2 McDonald and Bowman (1976) D(x) = D0 (xR-x)b D(x) = D0 exp(-ax+b/x) Kau and Lee (1976) [D(x)l-1]/l = a+bx [D(x)l-1]/l = a+b(xl-1)/l Newling (1971)の式は都心からの距離の二次式

Frankena (1978) Zielinski (1979) D(x) = D0-bx+cx2-dx3 D(x) = D0 exp(-bx+cx2-dx3) Zielinski (1979) D(x) = D0 exp(bx-cx2)x-f D(x) = D0 exp[-cx2x-f] Frankena (1978)の式は、都心からの距離の三次式

中心からの(x,y)座標で表すとx,yで表現する式になる この中のいくつかは距離に関するn次式 中心からの(x,y)座標で表すとx,yで表現する式になる D(x) = f(x,y) もう一つの欠点は、都心部からの距離だけで表現されているので、どの方向にも同じような分布をしていることが暗黙に仮定されている。この欠点を補う方法が、座標点の式で表現する方法。→傾向面分析

人口密度分布式関連文献 Angel, S. and G.M. Hyman (1972) "Urban Spatial Interaction" Environment and Planning, 4, 99-118. Aynvarg, Y. (1969) “Zones of Influence of Middle-Sized Cities, Their Boundaries and Passenger Flows” Soviet Geography, 10, 549-558. Clark, C. (1951) "Urban population densities” Journal of the Royal Statistical Society, 114, 490-496. Frankena, M. (1978) "A bias in estimating urban population density functions” Journal of Urban Economics, 5, 35-45. Kau, J.B. and Lee, C.F. (1976a) "Capital-land substitution and urban land use” Journal of Regional Science, 16, 83-92. Kau, J.B. and Lee, C.F. (1976b) "The functional form in estimating the density gradient: An empirical investigation” Journal of the American Statistical Association, 71, 326-327.

McDonald, J. y Bowman, H.W. (1976) "Some tests of alternative urban population density functions” Journal of Urban Economics, 6, 242-252. Newling, B. (1969) "The spatial variation of urban population densities” Geographical Review, 59, 242-252. Newling, B. (1971) "The spatial variation of urban population densities” in Internal Structure of the City, Oxford University Press, London. Smeed, R.J. (1963) "The effect of some kinds of routing systems on the amount of traffic in central areas of towns” Journal of the Institution of Highway Engineers, 10, 5-26. Stewart, J.Q. (1947) "Empirical mathematical rules concerning the distribution and equilibrium of population” Geographical Review, 24, 461-485. Tanner, J.C. (1961) “Factors effecting the amount of travel” Road Research Technical Papers, 51, 46-73. Zielinski, K. (1979) “Experimental analysis of eleven models of urban population density” Environment and Planning A, 11, 629-641.

傾向面分析(trend surface analysis) 規則的あるいは不規則的に分布しているn個の観測点について、観測された値の分布をできる限り近似するサーフェスを回帰式によって数学的に求めるもの(張, 2001; 奥野, 1977; O’Sullivan and Unwin, 2002)。

傾向面分析とは 傾向面分析とは2次元に広がった人口密度の値をなめらかな曲線で近似して、その分布の特徴をとらえるものである。2次元の広がりをxy座標で表そう。例えば、x軸が東方向、y軸が北方向としても良い。 原点を例えば都心部など分析上便利な中心的な点に定める。人口密度がわかっている点を(xi, yi) (i=1,...,N)とし、その地点の人口密度をpiとする。人口密度をなめらかな曲線で近似した式を、z = f(x, y)とする。近似するのだから、人口密度がわかっている各地点iで、piとf(xi, yi)の違いをなるべく小さくする必要がある。そのため、その差の2乗の和を最小化する最小二乗法を用いて、近似曲線fを求めるのが一般的。 傾向面分析の説明

1次傾向面 最も簡単な(ただ、あまり近似は良くない)1次傾向面をとりあげる。これは、fの関数として1次の式を用いるもので、a, b, cを定数として、   f(x, y) = ax+by+c と表すことができる。定数は最小二乗法で推定する。 山形に分布する人口密度を平面で近似しようというのだから、さほど近似にならない。ただ、どちらの方向に人口密度が多いかを知ることはできる。具体的には、(a, b)の方向に人口密度が多い地域が卓越していることになる。

2次傾向面 現実的な分析は、2次以上の傾向面分析によって行うことができる。2次傾向面は、fの関数として2次式を用いるもので、a~gを定数として、   f(x, y) = ax2 + bxy + cy2 + dx +ey + g と表すことができる。 都市全域を含めて分析すれば、通常、aとcは負の値となって、上に凸の2次曲面となる。 2次傾向面で重要な点は、2次傾向面の最大値で、これが、分析対象都市の人口分布での中心地に相当する。 もうひとつ重要なのは、どちらの方向に長く人口密度が高い地域が広がっているかを示すもので、これは、得られた2次曲面が楕円曲面となっている場合に、その長軸方向が求めるべき方向となる。

4次傾向面 都市の人口密度分布は都市全域で考えれば周辺部が小さくなる山形なので、3次傾向面はあまり用いられず、4次傾向面が使われる。4次傾向面も上と同様に、fが4次式で表されるものである。 4次式を用いると、都心部の空洞化現象なども表すことができ、例えば、どちらの方向に空洞化が卓越しているかなどを分析することができる。

傾向面分析の例 まずは、計算例を見てみよう! 例 東京都23区の2010年における人口密度分布 人口・世帯数:2010年1月の住民基本台帳 緯度経度は各区役所の位置 (x,y)は経度と緯度がそれぞれ、最小値0、最大値1になるように変換したもの

2010年の23区の人口密度と位置 住民基本台帳による1月1日人口 TITLE 2010年人口 2010年世帯数 人口密度 緯度 経度 x y UNIT 人 世帯 人/k㎡ 千代田区 47 138 25 914 4 050 35.69078 139.7569 0.504551 0.620816 中央区 113 871 65 786 11 186 35.66736 139.7753 0.583844 0.51118 港区 201 543 114 816 9 909 35.6548 139.7548 0.495666 0.452374 新宿区 282 144 169 573 15 477 35.69066 139.7067 0.288472 0.620266 文京区 189 286 101 803 16 736 35.70465 139.756 0.500805 0.685759 台東区 166 984 92 656 16 566 35.70937 139.7832 0.617948 0.707865 墨田区 238 356 123 891 17 335 35.70723 139.8047 0.710638 0.697846 江東区 446 393 221 922 11 177 35.66972 139.8201 0.776651 0.522229 品川区 348 590 189 946 15 343 35.60597 139.7334 0.403587 0.223792 目黒区 253 022 140 005 17 212 35.63723 139.7019 0.26818 0.370099 大田区 674 527 344 808 11 344 35.55817 139.7193 0.342949 世田谷区 831 654 432 941 14 319 35.6428 139.6561 0.070852 0.396199 渋谷区 195 911 117 103 12 966 35.66064 139.7013 0.265266 0.47972 中野区 299 562 175 932 19 215 35.70417 139.6671 0.118013 0.68351 杉並区 527 158 291 990 15 496 35.69631 139.6396 0.646727 豊島区 244 637 144 007 18 804 35.72917 139.7188 0.340539 0.800566 北区 318 711 167 842 15 479 35.74967 139.737 0.418907 0.89654 荒川区 186 906 94 378 18 324 35.73291 139.7866 0.632748 0.818071 板橋区 518 116 266 100 16 106 35.74788 139.7124 0.313076 0.888123 練馬区 692 450 332 307 14 378 35.73249 139.6549 0.065682 0.816086 足立区 641 888 300 892 12 066 35.77177 139.8078 0.723741 1 葛飾区 431 796 203 087 12 394 35.74054 139.8506 0.908185 0.853801 江戸川区 651 884 303 029 13 074 35.70361 139.872 0.68088 住民基本台帳による2010年1月1日における東京23区の人口密度の表

コロプレスマップ おおまかに言うと・・・ 北西の方が密度が高い。 中心部は少なく、周辺で多く、外延部で少ない(ドーナツ化現象)。 ように見える。

おおまかに言うと・・・ Q1:北西の方が密度が高い? Q2:中心部は少なく、周辺で多く、外延部で少ない(ドーナツ化現象)?

本来はコロプレス・マップで表現すべきだが、あえて、それぞれの区役所の位置で代表させて、その地点における人口密度であると考えると・・・

23区の区役所の位置を基準化してプロットした物

一次回帰式 PopDensity = ax+by+c という回帰分析をしてみると・・・

概要 回帰統計 重相関 R 0.4131157 重決定 R2 0.1706645 補正 R2 0.087731 標準誤差 3298.5859 観測数 23 分散分析表 自由度 変動 分散 観測された分散比 有意 F 回帰 2 44781502 22390751 2.0578469 0.1539226 残差 20 217613381 10880669 合計 22 262394884 係数 t P-値 下限 95% 上限 95% 切片 13338.476 2133.9166 6.2507016 4.194E-06 8887.2036 17789.747 x -4456.264 2692.9978 -1.65476 0.1135824 -10073.76 1161.2312 y 4751.7811 3092.9641 1.5363195 0.14013 -1700.029 11203.591 回帰分析結果

つまり、 PopDensity = -4456.264x+4751.7811y+13338.476 北(yが正)西(xが負)側に人口密度がやや多いが、xの係数もyの係数も統計的に有意ではない。 →Q1は×

さらに、二次回帰式 PopDensity = ax2 + bxy + cy2 + dx +ey + g という回帰分析をしてみると・・・

回帰統計 重相関 R 0.417101 重決定 R2 0.173973 補正 R2 -0.06898 標準誤差 3570.674 観測数 23 分散分析表 自由度 変動 分散 観測された分散比 有意 F 回帰 5 45649720 9129944 0.71609 0.620023 残差 17 2.17E+08 12749716 合計 22 2.62E+08 係数 t P-値 下限 95% 上限 95% 切片 14340.91 5594.828 2.563244 0.020153 2536.853 26144.96 x -7301.91 15252.06 -0.47875 0.638217 -39480.9 24877.13 y 3874.794 12098.37 0.320274 0.752664 -21650.5 29400.12 x^2 -949.794 10057.46 -0.09444 0.925866 -22169.2 20269.6 xy 5465.804 21078.07 0.259312 0.798508 -39005 49936.64 y^2 -1200.56 11678.02 -0.1028 0.919321 -25839 23437.9 回帰分析結果

つまり、 PopDensity = -950x2 +5466xy-1201y2-7302x +3875y+14341 ・・・x2とy2の係数はマイナスだけど、xyの係数はプラス

実際、y=x(北東-南西方向)とすると、 PopDensity = 3315x2-3427x+14341 x,yで2階微分すると、 これは負値行列ではない! つまり上に凸ではない 実際、y=x(北東-南西方向)とすると、 PopDensity = 3315x2-3427x+14341 となり、原点から十分遠いところでは大きくなる! 北東-南西方向では下に凸! →Q2も× 負値の議論は、線形代数を習っていないとやや難しいので、そのときは上半分の記述は無視しても良い。

このように、コロプレスマップではごまかされてしまうようなことを傾向面分析により正確に分析できる!

多項式関数の適合 先の例のように、サーフェスモデルを求める際、回帰式に多項式を用いる場合がある。 これが傾向面分析の基礎的な応用。 通常は、平面の当てはめ(一次関数により傾向面分析)、もしくは二次関数による当てはめくらいしか行わない。それ以上だと、解釈が難しくなってくる。

多項式関数の適合 より正確に記述すると: zi=f(xi,yi)+ei ただし、ziはi番目の観測値、(xi,yi)はi番目の観測値の(x,y)座標、f()は傾向面関数、eiはi番目の観測値の誤差。 傾向面関数が線形であれば、通常の線形の回帰分析で関数を推計できる。

残差解析 サーフェス全体の分散を傾向(多項回帰式)と傾向からの残差に分け、そのうちの残差に注目し、その統計的性質をもとに多項回帰式の妥当性や外れ値の抽出などがおこなわれる。

応用として、回帰分析の残差分析にも使われる。 まずは、説明変数で回帰して、その残差について傾向面分析を行う。 一度にやってしまうには、 zi=g(ti)+f(xi,yi)+ei という関数を推計すればよい。ただし、g()は属性に関する回帰分析の関数、tiはi番目の観測値の属性値ベクトルである。

例えば、人口密度は道路密度(1㎢あたりのkm単位の道路長さ)で決まると考えたとする。そうすると、 PopDensity = a+bRoadDensity+e e = cxx+cyy+e   というモデルを考えることができる。最初の式は、人口密度が道路密度の一次関数で表現できるというモデルであり、二番目の式は、その誤差に関する傾向面分析である。

これを一つの式に表わすと PopDensity = a+bRoadDensity+cxx+cyy+e   となる。これは、上記の残差傾向面分析の式の形となっている。 実際にやってみると・・・ (道路密度は2008年のデータ)

人/k㎡ km/k㎡ 人口密度 道路密度 x y 千代田区 4050 15.10593 0.504551 0.620816 中央区 11186 19.0553 0.583844 0.51118 港区 9909 14.79744 0.495666 0.452374 新宿区 15477 19.20274 0.288472 0.620266 文京区 16736 18.31459 0.500805 0.685759 台東区 16566 25.67421 0.617948 0.707865 墨田区 17335 21.41433 0.710638 0.697846 江東区 11177 9.727892 0.776651 0.522229 品川区 15343 16.74489 0.403587 0.223792 目黒区 17212 24.13 0.26818 0.370099 大田区 11344 14.19803 0.342949 世田谷区 14319 20.31804 0.070852 0.396199 渋谷区 12966 17.84308 0.265266 0.47972 中野区 19215 23.32566 0.118013 0.68351 杉並区 15496 22.10697 0.646727 豊島区 18804 23.77456 0.340539 0.800566 北区 15479 18.05639 0.418907 0.89654 荒川区 18324 21.10902 0.632748 0.818071 板橋区 16106 22.9705 0.313076 0.888123 練馬区 14378 23.2794 0.065682 0.816086 足立区 12066 19.40273 0.723741 1 葛飾区 12394 19.93384 0.908185 0.853801 江戸川区 13074 21.76619 0.68088 東京23区の人口密度と道路密度のデータ

回帰統計 重相関 R 0.675193 重決定 R2 0.455886 補正 R2 0.369973 標準誤差 2741.232 観測数 分散分析表 自由度 変動 分散 観測された分散比 有意 F 回帰 3 1.2E+08 39874047 5.306383 0.007931 残差 19 1.43E+08 7514355 合計 22 2.62E+08 係数 t P-値 下限 95% 上限 95% 切片 3515.1 3582.417 0.981209 0.33882 -3982.98 11013.18 道路密度 588.829 186.5804 3.155899 0.005203 198.3117 979.3463 x -1408.77 2437.412 -0.57798 0.570066 -6510.33 3692.79 y -251.106 3019.889 -0.08315 0.934602 -6571.81 6069.595 人口密度を被説明変数、人口密度と区役所の位置を示すx,yで回帰分析した結果

PopDensity = 3515+589RoadDensity-1409x-251y+e つまり、道路密度で人口密度はほぼ説明され、かつ誤差にも一定方向に大きな誤差があるというような有意な傾向がないことがわかる。

残差に対する傾向面分析は、時として回帰式には含まれない隠れた変数を見出すヒントになることもある。ただし、あまり強力な方法とはならないことが多い。

参考文献 O’Sullivan, David and David J. Unwin (2002) Geographic Information Analysis, John Wiley & Sons, Inc. 奥野隆史(1977)『計量地理学の基礎』大明堂. 張長平(2001)『地理情報システムを用いた空間データ分析』古今書院.