Presentation is loading. Please wait.

Presentation is loading. Please wait.

中谷友樹 nakaya@lt.ritsumei.ac.jp 第4章 空間解析 10 空間分析におけるスケール 中谷友樹 nakaya@lt.ritsumei.ac.jp.

Similar presentations


Presentation on theme: "中谷友樹 nakaya@lt.ritsumei.ac.jp 第4章 空間解析 10 空間分析におけるスケール 中谷友樹 nakaya@lt.ritsumei.ac.jp."— Presentation transcript:

1 中谷友樹 nakaya@lt.ritsumei.ac.jp
第4章 空間解析 10 空間分析におけるスケール 中谷友樹

2 ここで学ぶこと 空間スケールは空間分析においてどのような意味をもつのだろうか? 可変地区単位問題 ローカルとグローバル問題 分析単位の問題
分析範囲の問題 空間スケールの問題は、大きくは分析の単位と分析の範囲の二つの側面にかかわる。

3 2つの空間スケール 空間単位と分析範囲 分析範囲 分析単位 日本全体 地方 都道府県 よく利用される組み合わせ 市区町村
データ量が多くなり計算負荷が 大きいが、分析可能な組み合わせ 都道府県 よく利用される組み合わせ 分析範囲 市区町村 分析範囲が分析単位より狭いので 利用できない組み合わせ この2つの空間スケール問題を考えるために、空間単位のスケールと分析範囲のスケールの関係についてみてみよう。分析単位よりも分析範囲が狭いことはあり得ないので、この図で赤線よりも上の組み合わせでなければ、実際の分析はなしえない。例えば、分析単位が市区町村であれば、分析範囲は1市区町村以上の範囲である必要がある。通常、扱うデータ量の問題もあって、分析範囲が広いほど分析単位も大きいことが多い(濃い灰色の領域)。ただし、GISの発達によって、現在では大量の地理情報処理が行われる場合もある。例えば、町丁・字やメッシュを単位として日本全国のデータを分析するような事例である。 郵便番号区 町丁・字 個人住所 町丁・字 郵便番号区 市区町村 都道府県 分析単位

4 2つの空間スケール問題 分析範囲 分析単位 分析範囲 分析単位 分析範囲は同じだが、分析単位が異なると
結果が変わりうる問題(単位の定義の違い) → 可変空間単位問題 分析範囲が分析単位より狭いので 対象とならない 分析単位 分析単位 分析範囲 分析範囲が分析単位より狭いので 対象とならない スケール問題の1つである分析単位の問題を考えるには、分析範囲を一定とし、利用する分析単位が複数考えられる状況を想定するとよい。このスライドの上の図が、これを説明している。赤色の帯は、分析範囲が一定だが、利用する分析単位として多くの可能性がある状況を示している。そして、この利用する分析単位によって分析結果が変わる問題が、可変空間単位問題として知られている。 一方、スライドの下図のように、分析単位を固定しながらも、分析する範囲が多様に考えられる場合がある。この利用する分析範囲が異なると、得られる結果が異なることも多い。これは、分析範囲の一部の範囲で得られる特性が、他の地域と異なるために、全体(グローバル)でならしてみた時と、局地的(ローカル)に絞ってみた場合では得られる結果が異なるためである。これをローカル・グローバル問題とよんでおくことにしよう。 分析単位は同じだが、分析範囲が異なる ことで生じる問題(全体と部分の違い) → ローカル・グローバル問題

5 2変量相関の仮想事例 可変空間単位問題 分析範囲 分析単位 分析範囲は同じだが、 分析単位が小さい(例えば、市区町村)場合 と
   と 分析単位が大きい(例えば、都道府県)場合    で、X-Yの相関関係が異なる 分析範囲 分析範囲が分析単位より狭いので 対象とならない 分析単位 2変量の相関分析を例にこの2つの問題を、より具体的に考えてみたい。例えば、小さな空間ではあまり関係ははっきりとしないが、大きな空間単位でみると、強い相関関係が確認される場合が、空間単位のスケール問題として古くから知られている。 Ysmall unit i Ylarge unit i Xsmall unit i Xlarge unit i 分析単位が小さい場合の相関 分析単位が大きい場合の相関

6 2変量相関の仮想事例 ローカルとグローバル問題
分析単位 分析範囲 分析範囲が分析単位より狭いので 対象とならない 分析単位は同じだが、 分析範囲が狭い(Region A)場合    と 分析単位が広い(Region A と Region Bを含む)    で、X-Yの相関関係が異なる 一方で、ある範囲での相関関係が、別の範囲での相関関係と異なる場合も、しばしば観察される。左下のように、ある地域Aでは、X-Yに正の相関関係がある。同様に、地域Bでも同じように正の相関がみられるが、XとYの平均的な水準が地域Aよりも低いとしよう。すると、対象地域全体では、負の相関がみられることになる。このように、地域AやBのような局地的なパターン(ローカル・パターン)は、全体をあわせてみたグローバル・パターンとは、大きく異なることがある。 Region A Region A Region B Yareal unit i Yareal unit i Xareal unit i Xareal unit i ローカルな相関 グローバルな相関

7 可変空間単位問題 Modifiable areal unit problem (MAUP)
空間単位のスケール問題は、より一般的には可変空間単位問題の1つとして、知られている。

8 可変空間単位 人口密度、収穫率、投票率など、率指標は適当な地理的な単位で集計して得られる
とくに率指標は、あるサンプル数が多くなる単位でないと統計的に不安定であるので、集計によるメリットがある しかし、地理的な単位は、いくらでも「変更可能modfiable 」な性質を持つ(Yule and Kendall, 1950) そのため、異なる地理的単位の利用が、異なる分析結果をもたらすなら、分析結果の妥当性あるいは一般化は保証されない。 可変空間単位 modifiable areal unit という表現を使ったのは、統計学者のユールとケンドールである。例えば、土地面積あたりの収穫量である収穫率や、人口密度、あるいは投票率のような指標は、適当な地理的単位で集計して観測しなければならない。また、ある程度のサンプル数を確保する意味で、集計することでより信頼性のある値が得られるという集計上のメリットもある。しかし、地理的単位をどのように設定すべきかは、明確な基準がないために、いくらでも変更可能modfiable である点がやっかいである。実際、分析に利用する地理的単位を変更すると、相関係数のような分析結果が異なるため、分析結果は「たまたま」利用できた地理的単位に依存している面を否定し難い。そうであるとすれば、空間的な単位を利用した分析では、統計的なデータの代表性や分析の妥当性や、推論上の一般化が妨げられることになる。 Yule, G.U. and Kendall, M.G. (1950) An introduction to the theory of statistics. Griffin: London.

9 生態学的誤謬 ecological fallacy
マクロ・レベル(集計単位による)相関をミクロ・レベル(非集計単位による)相関と解釈する誤り 社会学者Robinson(1950)による問題提起 個人レベルでは、人種と識字率に相関はない 州レベルでは、非白人の割合が高い地域ほど、識字率は低い 州という集計レベルでは、人種構成と識字率が州の貧困度に大きく規定されているため。 マクロ・レベルとミクロ・レベルの相関は、違う現象を捉えている この可変空間単位の問題は生態学的誤謬と呼ばれる問題と密接に関連している。社会学者のロビンソンは、地理的な集計データを単位とするマクロ・レベルの相関を、個人を単位とするミクロ・レベルの相関とみなす推論上の誤りを、生態学的誤謬と命名し、地理的な集計データの誤った利用を警告した。センサス資料を利用すれば、さまざまな社会学的な問題についての相関分析が可能だが、センサス資料は地理的単位(州や郡)に集計されており、そこでの相関関係は必ずしも個人レベルの統計的関係と一致しない点に留意が必要である。彼がとりあげた題材は、人種と識字率の関係であるが、個人レベルでは相関はないものの、州レベルでみれば非白人の割合が多いほど、識字率は低い相関関係が明確であった。それは、州レベルの人種構成と識字率は、州の貧困度によって規定されているためと説明された(貧困な州であるほど、非白人が多く、白人であっても文字の読めない人が多かった)。すなわち、マクロ・レベルとミクロ・レベルの相関は、それぞれ違う要因に規定されている異なった現象であり、これを混同することが問題なのである。 American Sociological Review 15, 州の人種構成 州の識字率 州の貧困度

10 スケール問題とゾーニング問題 ゾーニング問題 集計方法間で単位間の関係が 一致するとみる推論の誤謬 単位間の関係とみる推論の誤謬
集計単位の関係を非集計 (生態学的誤謬) 非集計単位の関係を集計単位間 の関係とみる推論の誤謬 スケール問題 さて、空間単位問題について考えると、空間単位の大きさを変更した場合に生じる、より狭義な意味でのスケール問題と、同じ程度の大きさ(あるいは数)の空間単位であっても、その空間単位の作り方によって、結果が変わってしまうゾーニング問題がある。 これらに関連する推論上の誤りを考えてみると、スケール問題では2つのリスクがある。第1に、生態学的誤謬のようにマクロ・レベルの関係を、ミクロ・レベルの関係と推論する場合である。第2に、ミクロ・レベルの関係がマクロ・レベルでも成立すると推論する問題もありえる。これは、ロビンソンの逆のケースである。個人レベルでは人種と識字率に関係がないことから、州別の人種構成と識字率にも関係がみられないと想定する状況が、これにあたる。 一方で、ゾーニング問題では、結果の一般性をめぐる問題が生じる。観測される現象が、分析単位の空間スケールに依存することは分かっていても、この集計レベルの分析単位をどのように定義するかによって結果が変わりうるため、ある地理的単位で得られた結果を、同程度のスケールだが違う方法で作成された地理的単位で得られた結果でも成立すると考えてよいだろうか。

11 Openshaw の実験 Iowa州99郡における、高齢者比率(X)と共和党支持者への投票率(Y)の相関係数: 0.34
様々な方法で、より大きな地理的単位に99郡のデータを集計してみると、ほとんどどのような相関係数でも得られる! 地区数 相関係数の 最小値 最大値 6 -0.99 0.99 12 18 -0.97 24 -0.92 30 -0.73 0.98 36 -0.71 0.96 42 -0.55 0.95 48 -0.50 0.90 54 -0.42 0.82 Leeds 大学の地理学部教授だったStan Openshawは、この問いに答えるべくシミュレーション研究を実施した。99の郡から構成されるアイオワ州の高齢者比率(X)と共和党支持者への投票率(Y)の相関関係を題材に、これが集計のスケールとゾーニングによって、どのように変化しうるのかを調べたのである。例えば、地区数54のケースでは、99の郡を54の連続する地区郡に集計するのだが、いろいろな集計の仕方を調べてみると、最も小さな値では-0.42、最も高い値では0.82の相関係数の値が得られた。さらに、地区数が12になると、ほぼ-1から+1 まで、つまり相関係数のとりうる値の全てが、地区郡の適当に定義することで生み出されることが示された。空間単位のスケールはもとより、どのように空間単位を集計するかによって、結果は大きく変わりうるのである。そのため、地理的な集計データから得られた統計的な分析結果は一般化し難い。 もちろん、ここで行った集計地区郡のゾーニングには、地理的な連続性以外の制約がないために、極めて不自然と思える地区割りが発生している(スライド右下)。Openshawは空間単位の大きさや形状、内部の同質性などの制約を設けた場合についても調べており、その場合、これほどの変化にはならないが、どのような制約を設けるかによって結果が変わりうる。そもそも、このスライド右下のようなゾーニングが不自然だと、言えるのだろうか? Oepnshaw, S. (1985) The modifiable areal unit problem. CATMOG 38, Geo Books: Norwich. より Table 11, Figure 2b 地区数12でr = 0.87となるゾーニング例

12 ゲリマンダー 空間単位の恣意性 これは、不自然だが実際に存在したゾーニングの有名な例である。ゲリマンダーとは、特定の候補者あるいは政党に有利なように選挙区を設定する行為をさすが、それは米国の選挙で知事(ゲリー)が所属政党に有利なように奇妙な選挙区を設定した事例が、サラマンダー(火とかげ)ような選挙区だと皮肉られたことに由来する(スライドの画像を参照のこと)。これは極端な例だが、空間単位として奇妙に細長い形状のものや、空間単位の大きさのばらつきなど、現実の統計単位である空間単位の形状や大きさには、大きな多様性があり、どのような単位が「自然」かは判断が難い。

13 位置情報の集計化問題 地点間の距離の変数を利用する施設配置モデルや空間選択モデルでは、距離を定義する位置座標が必要である。
しかし、個人の住所や目的値は地理的集計単位でしか得られない場合が多い。 その場合、各単位内部の位置座標は、重心などの代表点座標で代替され、計測される距離に集計によるバイアスがうまれる。  極端な例だが、各住居から 施設までの距離は、地理的集計によって、施設の位置も全ての住居も、地区の代表点(重心など)にあるとみなされる場合、 施設までの移動に必要な距離はゼロになってしまう。 また、相関分析のような集計された統計資料での集計問題と別に、位置の情報が集計されることで生じる空間単位問題もある。例えば、施設立地モデルや、買い物行動あるいは人口移動などの目的地を選択するモデルでは、個々の行為者の住所と施設あるいは目的地までの距離の情報が必要である。しかし、正確な地理的な位置は、個人のプラバシー保護の問題もあって得られないことが多いため、適当な空間単位で集計された上で、その代表点(例えば重心)に、全ての人が居住していると仮定されることが多い。また、病院や買物場所のような施設の位置も同様である。こうした位置情報を単純化してしまうことによって、実際の距離が大きく歪められてしまう場合があり、最適な施設立地点が変わってきたり、空間選択モデルの係数にバイアスがかかることがある。 集計化

14 どうすればよいのか 解釈や分析方法に注意する 適切な分析単位を作成する 空間的集計による影響をモデル化する
集計された情報しかないならば、MAUPの一般的な解決方法はない 分析単位によって結果が変わりうる点に留意し、分析単位のスケールに対応する解釈を行う。 適切な分析単位を作成する 統一した基準で地理的単位を作成する(ゾーンデザイン)。 集計データから非集計データを推計するマイクロシミュレーションや、空間的補間による位置情報の詳細を推計する 空間的集計による影響をモデル化する 集計によるバイアスそのものを説明・予測するモデルを考える 空間的自己相関と相関係数のスケール変化 位置情報や距離などの幾何学的な集計問題など

15 ローカルパターンと グローバルパターン Local & global patterns

16 グローバルな空間分析の問題 空間的集積性の例
空間的なパターンを調べるために、Moran’s I のような空間的自己相関の統計量を用いることが多い。 正の空間的自己相関は、全体として地理的な集積傾向を示す(グローバル・パターンの指標)。 I > E[I] = - 1/(n-1) であれば、正の空間的自己相関 しかし、正の空間的自己相関が有意であったとして、具体的にどこに集積しているのか(ローカル・パターン)については、分からない。 犯罪対策では、犯罪の集積する場所を特定することが重要 次に、分析単位を固定して、分析範囲の問題と関係した空間分析におけるローカルとグローバルの問題を考える。これまで、多くの空間分析の方法が提案されてきたが、その多くはグローバルな統計量で提案されることが多かった。すなわち、対象地域全体の傾向を要約する指標である。 例として、空間的自己相関の指標を用いた地図パターン研究の問題を考えることにしよう。対象は、犯罪や病気の発生率を考えると分かりやすいであろう。適当な単位で、こうした指標を地図化すると、全体として特定の地域に高い犯罪発生率の地区が固まっているようにみえることがある。Moran’s I のような指標を使い、正の空間的自己相関を検定すれば、犯罪発生が地理的に集積する傾向が統計学的に意味あるものかを判定できる。ただし、これはあくまでも対象地域全体のパターンにある傾向を問題としている。実際には、犯罪の集積地を特定して対策を考えるなど、地理的な集積がどこにあるのかを知りたい場合が多い。しかし、グローバルな指標は、これについて何も語らない。 Moran’s I(自己相関係数)

17 LISA (Local Indicators of Spatial Association) Local Moran’s I
Moran’s I は、各地区iの自己相関成分Iiの総和で定義されている。 このIi(ローカルモラン)に、各地区iを中心とする自己相関傾向のローカルな情報が含まれている。 重みが行基準化されている場合 これに対し、Luc Anselin教授(現在はArizona state university)は、空間的自己相関の指標の多くが、地区ごとの自己相関成分の和として定義されていることに着目し、この各成分をローカルな空間的な関連性の指標と考えることを提案した(LISA)。その典型的な例がローカルモランである。通常、重みは行基準化されるので、スライドの右下のように、モランのIは、xi (各地区のデータ値)と Σwij xj (各地区の近傍のデータ平均値)の関連性を測る指標とみなせ、この全体の関連性に対する地点iごとの寄与をIi として抽出できる。 このIiが正に大きいのは、地区iとその周辺に高い値が集積している(地区iも平均以上で近傍平均値も平均以上)か、地区iとその周辺に低い値が集積しているのか、のどちらかである。 逆に、このIiがマイナスであるなら、地区iとその周辺地区の値とのずれが大きい状況が示唆される。このローカルモランは、xiの値を固定した状況下で、自己相関の有無を検定することができる。

18 モラン散布図 ローカルモランの解釈 II I III IV 回帰直線 (この傾きがMoran’s I に相当) Low-High
High-High 地区iとその近傍がともに高い (高い値のローカルな集積) II I 回帰直線 (この傾きがMoran’s I に相当) 地区i近傍 のx平均 このローカルモランの意味を、より分かりやすく考えるために、モラン散布図が利用できる。横軸は地区iの値、縦軸は地区i周辺の平均値である。この散布図は、横軸・縦軸の平均値(x bar)の位置で4つの象限に区切られる。それぞれの象限は、High-High, Low-High, Low-Low, High-Lowと区別し解釈が可能である。なお、グローバルモランIの値は、この散布図の相関係数値ではなく、この散布図上で回帰直線を引いた時の傾きに相当する。 III IV Low-Low 地区iとその近傍がともに低い (低い値のローカルな集積) High-Low 地区iの値は高いが近傍では低い (局所的な高値 or 非連続的変化) 地区iのx

19 ローカルモランの事例 Low-High (周囲より低死亡率) High-High (高死亡率の連続) Low-Low (低死亡率の連続)
これはAnselin教授が主導して作成したデータ分析環境であるGeoDaを利用して、東京大都市圏の死亡率(対数値)についてローカルモランを計算した例である。ここでは、各地区で5%水準で空間的自己相関が有意であったローカルモランを、4つのタイプ別に示してある。東京都区部の東側から北側へ向かうセクターに高い死亡率の集積が明らかである一方、東京都心部からみて西および南西方向の郊外部に低い死亡率の地域が集積している。 なお、5%水準での独立した検定をN回繰り返すと、N×0.05回は誤って有意な判定結果が得られてしまう(多重検定問題)。しかし、ローカルモランの場合、各地点の検定は互いに独立でないため、どのように有意水準を調整すべきかは厳密には判断が難しい。探索的な目的で利用する分には、検定結果で有意となる地区が多めにでる点に留意すれば、大きな問題はないであろう。 Low-Low (低死亡率の連続) High-Low (周囲より高死亡率) モラン散布図 5%水準で有意なローカルモランの係数値を、モラン散布図で理解できる4タイプ別に 地図化した。高い死亡率のセクターと、低い死亡率のセクターの地理的な集積が明らか。 東京大都市圏保健所管轄区別標準化死亡比(1990年)

20 グローバルとローカルな集積 グローバルな集積性の分析 ローカルな集積性の分析
全体として集積する傾向の識別 Clustering tendency 結果は1つの数値に要約 ローカルな集積性の分析 具体的に集積する場所の特定 Cluster detection 結果は地図に示しうる ただし、ローカルな集積の範囲をどの程度に想定するのかにおいて、ある種のスケール問題が発生する このような地理的な集積を題材としたグローバルとローカルなパターンの分析の違いを、簡単に確認してみよう。 ローカルな空間分析は具体的な集積の場所を示唆してくれるが、ローカルモランを定義する近傍をどのように定義するのかの問題は残る。それは、ローカルな集積の範囲をどの程度の空間スケールで考えるべきかという問題であり、事前に決定することが必ずしも容易であるとは限らない。

21 Geographical Analysis Machine ローカルな関係をみるスケール問題への挑戦
小児性白血病と 核再処理施設? 適当な位置・大きさの円を仮定する 円内部の有病率を統計的に検定し、有意に高いなら円を描く 円の位置、大きさを変更し1と2を「かたっぱしに」繰り返す こうした「ローカルな傾向をみる範囲」を自動的に探るために、OpenshawはGAMと呼ばれる手法を提案した。この方法は、様々な位置および大きさの円領域をもって疾病の集積を検定し、ローカルな集積の位置はもとよりローカルな集積の範囲を自動的に検出しようとする。 この方法は前述の多重検定の問題を深刻に受けるため、現在では利用されることはないが、同様な原理に基づき統計学的に検定手法を改良したspatial scan statistics などのローカルな集積の自動検出方法が広く利用されている。 Openshaw, S. (1990): Automating the search for cancer clusters: a review of problems, progress, and opportunities. In Thomas, R. W. ed.: Spatial Epidemiology. Pion: London, Seascale Source: Openshaw, S. et al (1990)

22 地理的加重回帰法GWR 回帰分析のローカルモデリング
グローバル・モデル: 回帰係数を対象地域全体で1つに固定する通常の回帰モデル ローカル・モデル: 回帰係数のローカルな変化を想定したモデル(GWRモデル) ローカルな係数は、地区i近傍のデータに重みをつけた最小2乗法によって推定する。 また、相関あるいは回帰モデルについても、空間的異質性への対処としてローカルな回帰モデルが提案されてきた。代表的なものにGWRがある。ここでは、通常の回帰モデルがグローバルなパターンを捉えるモデルとみなされるのに対し、回帰係数の地理的な変異を許すGWRのモデルはローカルなパターンを捉えるローカル・モデルとみなされる。 地点ごとに回帰係数の推定を繰り返すと、回帰係数の分布面が得られる Y X Y X

23 マルチレベル分析 特定の地域グループを前提として、パラメターのグループ間での変動を、適当な確率分布でモデル化する階層線型モデル(マルチレベル分析)も、ローカルな回帰モデルの1種とみなせる。 分析単位レベルのモデル jは地区iが属している 地域グループ グループ・レベルのモデル Region A Region A GWRと関連した統計学的手法にマルチレベル分析がある。GWRはノンパラメトリックな係数の推定方法を利用する探索的な手法であるが、マルチレベル分析はより確証的な分析手法である。マルチレベル分析では、事前に、パラメターの変動をみる上位の地域単位(分析単位の地理的グループ)を設定し、この上位の地域単位ごとの係数が何らかの確率分布に従っているものとして空間分析を行うことができる。ここでの例では、切片および(偏)回帰係数が、ある平均値γのまわりにある大きさの分散σ2をもつ正規分布に従って変動していると想定されている。 このような地理的な係数のローカルな変動が重要である事例は既に述べたが、今一度示すと、スライドの下側のようなグラフで説明できる。例えば、赤点で示される地域グループAと、青点で示される地域グループB、さらにはその他多数の地域グループのデータが得られているとしよう。個々の地域では正の相関があるが、全体的なXとYの水準が地域グループを単位として変化しているために、グローバルな回帰モデルでは、負の相関係数が得られてしまう(スライド左)。 これに対して、マルチレベル分析では、この地域グループごとに切片と傾きが(一定の確率分布に従うという制約はあるが)変動すると想定するために、各地域グループでみられるローカルな正の相関関係(正の回帰係数)が推定される(スライド右)。なお、現実にはローカルな相関関係は地域グループごとで多様に変化する場合もある。 なお、GWRは、事前に地域グループを仮定せずに、係数の空間的な変異を推定する方法と考えることもできる。また、マルチレベル分析と関連した階層モデルには多様な手法があり、係数の空間的に連続した変異をモデル化する方法もある。 Region B Region B Yareal unit i Yareal unit i Xareal unit i Xareal unit i グローバルな回帰モデル 切片と傾きは全体で1つ マルチレベル・モデル 切片と傾きは地域グループごと変動

24 まとめ 空間分析における空間スケールの2つの問題 可変地区単位問題 MAUP ローカルパターンとグローバルパターン 分析単位の問題
空間分析に基づく推論上の誤りに対する注意 解決の難しい難問 適切な空間「単位」とは? ローカルパターンとグローバルパターン 分析範囲の問題 グローバル: 全体の傾向の要約 ローカル: 特定の位置・範囲に関する特性(地図上に示せる) 適切なローカルな範囲とは?


Download ppt "中谷友樹 nakaya@lt.ritsumei.ac.jp 第4章 空間解析 10 空間分析におけるスケール 中谷友樹 nakaya@lt.ritsumei.ac.jp."

Similar presentations


Ads by Google