VII-3 空間選択モデル 空間におけるオブジェクトの選択行動を記述するためのモデル. 例: 買物先選択,居住地選択,観光地選択, 経路選択など 主に地理学で開発されてきたモデルである.
VII-3.1 重力モデル 領域間の移動交通量や通信量の記述によく用いられる. 領域:S1, S2, …, Sn 領域iから領域jへ移動する人の数:yij 領域iとjの間の距離:dij
移動する人の数yijは,ij間の距離dijに明らかに影響を受ける.しかし,iからjへの移動では,他の移動候補先1, 2, …, j-1, j+1, …, nまでの距離も影響するであろう.さらに,各領域の持つ,移動を発生させるポテンシャルも考慮に入れなければならない.
そこで,以下のモデルを考える. 但し,aiは領域iの移動発生地としてのポテンシャル,bjは領域jの移動到着地としてのポテンシャル,p,q,gは負の定数である.
この式は,Newtonの重力モデル とよく似ており,そのため重力モデルと呼ばれている.但し,歴史的にはこのモデルは重力モデルを模して作られたものである.
この式はこのままでは扱いづらいため,対数変換した上で誤差項を加え, とする.
問題は,このモデルの推定方法である.一つの方法は,各領域のポテンシャルとして人口や産業の生産高などを与え,残りのパラメータp,q,gを重回帰分析で推定する方法である.この方法は適用が簡単であり,良いように思われる.
ところが,この方法には少なくとも4つの問題がある.
1) 推定したデータを発着地それぞれで合計したときに,その和が元のデータの和と必ずしも一致しない.即ち,以下の条件が必ずしも成立しない. 2) 被説明変数yijが,必ずしも整数値になるとは限らない.
3) 誤差項eijに等分散性を仮定するのは難しい.ポテンシャルの大きい領域間に移動であれば,普通は,誤差の分散も大きくなる. 4) ポテンシャルとして何らかの変数をあらかじめ与えてしまうと,その変数選択がモデルの精度に大きく影響する.
これらの問題のうち,2)-4)は様々なモデルに共通の問題であり,解決方法はいくつかある.しかし,1) は重力モデル固有の問題であり,また非常に重要でもある.なぜならば,各領域内の人口は既に与えられているにもかかわらず,それ以上(あるいはそれ以下)の移動数を予測してしまう可能性があるからである.
これらの困難を解決するには,Poisson回帰モデルを適用すればよい.このモデルでは,少なくとも問題点の2)と3)は解決される.さらに,p=q=1とし,その代わりにポテンシャルa1, a2, …, an, b1, b2, …, bnも同時に推定すれば,問題点4)も解決可能である.
では,問題点1)はどうか?
実は驚くべきことに,Poisson回帰モデルを適用すると,発着地における制約条件は(偶然)全て満たされてしまうのである.
最尤法によるモデル推定 対数尤度:
対数尤度を最大化するパラメータai, bi, gを推定する.それには,各パラメータで対数尤度を偏微分し,0と置けばよい.
変形すると,
つまり, となっており,着地における移動数の和が元データと推定値とで一致している.同様の操作をbiについて行えば,発地における移動数の和が保存されることが確認できる.
これらの利点があるため,移動データのモデル化にはPoisson回帰モデルが適している.パラメータ推定の方法には,上述した最尤法以外にもいくつかの方法(例えば二重制約モデルなど)があるが,Poisson回帰モデルの法が,統計上の理論的裏付けが明確であり,また,パラメータの有意性検定まで行えるという点で優れている.
VII-3.2 ハフモデル 消費者の店舗選択行動に用いられるモデル 消費者:C1, C2, …, Cm 店舗:S1, S2, …, Sn 店舗Sjの魅力度(例えば床面積):Aj 消費者Ciが店舗Sjを選択する確率:pij 消費者Ciと店舗Sjの(時間,直線)距離:dij
?
実際の店舗選択データを用いて,店舗選択行動を数理的に記述しようとするのがハフモデルである.
この式は,消費者Ciが店舗Sjを選択する確率が,店舗の魅力度に比例し,店舗までの距離のl乗に反比例することを表している. 未知パラメータはここではlのみであり,この値はデータから推定する.推定には収束計算を用いる(詳細は省略).なお,多くの場合,lは1.2~2.5程度である.
VII-3.3 ロジットモデル ハフモデルと同様,消費者の店舗選択行動に用いられるモデルである.但し,本来はあらゆる種類の選択行動記述に用いられるモデルであり,実際,マーケティングと交通工学がこのモデルの発祥である.
消費者:C1, C2, …, Cm 店舗:S1, S2, …, Sn 店舗Sjの属性k(床面積,価格など):Ajk 消費者Ciが店舗Sjを選択する確率:pij 消費者Ciと店舗Sjの(時間,直線)距離:dij
ここで,a及びbiが未知パラメータであり,これらを実際のデータから推測する.これらはいずれも,距離や店舗面積などの要因が選択行動に与える影響の大きさ(重み付け)を表している.
推定には最尤法が用いられ,検定にも尤度比検定を利用することができる. なお,重力モデルやハフモデルと異なり,ロジットモデルは適用範囲が空間データに限定されず極めて広範である.そのため,推定や検定のプログラムは市販の統計ソフトにパッケージ化されて組み込まれており,自分でプログラムをつくる必要があまりない.
ロジットモデルを店舗選択行動に適用する場合,問題となるのが選択肢集合の設定である.全国に存在する全ての店舗を選択肢集合とするのはあまりに非現実的であり,消費者の近辺に存在する店舗のみを対象とすることが望ましい.しかしその場合にも,どこまでを「近辺」とするかという問題がある.この問題は,現在研究途上にある.
もう一つの問題として,段階的選択行動がある.これは例えば,買い物先として「池袋」を選択し,その中で「東武」を選択する,(さらに場合によってはこの中で「レカン」を選択する)という行動を指す.この場合,選択行動は多段階であり,各段階にロジットモデルを適用する必要が生ずる.しかし,これはモデルを複雑化し,モデルの推定精度の低下(あるいはそれを防ぐためのより多くのデータ取得)を招くため,解決は容易ではない.
VII-4 点パターン過程(point pattern process) 空間回帰モデルや空間選択モデルは,空間オブジェクトに付随する属性を説明するためのモデルである.それに対し,空間オブジェクトの空間データ部分を記述するモデルがいくつか存在する.特に,点オブジェクトは最も基本的な空間オブジェクトであり,その分布を記述するモデルが点パターン過程(point pattern process, stochastic point process)である.
点パターン過程は,主に,植物や地震,疫病患者などの分布を説明するために用いられる.特に生態学において開発されたものが多い. 「過程(process)」という言葉が用いられているため,分布の時間的な変化を扱う時空間モデルのように思われるが,実際には,ある一時点の分布を説明するために,その背景として時間を取り入れているに過ぎない.ここでは,「過程」は「分布」とほぼ同義と見て良い.
VII-4.1 二項点過程(binomial point process) 点がランダムに分布している,という状態を表すモデルの一つ. 有界な領域:S 点の個数:n
点がランダムに分布するとき,Sの部分領域sに含まれる点の個数p(s)が従う確率分布は, となる.但し,A(S)はSの面積を表す関数である.この分布は通常の二項分布であり,そのためこの点パターン過程を二項点過程と呼ぶ.
点分布データが与えられているとき,それに対して二項点過程を当てはめることができる.この場合,未知パラメータはnであるが,これは観測データにおける点の個数をそのまま推定値として用いればよい.即ち,モデル推定は自明である.
VII-4.2 一様Poisson過程(homogeneous Poisson process)
一様Poisson過程の定義 1) 任意の有界領域sにおける点の個数は平均lA(s)のPoisson分布に従う. ・・・どの領域をとってもその中に含まれる点の密度(強度intensityと呼ばれ,lで表す)は一定である
2) 任意の有界領域sにおける点の分布は互いに独立に二項点過程に従う. ・・・どの領域をとってもその中に含まれる点の分布は独立に二項点過程,つまり,一様ランダム分布する
1)の条件を定式化すると次のようになる. 二項分布において,強度lを固定したまま領域Sを無限大に拡大するとPoisson分布となるが,一様Poisson過程はまさに二項点過程において領域Sを無限大に拡大した場合である.式の形からもそれが確認できる.
点分布データに対する一様Poisson過程の当てはめは二項点過程の場合ほど自明ではない.というのは,通常,観測データの得られる領域は有界であり,一様Poisson過程の想定している無限領域ではない.そのため,推定すべきパラメータである,無限領域における強度lは明らかではない.
モデル推定(強度lの推定)の二つの方法 1) 単純法 2) 距離法
1) 単純法 データ領域全体の面積Aと,その中に含まれる点の個数Mを用い, を強度lの推定値とする方法.無限領域における強度を有界領域におけるそれで代用する.
2) 距離法 一様Poisson過程の場合,各点から最寄り点までの距離wは以下の確率密度関数に従う. この期待値は,
である.従って,得られているデータについての平均最近隣距離をWとし, を用いて強度lの推定値を数値計算により求める.
データ領域が定まっており,それに基づいて算出する強度が妥当であると判断される場合には,単純法が有効である.しかし,データ領域が定まっていない,あるいは,領域の限られた部分に点分布が集中しており,領域の取り方に対する判断が困難な場合には,領域に依存しない距離法の方が有効である.
VII-4.3 非一様Poisson過程(inhomogeneous Poisson process) 一様Poisson過程においては,点の強度lが場所によらず一様であると仮定している.この仮定を緩和し,強度lが場所の関数l(x)であると考えるのが非一様Poisson過程である.
非一様Poisson過程の定義 1) 任意の有界領域sにおける点の個数は平均 のPoisson分布に従う. 2) 任意の有界領域sにおける点の分布は互いに独立にl(x)で定められる確率分布に従う.
モデル推定(強度関数l(x)の推定)の二つの方法 1) ノンパラメトリック法 2) パラメトリック法
1) ノンパラメトリック法 データ可視化でも触れたカーネル法は,本来は,点分布からその従う確率分布を推定する方法である.
点分布
カーネル法による点分布の可視化
適当なカーネルを用いて確率密度関数を推定し,それを強度関数l(x)の推定値とするのがノンパラメトリック法である.カーネルの傾きを定めるパラメータを決める方法はいくつかあるが,最も良く用いられるのは最小二乗相互評価法(least-squares cross-validation method)である.これは,データのうち一つだけを除いたときのカーネルを想定し,それが残りの一点をよく説明するようにパラメータを定めるという方法である.
2) パラメトリック法 強度関数l(x)が何らかの外的要因によって定められると考え,想定される外的要因の関数として関数形を与える.そして,データに良く合うようにパラメータを推定するという方法である.
例えば,ある植物の分布が地中のある物質の濃度(分布をh(x)とする)と密接に関係しているとしよう.この植物の分布は,各地点におけるh(x)だけではなく,その周辺の濃度にも影響される.すると, という関数形が有り得る.このパラメータa,bがデータに適合するように,最尤法を用いて推定する.
VII-4.4 Cox過程(Cox process) 非一様Poisson過程においては,点の強度関数l(x)は常に(時間によらず)一定と仮定している.この仮定を緩和し,l(x)自体も確率的に定まると考えるのがCox過程である.強度関数が,平均l(x),分散s2の正規分布に従うCox過程はしばしば用いられる.
VII-4.5 Neyman-Scott過程(Neyman-Scott process)
Neyman-Scott過程の定義 1) 「親」の点が,非一様Poisson過程に従って分布する. 2) 各「親」は,それぞれいくつかの「子」を持つ.各「親」の持つ「子」の数は,独立に同一のある離散確率分布に従う.
3) 各「子」の位置が「親」の位置に対して相対的に決定される.相対位置は,独立に同一のある連続確率分布に従う. 4) 各「親」を全て取り除き,各「子」だけを抽出したものが,Neyman-Scott過程の点分布である.
Neyman-Scott過程を定める3つの要素 1) 「親」の位置を定める非一様Poisson過程の強度関数l(x) 2) 各「親」の生む「子」の数を定める離散確率分布 3) 各「子」の「親」に対する相対位置を定める連続確率分布
モデル推定は,これら3つの要素の関数形を適切に定め,データからそれらのパラメータを推定して行われる. 関数形やパラメータ推定の手続き,検定の方法は,いずれも適用分野によって大きく異なる.推定・検定の方法はかなり複雑であり,ここでは省略する.
VII-4.6 禁止点過程(inhibition point process) 動植物などの分布には,互いにある一定以上の距離を保つような分布がしばしば見られる.これは,いわゆる「なわばり」の存在による.このような点分布のモデルが禁止点過程である.
VII-4.6.1 Matern のModel I 禁止点過程にはいくつかの種類があるが,最も分かりやすいモデルがMatern のModel Iと呼ばれるものである.これは,一様Poisson過程に従って分布した点のうち,ある一定距離d以内に分布している点対を全て取り除くことで得られる点分布モデルである.これによって,全ての点は互いに距離d以上離れた状態になる.
分布禁止領域 d
VII-4.6.2 Matern のModel II Matern のModel Iは,距離d以内に分布している点対を全て取り除いてしまう.しかし,これによって,全ての点が互いに距離d以上離れた状態を得るには,点対の一方だけを取り除けば十分である.そこで,各点に何らかの属性(適当なものがなければ乱数)を割り当て,点対のうち属性値の大きなものだけを取り除くのが,Matern のModel IIである.
VII-4.6.3 その他の禁止点過程 Matern のモデルでは,各点の出現する順序は考慮されていない.しかし現実には,順序が点分布に与える影響は大きく,先に現れた点はその後の点の出現を阻害することがある.これをモデル化するには,点が一つづつ順番に一様Poisson過程に従って分布していき,各点はその周辺に円形の分布禁止領域を伴うとすればよい.
以上述べたモデルは,いずれも「各点はある一定距離d以内に分布し得ない」という,明確な分布禁止領域を想定しており,これらはhard-core modelと総称されている.それに対し,各点の周辺では他の点の分布確率が低下する(0ではない)というモデルがあり,これらはsoft-core modelと呼ばれている.
VII-4.7 属性付き点過程(marked point process) 以上述べたモデルは全て,点の属性を全く考慮しない(点の個別性を無視した)モデルである.それに対し,点の分布と属性を同時にモデル化するのが属性付き点過程である.これは,空間的な位置(2次元)と属性(1次元)を同時に定めるため,多変数点過程(multivariate point process)とも呼ばれる.
13 27 26 25 14 21 19 40 20 18 15 37 11 18 22 32
The positions of sea anemones on a rock
属性付き点過程は,点の分布を定めるモデルと,属性値を定めるモデルの2つから構成される.それぞれを独立に考えることは難しくない.例えば,点の分布は非一様Poisson過程に,属性値は正規分布に従うとし,それぞれ個別にデータからモデル推定すればよい.
点分布モデルと属性値モデルが独立ではない場合には,点の位置をまず何らかの点パターン過程によって定め,各点の属性をその周辺の点分布と属性分布の関数として表現する,という方法を採ることが多い.
時空間点分布(空間的な点の分布だけではなく,その時間的変化も考慮した点分布)をモデル化する場合,点の発生と消滅をそれぞれ点の属性値として考えれば,属性付き点過程としてモデル化することができる.
VII-5 その他の空間モデル
VII-5.1 ランダム集合モデル(random set model) 点ではなく,ポリゴンの変化する過程を記述するモデル.細胞の成長をモデル化するときなどに用いられる. 時点1での細胞:S1 時点2での細胞:S2 成長素:Z S1 S2 Z
ランダム集合モデルの定義 1) S1の中に,非一様Poisson分布に従って点が分布する. 2) 各点に対して,予め定められた成長素の中の基準点(普通は重心)が一致するように,成長素のコピーを置く.
3) 各成長素の向きをランダムに定める. 4) S1及びそこに置かれた成長素の(点集合としての)和をS2とする. Zi:点iで定められる成長素 W:1)で与えられた点集合
ランダム集合モデルは空間モデルの中ではかなり複雑である.しかし,その推定や検定は,複雑な手続きを要するものの,可能である.
VII-5.2 マルコフ連鎖モデル(Markov chain model) 主に,土地利用変化などを記述するために用いられるモデル. 2時点の土地利用データから,土地利用遷移行列Mを計算し,それを用いて時点3以降の土地利用を予測する.
土地利用遷移行列M tij:時点1における土地利用jが時点2において土地利用iに変化する確率
VII-5.3 その他のモデル 空間伝播モデル 空間オブジェクト(点以外)分布モデル ランダム空間分割モデル ネットワーク成長モデル フラクタルモデル 空間競争立地モデル オートマトン
The territories of Tilapia mossambicas