VI. 空間解析.

Slides:



Advertisements
Similar presentations
1標本のt検定 3 年 地理生態学研究室 脇海道 卓. t検定とは ・帰無仮説が正しいと仮定した場合に、統 計量が t 分布に従うことを利用する統計学的 検定法の総称である。
Advertisements

統計解析第 11 回 第 15 章 有意性検定. 今日学ぶこと 仮説の設定 – 帰無仮説、対立仮説 検定 – 棄却域、有意水準 – 片側検定、両側検定 過誤 – 第 1 種の過誤、第 2 種の過誤、検出力.
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
第6回 適合度の検定 問題例1 サイコロを 60 回振って、各目の出た度数は次の通りであった。 目の出方は一様と考えてよいか。 サイコロの目 (i) 観測度数 : 実験値 (O i ) 帰無仮説:サイコロの目は一様に出る =>それぞれの目の出る確率 p.
Lesson 9. 頻度と分布 §D. 正規分布. 正規分布 Normal Distribution 最もよく使われる連続確率分布 釣り鐘形の曲線 -∽から+ ∽までの値を取る 平均 mean =中央値 median =最頻値 mode 曲線より下の面積は1に等しい.
地理情報システム論 第11回 GIS による処理技法 アドレスマッチングの利用 空間的分布の特徴の把握.
Wilcoxon の順位和検定 理論生態学研究室 山田 歩. 使用場面 2 標本 離散型分布 連続型分布(母集団が正規分布でない時など 効果的) ただパラメトリックな手法が使える条件がそ ろっている時に、ノンパラメトリックな手法 を用いると検出力(対立仮説が正しいときに 帰無仮説を棄却できる確率)が低下するとい.
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
第4回 関連2群と一標本t検定 問題例1 6人の高血圧の患者に降圧剤(A薬)を投与し、前後の収縮期血圧 を測定した結果である。
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
データ分析入門(12) 第12章 単回帰分析 廣野元久.
疫学概論 ポアソン分布 Lesson 9.頻度と分布 §C. ポアソン分布 S.Harano,MD,PhD,MPH.
様々な仮説検定の場面 ① 1標本の検定 ② 2標本の検定 ③ 3標本以上の検定 ④ 2変数間の関連の強さに関する検定
確率と統計 平成23年12月8日 (徐々に統計へ戻ります).
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
統計的仮説検定 基本的な考え方 母集団における母数(母平均、母比率)に関する仮説の真偽を、得られた標本統計量を用いて判定すること。
実証分析の手順 経済データ解析 2011年度.
第4回 (10/16) 授業の学習目標 先輩の卒論の調査に協力する。 2つの定量的変数間の関係を調べる最も簡単な方法は?
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
統計解析 第9回 第9章 正規分布、第11章 理論分布.
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
第6章 2つの平均値を比較する 2つの平均値を比較する方法の説明    独立な2群の平均値差の検定   対応のある2群の平均値差の検定.
上坂吉則 尾関和彦 文一総合出版 宮崎大輔2003年6月28日(土)
放射線の計算や測定における統計誤差 「平均の誤差」とその応用(1H) 2項分布、ポアソン分布、ガウス分布(1H) 最小二乗法(1H)
確率・統計Ⅱ 第7回.
第2章補足Ⅱ 2項分布と正規分布についての補足
第3章 重回帰分析 ー 計量経済学 ー.
第3章 重回帰分析 ー 計量経済学 ー.
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
統計学 11/08(木) 鈴木智也.
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
VI-7 連続分布(面データ)を分析する方法
土木計画学 第6回(11月9日) 調査データの統計処理と分析4 担当:榊原 弘之.
早稲田大学大学院商学研究科 2016年1月13日 大塚忠義
VI-5 線分布(ネットワークデータ)を分析する方法
母集団と標本:基本概念 母集団パラメーターと標本統計量 標本比率の標本分布
線形フィルタと畳み込み積分 マスクによる画像のフィルタリング 1.入力画像中の関心の画素のまわりの画素値
原子核物理学 第4講 原子核の液滴模型.
VI-3 異なる2つの点分布の関係を分析する方法
第2日目第4時限の学習目標 平均値の差の検定について学ぶ。 (1)平均値の差の検定の具体例を知る。
第3回 確率変数の平均 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
独立成分分析 1.問題は何か:例:解法:全体の見通し 2007/10/17 名雪 勲.
確率・統計Ⅰ 第3回 確率変数の独立性 / 確率変数の平均 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
正規分布確率密度関数.
第5章 特徴の評価とベイズ誤り確率 5.5 ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限
超幾何分布とポアソン分布 超幾何分布 ポアソン分布.
25. Randomized Algorithms
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
1.母平均の検定:小標本場合 2.母集団平均の差の検定
早稲田大学大学院商学研究科 2014年12月10日 大塚忠義
確率と統計2009 第12日目(A).
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
第4章 統計的検定 (その2) 統計学 2006年度.
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
クロス表とχ2検定.
疫学概論 ポアソン分布 Lesson 9.頻度と分布 §C. ポアソン分布 S.Harano,MD,PhD,MPH.
数理統計学 西 山.
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
第3日目第4時限の学習目標 第1日目第3時限のスライドによる、名義尺度2変数間の連関のカイ2乗統計量についての復習
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
ガウス分布における ベーテ近似の理論解析 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
Presentation transcript:

VI. 空間解析

VI-1 空間解析とは何か  空間中のオブジェクト分布や現象においてパターン,秩序,規則性を見いだす(あるいはその不在を確認するための数理的手法  空間解析によって見いだされるパターンは,その背後にある構造・原因を明らかにするのを助ける

 パターンというものは,目で見てもわかるような明らかなものから,一見してもわからない複雑な構造を持つものまで様々である.  空間解析では,(どちらかと言えば)前者よりも後者に重きを置く.特に,そのパターンが「偶然」起こったものなのか,「特別な」ものなのかを調べるために,統計的検定をよく用いる.

横浜市における銀行の分布

横浜市におけるバーの分布

横浜市における酒屋の分布

横浜市における コンビニエンスストア の分布

横浜市における ファミリーレストラン の分布

 一体,これらの商業施設は,なぜこのような分布パターンをとっているのだろうか. パターン形成の背景にある行動原理は何か.

空間解析手法の3つの分類基準 1) 対象とする空間オブジェクトの種類   点分布   線分布   面分布   連続分布(標高などのスカラー場,ベクトル場など)   流れ分布(交通流などのflow)

2) 対象とするデータの種類   空間データのみ    ・・・各オブジェクトが全て同質である場合   空間データ+属性データ    ・・・各オブジェクトの性質がそれぞれ異なる場合

3) 対象とする空間オブジェクト分布の数   単一の分布を対象とする    ・・・一つの分布の中でのパターン   複数の分布間の関係を扱う    ・・・複数の分布間の関係におけるパターン

 空間解析における二つの立場 ・探索的空間解析(exploratory spatial analysis)  空間オブジェクトの分布について,背景に対する理解や予備知識が不足しているとき,分布からパターンを探索的に見つける方法  パターンが見い出されれば,次にその原因を考えることになる.

Cases of Childhood Cancer Stoke on Trent Stafford Shrewsbury Birmingham Coventry Warwick Worcester Hereford Cases of Childhood Cancer in the West Midlands Health Authority Region from 1980 to 1984.

Spatial distribution of large earthquakes 1895-1980 in Japan and its vicinity

・確信的空間解析(confirmatory spatial analysis)  空間オブジェクトの分布について,その決定要因がある程度明らかなとき,あるいは,何らかの予想を持っているとき,それを確かめるための方法  統計的検定が基本的なツールである.

横浜市における銀行の分布

Lung and larynx cancer cases in the Chorley-Ribble area Lung cancer Larynx cancer Lung and larynx cancer cases in the Chorley-Ribble area

 解析手法を,これら二つの立場に明確に分類することは難しい.しかし,解析に取り組むとき,自分がどちらの立場に立つのか,どちらを行うべき段階にあるのかを考えることは有意義である.

VI-2 単一の点分布を分析する方法  空間に分布する点オブジェクトの分布パターンを分析する方法  「点」と見なすことができるオブジェクトであればこの分析方法を適用することができる.  ここでは,点の属性は考慮しない(全ての点は等質であると考える)

The distribution of Swedish Pine saplings (10m×10m)

VI-2.1 可視化 点の分布を視覚的に分析する

VI-2.1.1 区画法 点の分布をラスターデータとして表現する方法

点分布

区画法による点分布の可視化

問題点  a) 分布が滑らかではなく,場合によっては不自然  b) 区画の大きさによって結果が異なる

VI-2.1.2 カーネル法  区画法の問題点のうち,「滑らかではない」点を改善した方法  各点を中心に,「カーネル」と呼ばれる「山」を置いていき,その合計を色などで表現する.

カーネルのいろいろ a) Gaussianカーネル b) Epanechnikovカーネル

Gaussian kernel

Epanechnikov kernel

Gaussian kernel

カーネル法による点分布の可視化

問題点  カーネルの形状,特にその傾きによって結果が異なる

VI-2.2 数値・関数による情報の集約  可視化した点分布には多くの情報が含まれているが,却って情報量が多すぎて全体の様子が分かりにくいことがある.  そこで,情報を数値や関数で集約的に表現するという操作が行われる.

VI-2.2.1 最近隣距離法  点の分布を「分散型」「集中型」という観点から分類するために用いられる

集中分布 分散分布 ランダム分布

 平均最近隣距離とは,各点から最も近い点までの距離の平均値である. di:点iから最近隣点までの距離 n:点の個数

 仮に,密度lの点が無限平面上でランダムに分布している(一様ポアソン分布に従っている)とすると,そのときの平均最近隣距離Wの期待値は, である.ここで,分析対象領域と点の数がある程度大きければ,lをn/S(Sは分析対象領域の面積)で代用できる.そして,

 W ≪ E[W] :点は集中している  W ≒ E[W] :点はランダムに分布している  W ≫ E[W] :点は分散している と判断すればよい.

W=23.45 W=72.85 W=35.71 ランダム分布におけるWの期待値=39.53

 なお,WやE[W]の値は点の個数や密度に依存する.そのため,点の個数や密度の異なる場合を比較するには, と基準化した値を用いる.この場合,

 w ≪ 1 :点は集中している  w ≒ 1 :点はランダムに分布している  w ≫ 1 :点は分散している と判断する.

最近隣距離法の問題点 a) 領域の設定によって結果が異なる b) 最近隣距離だけでは判別のつかない分布がある

VI-2.2.2 K-関数法  最近隣距離法では判別のつかない分布を識別するために開発された方法 点から距離h以内に存在する点の個数  K(h)= nl l:h/S(点の密度)

 K-関数を用いると,どのくらいのスケール(空間的な範囲)で点が集中・分散しているのかを判断することができる.点がランダムに分布している場合,K-関数の期待値は, である.従って,

半径hの円という程度のスケールにおいて,  K[h] ≫ ph2 :点は集中している  K[h] ≒ ph2 :点はランダムに分布している  K[h] ≪ ph2 :点は分散している と判断する.

h

h

h

h

h

 なお,K-関数も平均最近隣距離と同様,点の個数や密度の影響を取り除くために基準化されることがある.それは通常,L-関数と呼ばれ,

juvenile offenders in Cardiff 100 juvenile offenders in Cardiff

1.6 1.4 1.2 1.0 0.8 0.6 0.4 0.2 0.0 10 20 30 L-function

VI-2.3 統計的検定  VI-2.2の方法を用いれば,点分布の傾向(集中・分散)を簡単に知ることができる.しかし,これでは,パターンが「偶然」発生したものか,あるいは,何らかの原因によって発生したものかを知ることができない.  例えば,平均最近隣距離が「珍しいほどに」小さいのか,「ほどほどに」小さいのかを明確に区別したい.  これに応えるのが統計的検定である.

VI-2.3.1 最近隣距離法  点の分布が(一様)ランダム分布に従うときの,平均最近隣距離の確率分布を用いて,統計的検定を行う.  但し,この分布形を解析的に表すことは難しいため,普通は近似計算を用いる.  以下,点の個数をnとする.

1) 点の個数が十分に多い(数100個)の場合    n個の点の中からランダムにm個を選び,それらについて平均最近隣距離を計算する. di:点iから最近隣点までの距離

 点がランダムに分布する場合,この距離Wは近似的に以下の正規分布に従う. 従って,l=n/Sとし, を計算すれば,標準正規分布による検定ができる.

この場合,  帰無仮説:点はランダムに分布している  対立仮説:点はランダムに分布していない(集中あるいは分散分布している)

2) 点の個数があまり多くない場合    この場合,全ての点について平均最近隣距離を計算する.

 点がランダムに分布する場合,この距離Wは近似的に以下の正規分布に従う. ここで,Sは対象領域の面積,Lは周長である.このような「妙な」式になるのは,領域が有限であることに起因しており,このことをedge effectと呼ぶ.

VI-2.3.2 K-関数法   K-関数を用いても,平均最近隣距離とほぼ同様の方法で検定を行うことができる.

1) 点の個数が十分に多い(数100個)の場合    n個の点の中からランダムにm個を選び,それらについてK-関数を構成する.すると,点がランダムに分布する場合には, K-関数は以下の正規分布に従う.  従って,平均最近隣距離と同様の検定が可能である.

2) 点の個数があまり多くない場合    平均最近隣距離の場合と異なり,この場合のK-関数の分布形を表す良い近似式は見つかっていない.そのため,与えられている分析領域と点の個数を用いてモンテカルロ・シミュレーションを行うことにより分布形を計算する.即ち,所与の領域に所与の個数の点をランダムに分布させ,その都度,K-関数を計算するという作業を10000回程度繰り返す.

VI-2.3.3 区画法   平均最近隣距離とK-関数は,いずれも点間の距離に基づく検定方法である.それに対し,可視化と同様,区画法を検定に用いることもできる.

 いま,分析領域を合同なM個の領域(通常は長方形)に分割する.そして,区画iに含まれる点の個数をxiとする.

1 2 1 1 2 1 1 2 3 4 1 1 1 1 1 1 1 1 1 1 1 1

すると, を統計量として用いることが可能である.この値は,点が集中していれば大きく,分散していれば小さくなる.また,点がランダムに分布する場合には,近似的に自由度M-1のc2分布に従う(c2検定).

 ところで,c2検定とは?

 いま,M通りの結果をとりうる離散的現象を考える(さいころ振りなど).そして,この現象をn回繰り返し,事象iの起こった回数(例えば,1の目の出た回数)をxiとする.  一方,事象iの起こる理論的確率(さいころの例でいえば1/6)をpiとする. c2検定とは, 現象が理論と合致しているか,具体的にいえば, xiがnpiと等しいと考えて良いかどうかを調べる方法である.

 c2検定では,  を統計量として用いる.現象が理論と合致していれば,この値は小さくなり,そうでなければ大きくなる.従って,帰無仮説を「理論と現象が一致している」とした検定が可能である.この場合,c2値は自由度M-1のc2分布に従う.

 従って, c2検定における「理論値」を,点がランダムに分布する場合に各区画に点の入る確率n/M(=x)として考えれば,点の分布にc2検定に適用することができる.

 但し, c2検定は分布が一様であるかどうかの検定であり,ランダムであるかどうかの検定ではないということに注意する必要がある.即ち, 帰無仮説:点は一様に分布している 対立仮説:点は一様に分布していない(偏りがある)

区画法の利点  様々な「理論的」分布に対する検定ができること.これは,もともとc2検定が様々な理論分布への適合性を調べるための方法であることによる.一様分布だけではなく,何らかの偏りのある分布を考え,データがそれに適合しているかどうかを調べることも可能である.

区画法の問題点 a) 領域の設定,セルの大きさによって結果が異なる b) 点の数がセルの数と比べて十分多い必要がある