VI. 空間解析.

Slides:

Advertisements

Similar presentations

１標本のｔ検定 3 年地理生態学研究室脇海道卓. ｔ検定とは・帰無仮説が正しいと仮定した場合に、統計量が t 分布に従うことを利用する統計学的検定法の総称である。

Advertisements

統計解析第 11 回第 15 章有意性検定. 今日学ぶこと仮説の設定 – 帰無仮説、対立仮説検定 – 棄却域、有意水準 – 片側検定、両側検定過誤 – 第 1 種の過誤、第 2 種の過誤、検出力.

『わかりやすいパターン認識』第 5 章特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則発表日： 5 月 23 日（金）発表者：時田陽一.

第６回適合度の検定問題例１サイコロを 60 回振って、各目の出た度数は次の通りであった。目の出方は一様と考えてよいか。サイコロの目 (i) 観測度数 : 実験値 (O i ) 帰無仮説：サイコロの目は一様に出る＝＞それぞれの目の出る確率 p.

Lesson 9. 頻度と分布 §D. 正規分布. 正規分布 Normal Distribution 最もよく使われる連続確率分布釣り鐘形の曲線－∽から＋ ∽までの値を取る平均 mean ＝中央値 median ＝最頻値 mode 曲線より下の面積は１に等しい.

地理情報システム論第１１回 GIS による処理技法アドレスマッチングの利用空間的分布の特徴の把握.

Wilcoxon の順位和検定理論生態学研究室山田歩. 使用場面 2 標本離散型分布連続型分布（母集団が正規分布でない時など効果的）ただパラメトリックな手法が使える条件がそろっている時に、ノンパラメトリックな手法を用いると検出力（対立仮説が正しいときに帰無仮説を棄却できる確率）が低下するとい.

エクセルと SPSS によるデータ分析の方法社会調査法・実習資料. 仮説の分析に使う代表的なモデル１クロス表２ｔ検定（平均値の差の検定）３相関係数.

●母集団と標本母集団標本母数母平均、母分散無作為抽出標本データの分析（記述統計学）母集団における状態の推測（推測統計学）

第４回関連2群と一標本t検定問題例１ 6人の高血圧の患者に降圧剤（A薬）を投与し、前後の収縮期血圧を測定した結果である。

第1回確率変数、確率分布確率･統計Ⅰ ここです！確率変数と確率分布確率変数の同時分布、独立性確率変数の平均確率変数の分散

看護学部中澤港統計学第５回看護学部　中澤　港

データ分析入門（12）第12章　単回帰分析廣野元久.

疫学概論ポアソン分布 Lesson 9.頻度と分布 §C. ポアソン分布 S.Harano,MD,PhD,MPH.

様々な仮説検定の場面 ① １標本の検定 ② ２標本の検定 ③ ３標本以上の検定 ④ ２変数間の関連の強さに関する検定

確率と統計平成23年12月8日 (徐々に統計へ戻ります).

確率･統計Ⅰ 第12回統計学の基礎1 ここです！確率論とは確率変数、確率分布確率変数の独立性／確率変数の平均

確率･統計Ⅰ 第11回 i.i.d.の和と大数の法則ここです！確率論とは確率変数、確率分布確率変数の独立性／確率変数の平均

統計的仮説検定基本的な考え方母集団における母数（母平均、母比率）に関する仮説の真偽を、得られた標本統計量を用いて判定すること。

実証分析の手順経済データ解析　2011年度.

第４回 (10/16) 授業の学習目標先輩の卒論の調査に協力する。２つの定量的変数間の関係を調べる最も簡単な方法は？

土木計画学第５回（１１月２日）調査データの統計処理と分析３担当：榊原　弘之.

統計解析第9回第9章正規分布、第11章理論分布.

統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える

第6章２つの平均値を比較する２つの平均値を比較する方法の説明　　　独立な2群の平均値差の検定　　対応のある2群の平均値差の検定.

上坂吉則尾関和彦文一総合出版宮崎大輔2003年6月28日（土）

放射線の計算や測定における統計誤差「平均の誤差」とその応用（1H) 2項分布、ポアソン分布、ガウス分布（1H）最小二乗法（1H）

確率･統計Ⅱ 第7回.

第2章補足Ⅱ 2項分布と正規分布についての補足

第3章重回帰分析ｰ計量経済学ｰ.

第3章重回帰分析ｰ計量経済学ｰ.

確率･統計輪講資料 6-5　適合度と独立性の検定 6-6　最小2乗法と相関係数の推定・検定 M1　西澤.

応用統計学の内容推測統計学(inferential statistics) 　　連続型の確率分布　　標本分布　　統計推定　　統計的検定.

統計学 11/08（木）鈴木智也.

正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定

VI-7　連続分布（面データ）を分析する方法

土木計画学第６回（１１月９日）調査データの統計処理と分析４担当：榊原　弘之.

早稲田大学大学院商学研究科２０１６年１月１３日大塚忠義

VI-5　線分布（ネットワークデータ）を分析する方法

母集団と標本：基本概念母集団パラメーターと標本統計量標本比率の標本分布

線形フィルタと畳み込み積分マスクによる画像のフィルタリング１．入力画像中の関心の画素のまわりの画素値

原子核物理学第４講　原子核の液滴模型.

VI-3　異なる2つの点分布の関係を分析する方法

第２日目第４時限の学習目標平均値の差の検定について学ぶ。（１）平均値の差の検定の具体例を知る。

第3回確率変数の平均確率･統計Ⅰ ここです！確率変数と確率分布確率変数の同時分布、独立性確率変数の平均確率変数の分散

独立成分分析１．問題は何か：例：解法：全体の見通し 2007/10/１７名雪　勲.

確率･統計Ⅰ 第3回確率変数の独立性／確率変数の平均ここです！確率論とは確率変数、確率分布確率変数の独立性／確率変数の平均

応用統計学の内容推測統計学(inferential statistics) 　　連続型の確率分布　　標本分布　　統計推定　　統計的検定.

正規分布確率密度関数.

第５章特徴の評価とベイズ誤り確率５．５ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限

超幾何分布とポアソン分布超幾何分布ポアソン分布.

25. Randomized Algorithms

藤田保健衛生大学医学部公衆衛生学柿崎真沙子

市場調査の手順問題の設定調査方法の決定データ収集方法の決定データ収集の実行データ分析と解釈報告書の作成標本デザイン、データ収集

１．母平均の検定：小標本場合２．母集団平均の差の検定

早稲田大学大学院商学研究科２０１４年１２月１０日大塚忠義

確率と統計2009 第12日目(A).

データの型量的データ質的データ数字で表現されるデータ身長、年収、得点カテゴリで表現されるデータ性別、職種、学歴

第4章統計的検定（その2）統計学　2006年度.

「アルゴリズムとプログラム」結果を統計的に正しく判断三学期第7回袖高の生徒ってどうよ調査(3)

情報経済システム論：第13回担当教員　黒田敏史 2019/5/7 情報経済システム論.

クロス表とχ2検定.

疫学概論ポアソン分布 Lesson 9.頻度と分布 §C. ポアソン分布 S.Harano,MD,PhD,MPH.

数理統計学西山.

情報の集約記述統計記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。

第３日目第４時限の学習目標第１日目第３時限のスライドによる、名義尺度２変数間の連関のカイ２乗統計量についての復習

パターン認識ークラスタリングとEMアルゴリズムー担当：和田俊和部屋 A513

ガウス分布におけるベーテ近似の理論解析東京工業大学総合理工学研究科知能システム科学専攻　渡辺研究室　　　西山　悠，　渡辺澄夫.

藤田保健衛生大学医学部公衆衛生学柿崎真沙子

確率と統計2007（最終回）平成20年1月17日(木) 東京工科大学亀田弘之.

Presentation transcript:

VI. 空間解析

VI-1　空間解析とは何か　空間中のオブジェクト分布や現象においてパターン，秩序，規則性を見いだす（あるいはその不在を確認するための数理的手法　空間解析によって見いだされるパターンは，その背後にある構造・原因を明らかにするのを助ける

　パターンというものは，目で見てもわかるような明らかなものから，一見してもわからない複雑な構造を持つものまで様々である．　空間解析では，（どちらかと言えば）前者よりも後者に重きを置く．特に，そのパターンが「偶然」起こったものなのか，「特別な」ものなのかを調べるために，統計的検定をよく用いる．

横浜市における銀行の分布

横浜市におけるバーの分布

横浜市における酒屋の分布

横浜市におけるコンビニエンスストアの分布

横浜市におけるファミリーレストランの分布

　一体，これらの商業施設は，なぜこのような分布パターンをとっているのだろうか．パターン形成の背景にある行動原理は何か．

空間解析手法の3つの分類基準 1) 対象とする空間オブジェクトの種類　　点分布　　線分布　　面分布　　連続分布（標高などのスカラー場，ベクトル場など）　　流れ分布（交通流などのflow）

2) 対象とするデータの種類　　空間データのみ　　　・・・各オブジェクトが全て同質である場合　　空間データ+属性データ　　　・・・各オブジェクトの性質がそれぞれ異なる場合

3) 対象とする空間オブジェクト分布の数　　単一の分布を対象とする　　　・・・一つの分布の中でのパターン　　複数の分布間の関係を扱う　　　・・・複数の分布間の関係におけるパターン

　空間解析における二つの立場・探索的空間解析（exploratory spatial analysis）　空間オブジェクトの分布について，背景に対する理解や予備知識が不足しているとき，分布からパターンを探索的に見つける方法　パターンが見い出されれば，次にその原因を考えることになる．

Cases of Childhood Cancer Stoke on Trent Stafford Shrewsbury Birmingham Coventry Warwick Worcester Hereford Cases of Childhood Cancer in the West Midlands Health Authority Region from 1980 to 1984.

Spatial distribution of large earthquakes 1895-1980 in Japan and its vicinity

・確信的空間解析（confirmatory spatial analysis）　空間オブジェクトの分布について，その決定要因がある程度明らかなとき，あるいは，何らかの予想を持っているとき，それを確かめるための方法　統計的検定が基本的なツールである．

横浜市における銀行の分布

Lung and larynx cancer cases in the Chorley-Ribble area Lung cancer Larynx cancer Lung and larynx cancer cases in the Chorley-Ribble area

　解析手法を，これら二つの立場に明確に分類することは難しい．しかし，解析に取り組むとき，自分がどちらの立場に立つのか，どちらを行うべき段階にあるのかを考えることは有意義である．

VI-2　単一の点分布を分析する方法　空間に分布する点オブジェクトの分布パターンを分析する方法　「点」と見なすことができるオブジェクトであればこの分析方法を適用することができる．　ここでは，点の属性は考慮しない（全ての点は等質であると考える）

The distribution of Swedish Pine saplings (10m×10m)

VI-2.1　可視化点の分布を視覚的に分析する

VI-2.1.1　区画法点の分布をラスターデータとして表現する方法

点分布

区画法による点分布の可視化

問題点　a) 分布が滑らかではなく，場合によっては不自然　b) 区画の大きさによって結果が異なる

VI-2.1.2　カーネル法　区画法の問題点のうち，「滑らかではない」点を改善した方法　各点を中心に，「カーネル」と呼ばれる「山」を置いていき，その合計を色などで表現する．

カーネルのいろいろ a) Gaussianカーネル b) Epanechnikovカーネル

Gaussian kernel

Epanechnikov kernel

Gaussian kernel

カーネル法による点分布の可視化

問題点　カーネルの形状，特にその傾きによって結果が異なる

VI-2.2　数値・関数による情報の集約　可視化した点分布には多くの情報が含まれているが，却って情報量が多すぎて全体の様子が分かりにくいことがある．　そこで，情報を数値や関数で集約的に表現するという操作が行われる．

VI-2.2.1　最近隣距離法　点の分布を「分散型」「集中型」という観点から分類するために用いられる

集中分布分散分布ランダム分布

　平均最近隣距離とは，各点から最も近い点までの距離の平均値である． di：点iから最近隣点までの距離 n：点の個数

　仮に，密度lの点が無限平面上でランダムに分布している（一様ポアソン分布に従っている）とすると，そのときの平均最近隣距離Wの期待値は，である．ここで，分析対象領域と点の数がある程度大きければ，lをn/S（Sは分析対象領域の面積）で代用できる．そして，

　W ≪ E[W] ：点は集中している　W ≒ E[W] ：点はランダムに分布している　W ≫ E[W] ：点は分散していると判断すればよい．

W=23.45 W=72.85 W=35.71 ランダム分布におけるWの期待値=39.53

　なお，WやE[W]の値は点の個数や密度に依存する．そのため，点の個数や密度の異なる場合を比較するには，と基準化した値を用いる．この場合，

　w ≪ 1 ：点は集中している　w ≒ 1 ：点はランダムに分布している　w ≫ 1 ：点は分散していると判断する．

最近隣距離法の問題点 a) 領域の設定によって結果が異なる b) 最近隣距離だけでは判別のつかない分布がある

VI-2.2.2　K-関数法　最近隣距離法では判別のつかない分布を識別するために開発された方法点から距離h以内に存在する点の個数　K(h)= nl l：h/S（点の密度）

　K-関数を用いると，どのくらいのスケール（空間的な範囲）で点が集中・分散しているのかを判断することができる．点がランダムに分布している場合，K-関数の期待値は，である．従って，

半径hの円という程度のスケールにおいて，　K[h] ≫ ph2 ：点は集中している　K[h] ≒ ph2 ：点はランダムに分布している　K[h] ≪ ph2 ：点は分散していると判断する．

h

h

h

h

h

　なお，K-関数も平均最近隣距離と同様，点の個数や密度の影響を取り除くために基準化されることがある．それは通常，L-関数と呼ばれ，

juvenile offenders in Cardiff 100 juvenile offenders in Cardiff

1.6 1.4 1.2 1.0 0.8 0.6 0.4 0.2 0.0 10 20 30 L-function

VI-2.3　統計的検定　VI-2.2の方法を用いれば，点分布の傾向（集中・分散）を簡単に知ることができる．しかし，これでは，パターンが「偶然」発生したものか，あるいは，何らかの原因によって発生したものかを知ることができない．　例えば，平均最近隣距離が「珍しいほどに」小さいのか，「ほどほどに」小さいのかを明確に区別したい．　これに応えるのが統計的検定である．

VI-2.3.1　最近隣距離法　点の分布が（一様）ランダム分布に従うときの，平均最近隣距離の確率分布を用いて，統計的検定を行う．　但し，この分布形を解析的に表すことは難しいため，普通は近似計算を用いる．　以下，点の個数をnとする．

1) 点の個数が十分に多い（数1００個）の場合　　　n個の点の中からランダムにm個を選び，それらについて平均最近隣距離を計算する． di：点iから最近隣点までの距離

　点がランダムに分布する場合，この距離Wは近似的に以下の正規分布に従う．従って，l=n/Sとし，を計算すれば，標準正規分布による検定ができる．

この場合，　帰無仮説：点はランダムに分布している　対立仮説：点はランダムに分布していない（集中あるいは分散分布している）

2) 点の個数があまり多くない場合　　　この場合，全ての点について平均最近隣距離を計算する．

　点がランダムに分布する場合，この距離Wは近似的に以下の正規分布に従う．ここで，Sは対象領域の面積，Lは周長である．このような「妙な」式になるのは，領域が有限であることに起因しており，このことをedge effectと呼ぶ．

VI-2.3.2　K-関数法　 K-関数を用いても，平均最近隣距離とほぼ同様の方法で検定を行うことができる．

1) 点の個数が十分に多い（数1００個）の場合　　　n個の点の中からランダムにm個を選び，それらについてK-関数を構成する．すると，点がランダムに分布する場合には， K-関数は以下の正規分布に従う．　従って，平均最近隣距離と同様の検定が可能である．

2) 点の個数があまり多くない場合　　　平均最近隣距離の場合と異なり，この場合のK-関数の分布形を表す良い近似式は見つかっていない．そのため，与えられている分析領域と点の個数を用いてモンテカルロ・シミュレーションを行うことにより分布形を計算する．即ち，所与の領域に所与の個数の点をランダムに分布させ，その都度，K-関数を計算するという作業を10000回程度繰り返す．

VI-2.3.3　区画法　平均最近隣距離とK-関数は，いずれも点間の距離に基づく検定方法である．それに対し，可視化と同様，区画法を検定に用いることもできる．

　いま，分析領域を合同なM個の領域（通常は長方形）に分割する．そして，区画iに含まれる点の個数をxiとする．

1 2 1 1 2 1 1 2 3 4 1 1 1 1 1 1 1 1 1 1 1 1

すると，を統計量として用いることが可能である．この値は，点が集中していれば大きく，分散していれば小さくなる．また，点がランダムに分布する場合には，近似的に自由度M-1のc2分布に従う（c2検定）．

　ところで，c2検定とは？

　いま，M通りの結果をとりうる離散的現象を考える（さいころ振りなど）．そして，この現象をn回繰り返し，事象iの起こった回数（例えば，1の目の出た回数）をxiとする．　一方，事象iの起こる理論的確率（さいころの例でいえば1/6）をpiとする． c2検定とは，現象が理論と合致しているか，具体的にいえば， xiがnpiと等しいと考えて良いかどうかを調べる方法である．

　c2検定では，　を統計量として用いる．現象が理論と合致していれば，この値は小さくなり，そうでなければ大きくなる．従って，帰無仮説を「理論と現象が一致している」とした検定が可能である．この場合，c2値は自由度M-1のc2分布に従う．

　従って， c2検定における「理論値」を，点がランダムに分布する場合に各区画に点の入る確率n/M（=x）として考えれば，点の分布にc2検定に適用することができる．

　但し， c2検定は分布が一様であるかどうかの検定であり，ランダムであるかどうかの検定ではないということに注意する必要がある．即ち，帰無仮説：点は一様に分布している対立仮説：点は一様に分布していない（偏りがある）

区画法の利点　様々な「理論的」分布に対する検定ができること．これは，もともとc2検定が様々な理論分布への適合性を調べるための方法であることによる．一様分布だけではなく，何らかの偏りのある分布を考え，データがそれに適合しているかどうかを調べることも可能である．

区画法の問題点 a) 領域の設定，セルの大きさによって結果が異なる b) 点の数がセルの数と比べて十分多い必要がある