林俊克&廣野元久「多変量データの活用術」:海文堂

Slides:



Advertisements
Similar presentations
生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
Advertisements

計量的手法入門 人材開発コース・ワークショップ (IV) 2000 年 6 月 29 日、 7 月 6 ・ 13 日 奥西 好夫
確率・統計学の基礎 データの特性を表すパラメータとは? 2 つのデータの関係性を表す式の導出方法.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
生物統計学・第 4 回 比べる準備をする 平均、分散、標準偏差、標準誤差、標準 化 2015 年 10 月 20 日 生命環境科学域 応用生命科学類 尾形 善之.
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
1 データ分析入門( 8 ) 第 8 章 散布図と相関係数 廣野元久. 第 8 章 散布図と相関係数 廣野元久 &高橋行雄 2/28 本章の概要 2つの量的データのばらつき方を調べ, その関連 ( 相関関係 ) をグラフと数値で評価する 2変量間の相関関係には, 因果関係と擬似相関があるため, 関連を見誤らないように,
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
―本日の講義― 1・相関関係と因果性・相関係数の種類 2.散布図をつくる 3・共分散・相関係数の計算
データ分析入門(12) 第12章 単回帰分析 廣野元久.
林俊克&廣野元久「多変量データの活用術」:海文堂
データ分析入門(7) 第7章 データの操作と比較 廣野元久.
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
みかけの相関関係 1:時系列 2つの変数に本来関係がないのに,データだけから相関係数を計算すると相関係数がかなり大きくなることがある.
第3章 2変量データの記述 統計学基礎 2010年度.
重回帰分析入門 経済データ解析 2009年度.
データ解析 静岡大学工学部 安藤和敏
得点と打率・長打率・出塁率らの関係 政治経済学部経済学科 ●年●組 ●● ●●.
第1回 担当: 西山 統計学.
第1日目第2時限の学習目標 基本的な1変量統計量(その2)について学ぶ。 尺度水準と適切な統計量との関連を整理する。
第4回 (10/16) 授業の学習目標 先輩の卒論の調査に協力する。 2つの定量的変数間の関係を調べる最も簡単な方法は?
林俊克&廣野元久「多変量データの活用術」:海文堂
重回帰分析入門 経済データ解析 2011年度.
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
心理統計学 II 第7回 (11/13) 授業の学習目標 相関係数のまとめと具体的な計算例の復習 相関係数の実習.
流れ(3時間分) 1 ちらばりは必要か? 2 分散・標準偏差の意味 3 計算演習(例題と問題) 4 実験1(きれいな山型の性質を知ろう)
データ解析基礎 4. 正規分布と相関係数 keyword 正規分布(教科書:31ページ~38ページ) 正規分布の性質 偏差値
―本日の講義― 1・相関関係と因果性・相関係数の種類 2.散布図をつくる 3・共分散・相関係数の計算
質的データの分析手法 ---プロビットモデル・ロジットモデルの概要---
第3章 二つの変数の記述統計 二つの変数を対象として変数同士の関係を捉える 量的変数どうしの関係 質的変数どうしの関係.
寺尾 敦 青山学院大学社会情報学部 社会統計 第12回 重回帰分析(第11章前半) 寺尾 敦 青山学院大学社会情報学部
相関と回帰:相関分析 2つの変量それぞれが正規分布にしたがってばらつく量であるとき,両変数の直線的な関係を相関分析する. 例:兄弟の身長
第3章 重回帰分析 ー 計量経済学 ー.
第3章 重回帰分析 ー 計量経済学 ー.
統計学 第3回 10/11 担当:鈴木智也.
第5章 回帰分析入門 統計学 2006年度.
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
データ分析入門(13) 第13章 主成分分析 廣野元久.
主成分分析                     結城  隆   .
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 データ入力 データ分析 報告書の作成.
相関分析.
データ解析 静岡大学工学部 安藤和敏
 統計学講義 第11回     相関係数、回帰直線    決定係数.
4章までのまとめ ー 計量経済学 ー.
第1日目第1時限の学習目標 平成22年度「教育統計」の学習内容の概要を知る。 尺度の4水準の例とそれらの特色の概要を学ぶ。
独立成分分析 (ICA:Independent Component Analysis )
中澤 港 統計学第4回 中澤 港
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
主成分分析 Principal Component Analysis PCA
確率と統計 メディア学部2008年後期 No.3 平成20年10月16日(木).
多変量解析 ~主成分分析~ 1.主成分解析とは 2.適用例と解析の目的 3.解析の流れ 4.変数が2個の場合の主成分分析
部分的最小二乗回帰 Partial Least Squares Regression PLS
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
データ解析 静岡大学工学部 安藤和敏
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
データ解析 静岡大学工学部 安藤和敏
小標本に関する平均の推定と検定 標本が小さい場合,標本分散から母分散を推定するときの不確実さを加味したt分布を用いて,推定や検定を行う
相関分析 2次元データと散布図 共分散 相関係数.
プログラミング論 相関
重回帰分析入門 経済データ解析 2008年度.
重回帰分析入門 (第5章補足) 統計学 2007年度.
データ分布の特徴 基準化変量 歪度 尖度.
回帰分析入門 経済データ解析 2011年度.
第3章 統計的推定 (その2) 統計学 2006年度 <修正・補足版>.
第1日目第1時限の学習目標 平成21年度「教育統計」の学習内容の概要を知る。 尺度の4水準の例とそれらの特色の概要を学ぶ。
第1日目第2時限の学習目標 基本的な1変量統計量(その2)について学ぶ。 尺度水準と適切な統計量との関連を整理する。
Presentation transcript:

林俊克&廣野元久「多変量データの活用術」:海文堂 多変量データ分析B 第3回 第2章:モニタリング 林俊克&廣野元久「多変量データの活用術」:海文堂 廣野元久 2004.4.28. SFC5限 第2章 モニタリングⅡ

第2章 モニタリング 目次 2.3 二変量の関係(1) -共に量的変量の場合- 2.3.1 二次元データ 2.3.2 相関関係と散布図 第2章 モニタリング 目次 2.3 二変量の関係(1) -共に量的変量の場合- 2.3.1 二次元データ 2.3.2 相関関係と散布図 2.3.3 相関係数 2.3.4 単回帰モデル 2.3.5 単回帰モデルの残差と診断 2.3.6 単回帰モデルの外れ値と正規性のチェック 2.3.7 単回帰モデルのテコ比と予測残差 第2章 モニタリングⅡ

2.1 モニタリングの手順 1/2 1変量の分析:基本統計量 頻度の確認:ヒストグラム,度数表 ・代表値 :平均値 2.1 モニタリングの手順 1/2 1変量の分析:基本統計量 頻度の確認:ヒストグラム,度数表 ・代表値    :平均値 ・ちらばり   :平方和→分散(標準偏差)           範囲 ・かたよりなど:歪み,尖り  2変量の関係:変量間の結びつき 変数1 変数2 関連性の指標 量的 (ピアソン)相関係数 質的 相関比(分散分析→寄与率) クラメールの連関係数 第2章 モニタリングⅡ

2.1 モニタリングの手順 2/2 モニタリングの着眼点と活用する主なグラフ 調べる目的 ポイント グラフ 1 変量 ・分布の形の確認 2.1 モニタリングの手順 2/2   モニタリングの着眼点と活用する主なグラフ   調べる目的 ポイント グラフ 1 変量 ・分布の形の確認 ・欠測値,ゼロ値 ・外れ値 ・正規分布か ・層別の必要はあるか ・外れ値はあるか ・ヒストグラム ・正規分位点プロット ・箱ひげ図 2 変 量 ・2次元分布の確認 ・独立性の検討 ・相関関係や関連性はあるか ・散布図 ・モザイク図 ・層別ヒストグラム 多変量 ・多次元分布の確認 ・特異な変量はあるか ・相関関係はあるか ・外れ値はないか ・散布図行列 ・層別散布図 ・外れ値分析 第2章 モニタリングⅡ

2.3 二変量の関係(1)-共に量的変量の場合- 二変量の関係での分析手法 2.3 二変量の関係(1)-共に量的変量の場合- 二変量の関係での分析手法 一変量の分布によりデータのばらつき方をグラフや統計指標で表すことができた. 今度は二変量の関係の強さを調べる. 統計指標は,全体的な傾向を表現するには便利であるが, 個々のばらつきの様子までは分からない. グラフによる表現は,個々のばらつきの様子が手に取るように分かる. 両者を組合せることで,「木も見て森も見られる」である. JMPでは,変量のタイプにより,分析ツールが表2.2のようにセットされる. 第2章 モニタリングⅡ

標準化変量(z得点) 【操作2.7:標準化と標準化後のヒストグラム】 ①JMPを起動し,「ビッグクラス」を読み込む. ②身長(インチ)と体重(ポンド)のヒストグラムを描画する. ③一変量の分布のウインドウのタイトルの変量名 ―例えば,身長(インチ)― の左の赤い▼をクリックし,メニューの保存から標準化をクリックする. ④データテーブルに標準化された変量が追加される. ⑤標準化後身長(インチ)と標準化後体重(ポンド)のヒストグラムを描画する. ・今度は2つの変量を使って,全体的な様子や個体の特徴を調べる. ・例えば,「ビッグクラス」の身長と体重の情報が得られたとき,  両者を単純に比較することはできない. ・それは,物理的な測定単位 ―長さと重さ― が異なるからである. ・標準化変量(z得点)は,測定単位の影響を取り除くために,各データが  平均からどのくらい離れているかを標準偏差で割った値を指標としたものである. ・標準化変量は今後MDAの随所で顔を出すことになる. 第2章 モニタリングⅡ

二次元データ 1/3 図2.17は,標準化後の身長と体重のヒストグラムである. 両者の分布を比較しても意味がない. 二次元データ 1/3 図2.17 標準化後の身長と体重のヒストグラム 図2.17は,標準化後の身長と体重のヒストグラムである. 両者の分布を比較しても意味がない. JMP機能を使えば,ある生徒は,身長は高いのに体重は少ないとか身長は高く体重も重いなどの特徴を見出せるが,身長が高くなれば体重も重くなるといった,全体的な傾向を読み取ることはできない. 第2章 モニタリングⅡ

二次元データ 2/3 2つの変量の関係を調べるには,2つの変量を個体で結び付けて表示する必要がある. その方法として散布図がある. 二次元データ 2/3 図2.18 標準化された身長と体重の散布図と周辺ヒストグラム 2つの変量の関係を調べるには,2つの変量を個体で結び付けて表示する必要がある. その方法として散布図がある. 散布図は,二次元について個体の在処をプロットしたものである. 図2.18左は,標準化された身長と体重の観測値を,それぞれ別々にヒストグラムにしている. これらは,周辺ヒストグラムとよばれ,元々の観測値から得られるか,散布図の点をそれぞれの座標軸上に射影して得られる. 第2章 モニタリングⅡ

二次元データ 3/3 散布図とヒストグラムは,異なった種類の情報を含んでいる. 二次元データ 3/3 散布図とヒストグラムは,異なった種類の情報を含んでいる. 散布図からは,2つの周辺ヒストグラムを作成することができるが, 2つの周辺ヒストグラムからは,散布図を復元することができない. 図2.18の右は,体重だけ,昇順に並べ替えたものを散布図と周辺ヒストグラムで表したグラフである. 左右の周辺ヒストグラムは同じ形であるが,散布図の様子は明らかに異なる. 左の散布図は右上がりの傾向があるのだが,右では右下がりの傾向を示している. つまり,散布図では,周辺ヒストグラムからでは分からない情報 ―共に変動する傾向― を持っている. 2つの変量の直線的な結びつきが大きければ,変量1つずつ調べるだけでは,大事な情報を取り逃がしてしまうのである. 第2章 モニタリングⅡ

2.3.2 相関関係と散布図 2つの変量が共に連続尺度である場合には,散布図によりその傾向を調べることができる. 2.3.2 相関関係と散布図 2つの変量が共に連続尺度である場合には,散布図によりその傾向を調べることができる. 散布図は調べようとする2変量間の関係の様子を図示するものである. 図2.19 相関の大きさの違う散布図 第2章 モニタリングⅡ

因果関係の散布図のルール 因果関係のある散布図は, 目的変量yを縦軸に, yを説明する説明変量,あるいは要因xを横軸に取る. 例えば, ・ 授業の出席率xと期末試験の成績y ・ 車のセールスマンの好感度xと車の満足度y ・ 企業のブランドイメージxと学生の企業人気度y などである.散布図の読み方は, ・ 打点が直線関係にあるかどうか ・ 打点の傾向が右上がりなのか,右下がりなのか ・ 傾向線との離れ具合の大きさはどうなのか などに着目する. 第2章 モニタリングⅡ

相関関係 6つの散布図には,プロットの95%が収まるような確率楕円が追加されている. この楕円の形により相関の強さを視覚的に理解できる. 上4つの散布図のように,プロットが直線的に右上がりであれば,正の相関があるという. 逆に右下の散布図のように,プロットが右下がりであれば負の相関があるという. また,左下は傾向がないもので無相関と呼ばれる. 散布図を作成する目的として,2変量間に直線的関係があるかどうかや相関関係の強さを視覚的に見たいなど変量に関するもの データに外れ値があるかを調べたり層別の必要があるかどうか調べたりと,個体に関するものとがある. 第2章 モニタリングⅡ

二次元での外れ値 図2.20 確率楕円と外れ値 第2章 モニタリングⅡ

活用術2.6 記述の散布図 第2章 モニタリングⅡ

操作2.8 二変量の関係 ①“分析(A)”メニューの“二変量の関係”をクリックする. 操作2.8 二変量の関係 ①“分析(A)”メニューの“二変量の関係”をクリックする. ②表示されたウインドウの“列の選択リスト”から“体重(ポンド)”をクリックして,“Y,目的変数”ボタンをクリックする. ③ウインドウの“列の選択リスト”から“身長(インチ)”をクリックして,“X,説明変数”ボタンをクリックし,“OK”ボタンをクリックする. 第2章 モニタリングⅡ

2.3.3 相関係数 1/4 相関の強さを定量的に測る指標が必要である.それが相関係数である.相関係数rの範囲は,|r|≦1で,±1のときもっとも強い.また,0のとき無相関になる.相関係数が負のときは,負の相関があるという.相関係数は次式で定義される. 第2章 モニタリングⅡ

2.3.3 相関係数 2/4 2つの量的変数データ 1)偏差積和 2)共分散 3)相関係数 ばらつく部分がどんな関係にあるか x y 2.3.3 相関係数 2/4 2つの量的変数データ 1)偏差積和 サンプル x y xとyの関連 1 x1 y1 2 x2 y2 3 x3 y3 ・ i xi yi n xn yn 平均 平方和 分散 標準偏差 2)共分散 3)相関係数 ばらつく部分がどんな関係にあるか 第2章 モニタリングⅡ

2.3.3 相関係数 3/4 相関係数の意味 人口データ アイデア:平均値で4分割する ・xとyが互いに独立(無関係)であれば, 2.3.3 相関係数 3/4 相関係数の意味 人口データ アイデア:平均値で4分割する ・xとyが互いに独立(無関係)であれば,  4つの領域でのプロット数はほぼ等しくなるであろう ・かたより(共に大きくなる傾向など)があれば,  領域にある個数にもかたよりが生じる ・データ1つ1つの平均値からの距離も考慮したい(遠いほど影響力がある)   図の右上の領域にあるデータは 右下の領域で考えると 第2章 モニタリングⅡ

2.3.3 相関係数 4/4 相関係数の意味-2 アイデア:測定単位の影響を除く→標準化する アイデア:データ1個当りのに直してみると 2.3.3 相関係数 4/4 相関係数の意味-2 アイデア:測定単位の影響を除く→標準化する アイデア:データ1個当りのに直してみると アイデア:変形してみると これを相関係数と呼ぼう(ピアソンの相関係数) 第2章 モニタリングⅡ

活用術2.7 二変量の分析で必要な統計指標 相関関係には各分布の平均位置の情報はない 第2章 モニタリングⅡ

散布図と相関係数の注意 図2.22 同じ相関係数でも散布状況が異なるもの 図2.22に示すように,左の直線に沿って均等に散らばっている場合と,右の偏って散らばっている場合とでは,明らかに散布状況が異なるが,相関係数は一致している.右の場合のように,点線で囲った部分が測定を誤った(測定単位を読み間違えた)値であったり,測定が偏った結果であったりした場合には,見かけの相関係数が1に近いことがある.点線で囲った部分を除いて,相関係数を計算すると,始めの場合よりもずっと小さな値になるかも知れない.相関関係は,相関係数と散布図の両方を出力して,総合的に考察する必要がある. 第2章 モニタリングⅡ

擬似相関 いくら散布図を作成して相関を発見しても,それらが論理的に結びついていないと意味がない. このような関係を擬似相関と呼ぶ. 例えば,小学生全体では,身長と学力とに正の相関がある. これは,学年を無視したためで,学年別に,身長と学力の関係を調べれば相関は消える. これは,学習過程と学力とに相関があり,学習過程と身体の発育とに相関があり,その結果,身長と学力との間に擬似相関が現れたのである. 擬似相関は,層別などにより見破ることができる. 第2章 モニタリングⅡ

操作2.9 相関係数の表示 ①散布図が表示されているウインドウの上側にある“身長(インチ)と体重(ポンド)の二変量の関係”の左の赤い▼をクリックする. ②メニューの“確率楕円”をクリックし,“.95”をクリックすると信頼率95%の確率楕円が追加される. ③ウインドウの下にできた“相関”の左にある青い三角をクリックすると相関係数が表示され,r=0.709 である. 第2章 モニタリングⅡ

2.3.4 単回帰モデル x y x y 回 帰 関 係 阪神電鉄の株価 星野阪神の成績 相 関 係 料理の美味しさ イタリアンレストランの 2.3.4 単回帰モデル 回 帰 関 係 • 変数の役割(回帰関係) y – 予測の対象となる変数:目的変数 x – 予測に使う変数 :説明変数 阪神電鉄の株価 x y 星野阪神の成績 e 残差 相 関 係 • 変数の役割(相関関係) y – 解析の対象となる変数:説明変数 x – 解析の対象となる変数:説明変数 y 料理の美味しさ x イタリアンレストランの 従業員の雰囲気 第2章 モニタリングⅡ

身長と体重の散布図 身長と体重には正相関がある 身長 体重 真の原因 考え方 身長 体重 誤差 身長と体重とは相関関係がある 図2.23 身長と体重の散布図 身長と体重とは相関関係がある 考え方として,身長よりも体重をコントロールすることが容易である 同じ身長だとしたら,平均的な体重がいくらかを検討することは,エステ業界だけでなく意味がある 第2章 モニタリングⅡ

単回帰式 身長で体重を予測することが何故妥当であるか 我々が生活する上での意味的に考えよ。 (2.16) 傾きがb1 (2.17) x,yのデータから平均が引かれている ことに注目 身長で体重を予測することが何故妥当であるか  我々が生活する上での意味的に考えよ。 第2章 モニタリングⅡ

確率楕円と回帰直線 確率楕円は、平均的に95%の観測点が存在している領域(共に正規分布を仮定) 単回帰モデルは、y方向の誤差eを最小とする 図2.23 身長と体重の散布図 図2.24 確率楕円と回帰直線の関係 確率楕円は、平均的に95%の観測点が存在している領域(共に正規分布を仮定) 単回帰モデルは、y方向の誤差eを最小とする 第2章 モニタリングⅡ

身長と体重の散布図 回帰直線は,以下の3つの点を必ずとおる 回帰直線の意味は, 同じ身長の個体を集めたとき(条件)  同じ身長の個体を集めたとき(条件)  その平均的な体重が幾らかを  直線的関係によりモデル化したもの  実測値と平均的体重からの差が残差 でどの身長の値(場所)でも同じばらつ きσを持つとする 図2.24 確率楕円と回帰直線の関係 回帰直線は,以下の3つの点を必ずとおる 確率楕円と身長に対する垂線との2つの接線の点 平均位置 第2章 モニタリングⅡ

確率楕円と3つの直線 ・yを予測するxの Y 回帰直線y=b0+b1x e e ・xを予測するyの 回帰直線x=a0+a1y 主成分 X 第2章 モニタリングⅡ

仮説検定 帰無仮説:母集団の傾きはβ1は0である 対立仮説:傾きb1に統計的意味がある 標本 傾きがb1 母集団 傾きが 図2.25 単回帰分析の結果 標本 傾きがb1 母集団 傾きが 帰無仮説:母集団の傾きはβ1は0である 対立仮説:傾きb1に統計的意味がある yの平均線が回帰の95%信頼区間上下限から 外れていればOK  第2章 モニタリングⅡ

回帰診断 誤差(モデルで標本から計算した実際の値ではないことに注意) 第2章 モニタリングⅡ

残差の性質 第2章 モニタリングⅡ

回帰であてはまっていない、残差eについて グラフで、モデルの仮定を確認する 2.3.6 単回帰モデルの外れ値と正規性チェック 回帰であてはまっていない、残差eについて グラフで、モデルの仮定を確認する 図2.26 残差の正規分位点プロット 正規性と外れ値をチェック してみよう 残差に外れ値があるときは,その原因を究明する. 外れ値から思いがけない問題解決のヒントが得られる場合がある. 解析から除外した旨を必ず報告書に記入し, 除外した観測値の素性を忘れずに記述する. 第2章 モニタリングⅡ

2.3.7 単回帰モデルのテコ比と予測残差 重心(平均)から遠い観測値の変動は、回帰直線の傾きに影響を与えやすい 2.3.7 単回帰モデルのテコ比と予測残差 Y 図2.27 テコ比の影響 X 重心(平均)から遠い観測値の変動は、回帰直線の傾きに影響を与えやすい 回帰ではx側は変動しないことを前提としている 確率的に変動しているのはy方向である 第2章 モニタリングⅡ

演習問題2.1を考えよ 十種競技の例 各競技と総合得点との単回帰分析を行い結果と考察を述べよ 第2章 モニタリングⅡ

2.4(補) データ解析の手順-① Ⅰ.1変数ごとの解析手順 1)分布の様子を見る 手法:ヒストグラム,箱ひげ図,確率プロット 2.4(補) データ解析の手順-① Ⅰ.1変数ごとの解析手順  1)分布の様子を見る    手法:ヒストグラム,箱ひげ図,確率プロット    要点:中心・ばらつき・歪み・尖り・はずれ,データ再現性     2)欠測値やゼロ値を確認する    手法:欠測処理可能ソフト,回帰分析で予測 など    要点:ゼロのものと欠測値としてゼロになったものと混同しない        解析にゼロを含めるか含めないかを明確にしておく  3)分布の要約値を算出する    手法:基本統計量    要点:nを明示する.対称性,正規性のチェック  4)はずれ値を検出する    手法:箱ひげ図(はずれ:1.5*4分位,飛びはずれ:3.0*4分位)    要点:外れ値がすべてエラーデータではない,はずれ値検討で思考を豊かに   5)層別して分布を比較する    手法:箱ひげ図,層別ヒストグラム    要点:分布位置,ばらつきの比較,層別は知見と別に機械的に,両者を比較  6)データの再現性を検討する  手法:べき変換,変数変換  7)分布モデルを検討する    手法:確率プロット,適合性検討 第2章 モニタリングⅡ

2.4(補) データ解析の手順-③ Ⅱ.2変数の対ごとの解析手順 8)2次元の分布の様子を見る 手法:散布図,層別ヒストグラム&箱ひげ図 2.4(補) データ解析の手順-③ Ⅱ.2変数の対ごとの解析手順  8)2次元の分布の様子を見る    手法:散布図,層別ヒストグラム&箱ひげ図    要点:中心・範囲・形を見る ケース数が多いときはランダムサンプリング     9)欠測値やゼロ値を確認する    要点:ゼロのものと欠測値としてゼロになったものと混同しない        解析にゼロを含めるか含めないかを明確にしておく  10)はずれ値を摘出する    手法:散布図の視察,マハラノビス距離    要点:散布図から見て,楕円形にデータが分布していれば,平均を中心に距離で        測ることができる  11)相関の強さを見る    手法:相関係数,順位相関係数    要点:外れ値の影響を見る.はずれ値を取り除くと係数はどのくらい動くか   12)従属関係を検討する(原因-結果)    手法:パス図,回帰分析    要点:変数の役割に注意,疑似相関にも注意  13)層別を検討する          手法:色やプロットの変更  14)データの再現性を検討する   手法:変数変換,直線化,等分散化 第2章 モニタリングⅡ

2.4(補) データ解析の手順-⑤ Ⅲ.多変量データ解析手順 15)相関係数行列を点検する 手法:散布図行列,相関係数行列 2.4(補) データ解析の手順-⑤ Ⅲ.多変量データ解析手順  15)相関係数行列を点検する    手法:散布図行列,相関係数行列    要点:相関係数の絶対値の大きい幾つかでシナリオを作る,相関の誤差     16)主成分分析によりデータを要約する    手法:主成分分析    要点:はずれ値の影響に注意  17)回帰モデルの探索と回帰診断    手法:回帰分析    要点:探索的診断的に(本講座対象外)  18)各種解析と結果の検証    手法:ブートストラップ法,ジャックナイフ法,データ2分法    要点:検証のないデータの結果は話し半分に聞く.        データを2つに分け同じ解析を行って安定性を見る 第2章 モニタリングⅡ

第1回宿題 1.以下のデータについて,散布図を描き相関係数を求めてみよう.  (計算手順をきちんと示すこと) x -1 -1 0 0 0 1 1 y -1 0 –1 0 1 0 1 z 2.xとyの和をzとしたとき,zの平均,平方和,x,yとの偏差積和と  相関係数を求めなさい. 3.rx,yとrx,z, ry,zとはどのような関係があるか 4.注意:宿題には氏名,学籍番号,メールアドレスを記入して  ください. 第2章 モニタリングⅡ