データ解析基礎 4. 正規分布と相関係数 keyword 正規分布(教科書:31ページ~38ページ) 正規分布の性質 偏差値

Slides:



Advertisements
Similar presentations
統計学の基礎 -何を学ぶか。 何ができるようになるか-. データとは何か 母集団と標本(サンプル)、データの関係 統計的方法を用いることにより、統計量から母数について どれほどのことが言えるか、知ることができる。 2.
Advertisements

生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
Lesson 9. 頻度と分布 §D. 正規分布. 正規分布 Normal Distribution 最もよく使われる連続確率分布 釣り鐘形の曲線 -∽から+ ∽までの値を取る 平均 mean =中央値 median =最頻値 mode 曲線より下の面積は1に等しい.
確率・統計学の基礎 データの特性を表すパラメータとは? 2 つのデータの関係性を表す式の導出方法.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
数理統計学 西 山. 前回の問題 ある高校の 1 年生からランダムに 5 名を選 んで 50 メートル走の記録をとると、 、 、 、 、 だった。学年全体の平均を推定しなさい. 信頼係数は90%とする。 当分、 は元の分散と一致 していると仮定する.
統計学 西山. 平均と分散の標本分布 指定した値は μ = 170 、 σ 2 = 10 2 、データ数は 5 個で反復 不偏性 母分散に対して バイアスを含む 正規分布カイ二乗分布.
4. 統計的検定 ( ダイジェスト版 ) 保健統計 2014 年度. Ⅰ 仮説検定の考え方 次のような問題を考える。 2014 年のセンター試験、英語の平均点は 119 点であった。 T 高校では 3 年生全員がセンター試験を受験したが、受験生の中から 25 人を選んで調査したところ、その平均点は.
中学校段階での 相関関係の指導 宮崎大学教育文化学部 藤井良宜. 概要 現在の学習指導要領における統計の扱い これまでの相関関係の指導 相関関係の指導のポイント 相関関係.
統計学 第3回 西山. 第2回のまとめ 確率分布=決まっている分布の 形 期待値とは平均計算 平均=合計 ÷ 個数から卒業! 平均=割合 × 値の合計 同じ平均値でも 同じ分散や標準偏差でも.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
―本日の講義― 1・相関関係と因果性・相関係数の種類 2.散布図をつくる 3・共分散・相関係数の計算
データ解析基礎 2. 度数分布と特性値 keyword データの要約 度数分布表,ヒストグラム 分布の中心を表す基本統計量
第4章 統計的検定 統計学 2007年度.
数理統計学  第9回 西山.
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
データ分析入門(12) 第12章 単回帰分析 廣野元久.
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
みかけの相関関係 1:時系列 2つの変数に本来関係がないのに,データだけから相関係数を計算すると相関係数がかなり大きくなることがある.
Excelによる統計分析のための ワークシート開発
データ解析 静岡大学工学部 安藤和敏
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
相関係数 植物生態学研究室木村 一也.
第1回 担当: 西山 統計学.
第4回 (10/16) 授業の学習目標 先輩の卒論の調査に協力する。 2つの定量的変数間の関係を調べる最も簡単な方法は?
統計解析 第9回 第9章 正規分布、第11章 理論分布.
心理統計学 II 第7回 (11/13) 授業の学習目標 相関係数のまとめと具体的な計算例の復習 相関係数の実習.
流れ(3時間分) 1 ちらばりは必要か? 2 分散・標準偏差の意味 3 計算演習(例題と問題) 4 実験1(きれいな山型の性質を知ろう)
―本日の講義― 1・相関関係と因果性・相関係数の種類 2.散布図をつくる 3・共分散・相関係数の計算
貧困と出産の関係.
第3章 二つの変数の記述統計 二つの変数を対象として変数同士の関係を捉える 量的変数どうしの関係 質的変数どうしの関係.
相関と回帰:相関分析 2つの変量それぞれが正規分布にしたがってばらつく量であるとき,両変数の直線的な関係を相関分析する. 例:兄弟の身長
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
主成分分析                     結城  隆   .
統計学 11/08(木) 鈴木智也.
統計数理 石川顕一 10/17 組み合わせと確率 10/24 確率変数と確率分布 10/31 代表的な確率分布
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 データ入力 データ分析 報告書の作成.
13.1 パス解析 (1) 標準偏回帰係数 変数の標準化.
相関分析.
数理統計学 第4回 西山.
 統計学講義 第11回     相関係数、回帰直線    決定係数.
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
正規分布確率密度関数.
確率論の基礎 「ロジスティクス工学」 第3章 鞭効果 第4章 確率的在庫モデル 補助資料
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
多変量解析 ~主成分分析~ 1.主成分解析とは 2.適用例と解析の目的 3.解析の流れ 4.変数が2個の場合の主成分分析
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
パターン認識特論 担当:和田 俊和 部屋 A513 主成分分析
確率と統計2009 第12日目(A).
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
第4章 統計的検定 (その2) 統計学 2006年度.
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
クロス表とχ2検定.
川崎浩司:沿岸域工学,コロナ社 第4章(pp.58-68)
第5回 確率変数の共分散 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
統計学  第9回 西 山.
数理統計学 西 山.
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
小標本に関する平均の推定と検定 標本が小さい場合,標本分散から母分散を推定するときの不確実さを加味したt分布を用いて,推定や検定を行う
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
相関分析 2次元データと散布図 共分散 相関係数.
1変量データの記述 (度数分布表とヒストグラム)
臨床統計入門(1) 箕面市立病院小児科  山本威久 平成23年10月11日.
プログラミング論 相関
データ分布の特徴 基準化変量 歪度 尖度.
回帰分析入門 経済データ解析 2011年度.
第3章 統計的推定 (その2) 統計学 2006年度 <修正・補足版>.
統計現象 高嶋 隆一 6/26/2019.
Presentation transcript:

データ解析基礎 4. 正規分布と相関係数 keyword 正規分布(教科書:31ページ~38ページ) 正規分布の性質 偏差値 変数間の関係を表す統計量(教科書:55ページ~58ページ) 共分散 相関係数 散布図

正規分布 世の中の多くの現象は,標本数を大きくしていくと,正規分布に近づいていくことが知られている. 正規分布 データ解析の基礎となる重要な分布 平均と分散によって特徴づけることができる.  平均値:分布の中心を表す値  分散:分布のばらつきを表す値

正規分布 正規分布の関数(密度関数)の特徴 平均を中心にし,左右対称である. 分布の形状は,分散によって変化する

正規分布の形状:2次関数の例 aの値が小さくなるほどグラフの形状は シャープになる

正規分布の形状

標準正規分布 標準化

正規分布と確率 1シグマ,2シグマ,3シグマの法則 観測データが正規分布に従う場合,以下ようなの概算を見積もることができる.

標準正規分布N(0,1)の密度関数 68% 95% 99.8% 3シグマ 1シグマ 2シグマ

正規分布と偏差値 偏差値の定義 偏差値 z の算出式 受験者全員の平均点に相当する得点を50に変換し,標準偏差の1倍だけの隔たりを10に換算するような換算法によって算出される指標 偏差値 z の算出式

正規分布と偏差値 偏差値65・・・ 上位7% 7位(100人) 偏差値50・・・ 上位50% 50位(100人)

2変数間の関係を表す統計量 共分散 相関係数 相関係数の意味 相関係数の定義 散布図 視覚的に変量間の関係を見る

相関とは:例題・・・・・ 3科目(数学,理科,国語)について,試験をしたところ,次の結果であった.このデータから,3教科について,何らかの関係があるか.

相関とは:例題・・・・・ 右肩上がりの傾向 右肩下がりの傾向

散布図 2つの変量を,x軸とy軸に割り当て,観測データを座標上の点で表した図を散布図という. 2変量間の関係を,視覚的に見ることが出来る.

散布図からみる相関関係 正の相関 相関なし 負の相関

2 変数間の関係を表す量: 相関係数 2 変量間(x, y)の関係を測る指標・・・相関係数 相関係数 r(x,y) の値: 1 に近いほど正の相関が強い -1 に近いほど負の相関が強い 0 の時,相関がない 相関係数は常に因果関係を示すものではない.

2 変数間の関係を表す量

相関係数 2 つの変量を(x, y)で表した時,相関係数は以下の式で定義される. 共分散の値を,-1から1の範囲内に標準化した数と考えることもできる. 相関係数の定義式

共分散:2変量間の関係を表現する量

共分散の幾何学的意味

共分散と分散 共分散の大きさを評価 することが難しい. 共分散200は大きい?

タレントの人気と視聴率の関係は 渡辺久哲「調査データにだまされない法」創元社より ある番組分析班が,番組の主演タレントの人気とその番組の視聴率の関係を検討した. 分析対象は,A局・B局・C局のある時間帯の番組

タレントの人気と視聴率の関係は 3テレビ局について、番組の視聴率とそこに起用したタレントの人気度について相関係数を算出. 各局ごとにタレントの人気度(ヨコ軸)と番組の視聴率(タテ軸)でプロットを作成。 ほぼゼロ(0.000) 相関係数 大きい(0.700) ほぼゼロ(0.000)

タレントの人気と視聴率の関係は タレントの起用は番組の成功を大きく左右する要素であるが,相関係数を見たところB・C局のデータからは相関関係は見られなかった. 結論 「A局のみが、起用したタレントの人気が高いほど視聴率が高く、起用したタレントの人気が低いほど視聴率が低いという傾向が見られる」 本当にこの結論でよいのだろうか?          

タレントの人気と視聴率の関係は A局 相関関係が見られる B局 起用しているタレントの人気度と視聴率はほぼ無関係(相関係数もゼロに近い数値) C局 相関係数はほぼゼロに近い数値ではあるが,プロットは一風変わってU字型になっている C局についてはプロットを見ると,相関がないと断言することは出来ない・・・

タレントの人気と視聴率の関係は 相関係数を見ただけでは分からないことが,散布図から分かることがある 右半分の群からは,A局と同じタレントの人気度が高いほど番組の視聴率が高いという傾向が読み取れる 左半分からは、その逆で人気度の低いタレントでも高い視聴率をとる番組があることが読み取れる 相関係数を見ただけでは分からないことが,散布図から分かることがある

タレントの人気と視聴率の関係は なぜ、相関係数をみるだけではわからなかったのか? C局には,i) タレントの人気に依存した番組と ii)依存していない番組の2種類があるために,全体としてはU字型のプロット図になっている. 相関係数では,図にしたときの曲線的な関係の大きさをとらえることができない.

例題1:相関係数と散布図 吉田寿夫「本当にわかりやすいすごく大切なことが書いてあるごく初歩の統計の本」北大路書房より 以下のデータは,ある女性が12人の男性の積極性と清潔さについて評価したデータとそれぞれの男性に対する好意度に関するデータをまとめたものです.積極性についての評価と好意度および清潔さについての評価と好意度に関して,それぞれの相関係数と散布図を作成し,わかることを述べなさい.

例題1:回答項目

例題1:散布図 相関係数 = 0.75 相関係数 = -0.09 積極だと思う男性をより好むという傾向 非常に不潔と思う男性を好まないと同時 に,あまりにも清潔な男性もまた好まない

例題2:相関係数と散布図 吉田寿夫「本当にわかりやすいすごく大切なことが書いてあるごく初歩の統計の本」北大路書房より 中学生の勉強に対する努力量と学業成績の関係の検討する. 16人中学2年生について,以下の項目についてデータ得られているとしたとき,平均学習時間と成績の関係について分析をおこなう. 家庭での英語の学習時間 (1日あたりの平均時間:分) 英語の通知表の成績(10段階評定) 各生徒の知能の高さ(高,低)

例題2:観測データ

例題2:相関係数と散布図(全体) 相関係数 = 0.24

例題2:相関係数と散布図(層別) 知能の高さがほぼ一定であれば,“英語に関して努力している生徒ほど成績が良い”という正の相関関係が認められる. 相関係数(知能高) = 0.68 相関係数(知能低) = 0.60

例題3:相関係数と散布図 以下の表は,売上本数,広告費,キャンペーンの実施について調べたものである.

例題3:相関係数と散布図 広告費やキャンペーンの実施が売上に影響を及ぼしているかを調べたい. 相関係数と散布図を活用した解析をおこなう 広告費と売上本数の折線グラフの描画 広告費と売上本数の散布図の描画 キャンペーン実施と売上本数の散布図の描画

例題3:折線グラフ 広告費の投入度が大の月,キャンペーン実施を行った月(あるいは1ヵ月後) ↓ 売上本数が多くなる キャンペーン

例題3:広告費と売上本数の散布図 広告費と売上本数には 正の相関があることが わかる 相関係数=0.71

例3:キャンペーン実施と売上本数の散布図 キャンペーンの実施 と売上本数には 正の相関があることが わかる キャンペーン実施なし キャンペーン実施あり 売上本数

例3:平均値による比較 キャンペーン実施(あり,なし)別で,売上本数の平均値を計算 キャンペーン実施あり:12本,10本,4本 平均値8.7本 キャンペーン実施なし:2本,3本,8本,3本,5本 平均値4.2本 平均値を比較より,キャンペーン実施の効果がうかがえる

例3:相関係数と散布図の活用例 広告費やキャンペーンの実施が売上に影響を及ぼしているかを調べる. 相関係数と散布図を活用した解析をおこなう 広告費と売上本数の折線グラフの描画 広告費と売上本数の散布図の描画 キャンペーン実施と売上本数の散布図の描画 広告費とキャンペーン実施は売上に変動を与える要因である!!

まとめ 正規分布 データ解析の基礎となる重要な分布 平均と分散によって特徴づけることができる. 相関係数 r(x,y) 散布図 2つの変量を,x軸とy軸に割り当て,観測データを座標上の点で表した図を散布図という. 2変量間の関係を,視覚的に見ることが出来る