確率・統計学の基礎 データの特性を表すパラメータとは? 2 つのデータの関係性を表す式の導出方法.

Slides:



Advertisements
Similar presentations
5 章 標本と統計量の分布 湯浅 直弘. 5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合  ・有限な場合:有限母集合 → 1つの箱に入っているねじ.  ・無限な場合:無限母集合.
Advertisements

1 変量データの記述 (度数分布表とヒストグラム) 経済データ解析 2009 年度後 期. あるクラスのテストの点数が次のように なっていたとする。 このように出席番号と点数が並んでいるものだけでは、 このクラスの特徴がわかりづらい。 → このクラスの特徴がわかるような工夫が必要 → このクラスの特徴がわかるような工夫が必要.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
社会福祉調査論 第 8 講 統計の基本的整理 12 月7日. 【目標】 量的調査の集計方法、結果の示し方につ いて、基礎的な手法を習得する。 統計値を捉えるための諸指標を理解する。
EXCEL 講習会 2014 年 5 月 1 日,2 日 OSIPP NWC ① 11 : 00 ~ 12 : 00 ② 13 : 00 ~ 14 : 00 1 政策データ分析.
ヒストグラム5品種 松江城 出雲大社 石見銀山 三瓶山 アクアス しかしグラフで比較するのはめんどうなところがある 端的に1つの数字(代表値)で品種の特徴を表したい.
中学校段階での 相関関係の指導 宮崎大学教育文化学部 藤井良宜. 概要 現在の学習指導要領における統計の扱い これまでの相関関係の指導 相関関係の指導のポイント 相関関係.
1 統計学 第2週 10/01 (月) 担当:鈴木智也. 2 前回のポイント 「記述統計」と「推測統計」。 データ自体の規則性を記述するのが 「記述統計」、データを生み出した背 景を推測するのが「推測統計」である。 推測統計は記述統計に基づくので、ま ずは記述統計から学ぶ。 以下、データの観測値をX.
統計学 第3回 西山. 第2回のまとめ 確率分布=決まっている分布の 形 期待値とは平均計算 平均=合計 ÷ 個数から卒業! 平均=割合 × 値の合計 同じ平均値でも 同じ分散や標準偏差でも.
陰関数定理と比較静学 モデルの連立方程式体系で表されるとき パラメータが変化したとき 如何に変数が変化するか 至るところに出てくる.
生体情報論演習 - 統計法の実践 第 1 回 京都大学 情報学研究科 杉山麿人.
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
MS-EXCEL、 OpenCalcを 用いた表計算
データ解析基礎 2. 度数分布と特性値 keyword データの要約 度数分布表,ヒストグラム 分布の中心を表す基本統計量
データ分析入門(12) 第12章 単回帰分析 廣野元久.
第1章 記述統計の復習 統計学 2007年度.
本時の目標 正の数、負の数の大小関係や数直線上での表し方、絶対値の意味を理解する。
みかけの相関関係 1:時系列 2つの変数に本来関係がないのに,データだけから相関係数を計算すると相関係数がかなり大きくなることがある.
第3章 2変量データの記述 統計学基礎 2010年度.
第1章 記述統計の復習 統計学 2011年度.
データ解析 静岡大学工学部 安藤和敏
相関係数 植物生態学研究室木村 一也.
Copyright © Kazuhito HAMANO 2007 all Rights Reserved.
第1回 担当: 西山 統計学.
第1章 記述統計の復習 統計学 2010年度.
第4回 (10/16) 授業の学習目標 先輩の卒論の調査に協力する。 2つの定量的変数間の関係を調べる最も簡単な方法は?
3 一次関数 1章 一次関数とグラフ §3 一次関数の式を求めること          (3時間).
心理統計学 II 第7回 (11/13) 授業の学習目標 相関係数のまとめと具体的な計算例の復習 相関係数の実習.
流れ(3時間分) 1 ちらばりは必要か? 2 分散・標準偏差の意味 3 計算演習(例題と問題) 4 実験1(きれいな山型の性質を知ろう)
データ解析基礎 4. 正規分布と相関係数 keyword 正規分布(教科書:31ページ~38ページ) 正規分布の性質 偏差値
第3章 二つの変数の記述統計 二つの変数を対象として変数同士の関係を捉える 量的変数どうしの関係 質的変数どうしの関係.
臨床統計入門(3) 箕面市立病院小児科  山本威久 平成23年12月13日.
相関と回帰:相関分析 2つの変量それぞれが正規分布にしたがってばらつく量であるとき,両変数の直線的な関係を相関分析する. 例:兄弟の身長
数理統計学  第8回 西山.
統計学 第3回 10/11 担当:鈴木智也.
消費の理論: スルーツキー方程式 需要曲線の導出 序数と基数
4 関数 y=ax 2 1章 関数とグラフ §3 関数 y=ax 2 の値の変化         (5時間)
1時限で理解する 統計の基礎 応用情報処理II 2015/12/4 講師:新居雅行.
寺尾 敦 青山学院大学社会情報学部 エクセルでの正規分布の グラフの描き方 寺尾 敦 青山学院大学社会情報学部
1変量データの記述 経済データ解析 2006年度.
データのバラツキの測度 レンジと四分位偏差 分散と標準偏差 変動係数.
需要の価格弾力性 価格の変化率と需要の変化率の比.
寺尾 敦 青山学院大学社会情報学部 エクセルでの正規分布の グラフの描き方 寺尾 敦 青山学院大学社会情報学部
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 データ入力 データ分析 報告書の作成.
相関分析.
データ解析 静岡大学工学部 安藤和敏
 統計学講義 第11回     相関係数、回帰直線    決定係数.
代表値とは 散布度とは 分布のパラメータ 母集団とサンプル
寺尾 敦 青山学院大学社会情報学部 エクセルでの正規分布の グラフの描き方 寺尾 敦 青山学院大学社会情報学部
第4回 統計処理(1) 表計算ソフトの基本操作 塩浦 昭義 東北大学全学教育科目 情報基礎 A 1セメスター 木曜1,3講時
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
確率と統計 メディア学部2008年後期 No.3 平成20年10月16日(木).
ex-8. 平均と標準偏差 (Excel 実習シリーズ)
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
都市・港湾経済学(総) 国民経済計算論(商)
第5回 確率変数の共分散 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
度数分布表における平均・分散 (第1章 記述統計の復習 補足)
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
相関分析 2次元データと散布図 共分散 相関係数.
1変量データの記述 (度数分布表とヒストグラム)
臨床統計入門(1) 箕面市立病院小児科  山本威久 平成23年10月11日.
プログラミング論 相関
ex-8. 平均と標準偏差 (Excel を演習で学ぶシリーズ)
徳山 豪 東北大学情報科学研究科 システム情報科学専攻 情報システム評価学分野
本時の目標 正の数、負の数の大小関係や数直線上での表し方、絶対値の意味を理解する。
データ分布の特徴 基準化変量 歪度 尖度.
回帰分析入門 経済データ解析 2011年度.
Presentation transcript:

確率・統計学の基礎 データの特性を表すパラメータとは? 2 つのデータの関係性を表す式の導出方法

データとは データとは,ある事項についてその値 を集めたものである. % 北海道 10.5 東京 9.6 青森 11.1 神奈川 8.0 岩手 12.7 新潟 13.7 宮城 10.6 富山 13.6 秋田 13.6 石川 12.7 都道府県別 65 歳以上の 人口の割合(総務庁 1988 ) 年度 成長率 (%) GNP の実質成長率 (経済企画庁 1988 )

データの特性値 生のデータそのままでは数値の羅列で,データ の特徴が掴み難い データの特徴を表す値 代表値: 平均値 メディアン(中央値),モード(最頻 値) など 散布度: 範囲, 平均偏差, 分散, 標準偏差, 変動係数 など

データを評価するには? 次のデータを比較してみよう.どのような点が異なるだろ うか? 例) ある学校で, 2 つのクラス(一クラス 50 人)に 500 満点の試験を受けてもらった. 各クラスの点数に対する人数をグラフにした.その特徴を説明しなさい

平均値 代表値で最も使われる値. 変量の和を総度数 n で割った値 Excel では, =average( セル:セル ) で計算することができる. 「グラフ表示」のページのデータにおいて,各項目ごとに平 均値を求めよ. または =sum( セル:セル) / セル数でも可

平均偏差 偏差:観測値 と平均値 との差 平均偏差:偏差の絶対値を平均したも の 散らばりの程度を表す値.平均値から離れた値がたくさん あると, d の値は大きくなる. ただし絶対値の取り扱いが面倒である.

分散 偏差の絶対値の代わりに平方を平均したもの 平均値からどれくらい散らばっているかを評価するた めに使われる 表現の違い

標準偏差 分散値は偏差を 2 乗しているため,データの単 位が異なる. 分散値の正の平方根を取る 分散と標準偏差は,最も重要な散布度である

練習問題1 データ1データ1,データ2をダウンロードしなさい.データ2 Excel にデータを取り込みなさい. Frequency( セル:セル,セル:セル)を使用 して度数分布表を作成しなさい 散布図を作成しなさい. VARP( セル:セル ) を使って分散値を求めよ. STDEVP (セル:セル)を使って標準偏差を 求めよ

手順 1. 指定されたデータをダウンロードする.テキストファイル 中に数字のデータが入力されているのを確認する. 2. テキストデータを開いてすべての数字を選択.コピー&貼 り付けでエクセルにデータを移す.または,エクセルより, 「データ → 外部データの取り込み → データの取り込み」の 手順でデータを取り込む 3. Frequency の使い方.まず度数分布を作成するにあたり,区 間配列を縦に記入する.0,10,20などと.そのすぐ 横のセルをすべて選択した後,「 =frequency( データがある 範囲, 区間配列がある範囲」と入力し,その後, [Shift+Ctrl+Enter] を押す.

手順2 1. 区間と度数を選択後,「挿入 → グラフ → 散布図」を選択す る. VARP( データの範囲を指定 ) を使って分散値を求める. STDEVP (データの範囲を指定)を使って標準偏差を求め る

二つのデータの関係を調べ る 例) 身長と体重の関係 基本的に身長が高いほど体重が重い 例) 勉強時間と成績の関係 勉強時間が長いほど成績が高い 例) 販売価格と利益の関係 販売価格を安くすると利益が小さくなる 二つのデータには密接な関係があると予想される

相関と回帰直線 正の相関 負の相関 などのグラフ 正の相関負の相関

例えば,慎重が高い人ほど体重が重い といった傾向が読み取れる 例

回帰直線 二つのデータの関係を直線で表すことが出来ない か? 相関図よりデータの各点が一つの直線の周りに集 まっている場合に,その直線を回帰直線という. とりあえず, y=ax+b とおこう.図より,各点と直線の距離 d が 最も小さくなるように a,b を決定する. 正と負があるので 2 乗和で評価する

回帰直線の続き その結果,上記の値が最も小さくなる条件は

回帰直線の続き2 共分散

回帰直線の続き3 第 2 項をシグマの中に入れると一行目の式と同じに なる

宿題 回帰直線の係数 a と b の導出を証明せよ より を導出すること (ちゃんと過程を書くこと)

練習問題2 データ3データ3をダウンロードしなさい 身長と体重の回帰直線を求めなさい (手順) ①平均を求める ②身長と平均の差,体重と平均の差を求める ③ ②の合計をデータ数で割る ④ ③より回帰直線の傾き, y 切片を求める ⑤ ④で求めた値を用いて,回帰直線の y の値を求める. 元のデータと回帰直線のグラフを作成してみましょう ⑥ エクセルにある関数 LINEST を用いて回帰直線の傾き, y 切片を求め る

相関について 2 種類の相関 収入と支出。これは互いに非常に影響を与えあう変 数である。収入が増えれば増えるほど支出額も増加す る。また、年齢と体力。これは逆に年齢が増えれば増 えるほど、体力は減るという関係にある。 このように、2変数の関係には次の2つの種類がある。 ①. 「 A が増えれば B も増え、 A が減ると B も減 る。」 ②. 「 A が増えると B は減り、 A が減ると B は増え る。」 今回の例なら、「収入と支出」は①の関係、「年齢と 体力」は②の関係になる

正の相関 負の相関 正の相関負の相関 ①の傾向 ②の傾向

相関係数 直線的な傾向を示す 2 変量のデータに対して, その直線的傾向の度合いの「強さ」を数量的 に表現したい 先の計算で出てきた共分散を使えばよい 負正正正 負負正負 直線に近ければ 直線から離れると の値は単調に増加するか減少する の値は 0 に近づく

先ほどの s xy では,測定の単位に関係 するので,これをなくすため標準偏差 s x , s y で割った値を用いる 相関係数 範囲は 1 に近くなるほど,右上がりの直線に - 1 に近くなるほど,右下がりの直線に 0 の場合無相関な分布となる

この 2 つの関係は相関係数の符号に依って表現される。相関係 数は -1 ・・ 0 ・・ +1 の間のいずれかになる。 + は①の関係、 - は ②の関係である。また、相関係数の数値はその傾向の度合いを 表している。絶対値が 1 に近づくほどはっきりした傾向である ことを示しているのである。 0 は関係が全くないことを表して いる。 今上げた二つの例、「収入と支出」、「年齢と体力」はかなり はっきりした関係があるだろうから、+ 1 や- 1 に近い値が出る だろう。 相関係数 =1 であるというのはどういうことを示しているか考察 せよ.