確率・統計学の基礎 データの特性を表すパラメータとは? 2 つのデータの関係性を表す式の導出方法
データとは データとは,ある事項についてその値 を集めたものである. % 北海道 10.5 東京 9.6 青森 11.1 神奈川 8.0 岩手 12.7 新潟 13.7 宮城 10.6 富山 13.6 秋田 13.6 石川 12.7 都道府県別 65 歳以上の 人口の割合(総務庁 1988 ) 年度 成長率 (%) GNP の実質成長率 (経済企画庁 1988 )
データの特性値 生のデータそのままでは数値の羅列で,データ の特徴が掴み難い データの特徴を表す値 代表値: 平均値 メディアン(中央値),モード(最頻 値) など 散布度: 範囲, 平均偏差, 分散, 標準偏差, 変動係数 など
データを評価するには? 次のデータを比較してみよう.どのような点が異なるだろ うか? 例) ある学校で, 2 つのクラス(一クラス 50 人)に 500 満点の試験を受けてもらった. 各クラスの点数に対する人数をグラフにした.その特徴を説明しなさい
平均値 代表値で最も使われる値. 変量の和を総度数 n で割った値 Excel では, =average( セル:セル ) で計算することができる. 「グラフ表示」のページのデータにおいて,各項目ごとに平 均値を求めよ. または =sum( セル:セル) / セル数でも可
平均偏差 偏差:観測値 と平均値 との差 平均偏差:偏差の絶対値を平均したも の 散らばりの程度を表す値.平均値から離れた値がたくさん あると, d の値は大きくなる. ただし絶対値の取り扱いが面倒である.
分散 偏差の絶対値の代わりに平方を平均したもの 平均値からどれくらい散らばっているかを評価するた めに使われる 表現の違い
標準偏差 分散値は偏差を 2 乗しているため,データの単 位が異なる. 分散値の正の平方根を取る 分散と標準偏差は,最も重要な散布度である
練習問題1 データ1データ1,データ2をダウンロードしなさい.データ2 Excel にデータを取り込みなさい. Frequency( セル:セル,セル:セル)を使用 して度数分布表を作成しなさい 散布図を作成しなさい. VARP( セル:セル ) を使って分散値を求めよ. STDEVP (セル:セル)を使って標準偏差を 求めよ
手順 1. 指定されたデータをダウンロードする.テキストファイル 中に数字のデータが入力されているのを確認する. 2. テキストデータを開いてすべての数字を選択.コピー&貼 り付けでエクセルにデータを移す.または,エクセルより, 「データ → 外部データの取り込み → データの取り込み」の 手順でデータを取り込む 3. Frequency の使い方.まず度数分布を作成するにあたり,区 間配列を縦に記入する.0,10,20などと.そのすぐ 横のセルをすべて選択した後,「 =frequency( データがある 範囲, 区間配列がある範囲」と入力し,その後, [Shift+Ctrl+Enter] を押す.
手順2 1. 区間と度数を選択後,「挿入 → グラフ → 散布図」を選択す る. VARP( データの範囲を指定 ) を使って分散値を求める. STDEVP (データの範囲を指定)を使って標準偏差を求め る
二つのデータの関係を調べ る 例) 身長と体重の関係 基本的に身長が高いほど体重が重い 例) 勉強時間と成績の関係 勉強時間が長いほど成績が高い 例) 販売価格と利益の関係 販売価格を安くすると利益が小さくなる 二つのデータには密接な関係があると予想される
相関と回帰直線 正の相関 負の相関 などのグラフ 正の相関負の相関
例えば,慎重が高い人ほど体重が重い といった傾向が読み取れる 例
回帰直線 二つのデータの関係を直線で表すことが出来ない か? 相関図よりデータの各点が一つの直線の周りに集 まっている場合に,その直線を回帰直線という. とりあえず, y=ax+b とおこう.図より,各点と直線の距離 d が 最も小さくなるように a,b を決定する. 正と負があるので 2 乗和で評価する
回帰直線の続き その結果,上記の値が最も小さくなる条件は
回帰直線の続き2 共分散
回帰直線の続き3 第 2 項をシグマの中に入れると一行目の式と同じに なる
宿題 回帰直線の係数 a と b の導出を証明せよ より を導出すること (ちゃんと過程を書くこと)
練習問題2 データ3データ3をダウンロードしなさい 身長と体重の回帰直線を求めなさい (手順) ①平均を求める ②身長と平均の差,体重と平均の差を求める ③ ②の合計をデータ数で割る ④ ③より回帰直線の傾き, y 切片を求める ⑤ ④で求めた値を用いて,回帰直線の y の値を求める. 元のデータと回帰直線のグラフを作成してみましょう ⑥ エクセルにある関数 LINEST を用いて回帰直線の傾き, y 切片を求め る
相関について 2 種類の相関 収入と支出。これは互いに非常に影響を与えあう変 数である。収入が増えれば増えるほど支出額も増加す る。また、年齢と体力。これは逆に年齢が増えれば増 えるほど、体力は減るという関係にある。 このように、2変数の関係には次の2つの種類がある。 ①. 「 A が増えれば B も増え、 A が減ると B も減 る。」 ②. 「 A が増えると B は減り、 A が減ると B は増え る。」 今回の例なら、「収入と支出」は①の関係、「年齢と 体力」は②の関係になる
正の相関 負の相関 正の相関負の相関 ①の傾向 ②の傾向
相関係数 直線的な傾向を示す 2 変量のデータに対して, その直線的傾向の度合いの「強さ」を数量的 に表現したい 先の計算で出てきた共分散を使えばよい 負正正正 負負正負 直線に近ければ 直線から離れると の値は単調に増加するか減少する の値は 0 に近づく
先ほどの s xy では,測定の単位に関係 するので,これをなくすため標準偏差 s x , s y で割った値を用いる 相関係数 範囲は 1 に近くなるほど,右上がりの直線に - 1 に近くなるほど,右下がりの直線に 0 の場合無相関な分布となる
この 2 つの関係は相関係数の符号に依って表現される。相関係 数は -1 ・・ 0 ・・ +1 の間のいずれかになる。 + は①の関係、 - は ②の関係である。また、相関係数の数値はその傾向の度合いを 表している。絶対値が 1 に近づくほどはっきりした傾向である ことを示しているのである。 0 は関係が全くないことを表して いる。 今上げた二つの例、「収入と支出」、「年齢と体力」はかなり はっきりした関係があるだろうから、+ 1 や- 1 に近い値が出る だろう。 相関係数 =1 であるというのはどういうことを示しているか考察 せよ.