データ解析基礎 2. 度数分布と特性値 keyword データの要約 度数分布表,ヒストグラム 分布の中心を表す基本統計量 平均,最頻値,中央値 分布のばらつきを表す統計量 分散,標準偏差
統計データの構造-1 データ解析の目的・・・ 具体的な対象(母集団)についての調査結果(標本をどう加工・処理し,有益な情報を引き出すかである. 加工・処理するための調査結果として,データ(観測データ)というものがある. 母集団から無作為抽出された個体のことを標本といい,その個数を標本の大きさまたは標本サイズと呼ぶ. “標本=観測データ”と読み替えても良い
統計データの構造-2 データ解析では調査項目のことを変量と呼ぶ. 質的変量 量的変量(連続的変量) 名義尺度:名前,性別 順序尺度:好きなもの順位など 量的変量(連続的変量) 間隔尺度:温度,成績など 比例尺度:距離,重量,金額など
統計データの構造-3:名義尺度 対象者特性を便宜的に数字で表現 統計的処理 性別:男性=1,女性=2 好きな動物:犬=1,猫=2,ウサギ=3 度数のカウント 例)男性100人,女性85人 名義尺度の数字は,加減乗除算ができない
統計データの構造-4:順位尺度 順位やベスト3,ワースト3などで表現 統計的処理 行きたい国から順に3つ書いてください. 次のタレントを好きな順に3名書いてください. 統計的処理 例)順位別の度数 1位 ドイツ20名 2位 中国10名 3位 オランダ8名
統計データの構造-5:間隔尺度 評価などの質問(等間隔の順序尺度)で使われる 統計的処理 満足度の調査 度数のカウント 得点化し,換算 平均などの統計量を計算 非常に満足 やや満足 どちらでもない やや不満 非常に不満
統計データの構造-6:比例尺度 数や量などを質問 統計的処理 年収,年齢 年間売上高,来場者数 カテゴリー化して度数を計算 平均などの統計量の計算
度数分布表1:質的データ例 応答パターン 頭部損傷:(有り,無し) ヘルメット着用: (着用,非着用)
度数分布表1:質的な観測データの要約 データで各々の値の個数(度数)を求める. 度数を表形式にしたものが度数分布表である
度数分布表2:量的な観測データの要約 データ集計 ⇔ 度数分布表の作成 度数分布表(区間数10)
度数分布表3:度数分布表の作成 度数分布表作成手順 データ項目を適当な階級に分ける 各階級に入る度数を数える 更に必要ならば, 相対度数,累積度数,累積相対度数を計算 相対度数は,データの大きさが異なる複数のデータの分布の比較に有効
度数分布表4:用語の復習 階級: 階級値: 度数: 相対度数: 累積度数,累積相対度数: 標本値が取り得る値を適当な区間に分けたもの 階級を代表する値.通常階級の上限と下限の中間値 度数: 階級に入る標本値の個数 相対度数: 度数を全標本値の個数で割って,比率にしたもの 累積度数,累積相対度数: 度数,相対度数を下の階級から順に足したもの
度数分布表5:ヒストグラムの作成 ヒストグラム: グラフの分布の形を見るために,度数分布表をグラフにしたもの 度数分布表を作成して,ヒストグラムを描くことによってデータの分布を知ることが出来る. ↓ データ解析のはじめの一歩!!
度数分布表6:度数分布表の読み方 データ区間: 300以上400未満 階級値: 350=(300+400)/2 度数: データ区間に13人 300以上400未満 階級値: 350=(300+400)/2 度数: データ区間に13人 相対度数: 9人は全体の22% 累積度数: 最初から数えてこの データ区間までに38人 累積相対度数: データ区間までの人数は 全体の64%
度数分布表7:ヒストグラムの作成 度数分布表 ヒストグラム
例題:得点データ
例題:度数分布表
例題:ヒストグラム データのまとめ方によって,異なる解釈ができる場合がある.
分布の特性値 代表値:データの中心の位置 散布度:データの散らばり具合 度数分布やヒストグラムを見ることで分布の形状を知るができる. 数値で分布の概要を把握するための指標として, 代表値:データの中心の位置 散布度:データの散らばり具合 がある. 2つの指標を総称して「分布の特性値」という.
分布の特性値:代表値 データの分布がどのような値を中心に散らばっているか明らかにする. 平均: 最頻値: 中央値(メジアン): データのすべての値を足し合わせて,データ数で割ったもの 最頻値: 分布の最も高い場所 中央値(メジアン): データの中央にくる値のこと
分布の特性値:代表値 最頻値 平均値 中央値
日本全国の平均世帯収入は? 渡辺久哲「調査データにだまされない法」創元社より 総務庁の統計局の家計調査によると,平成8年度の全国平均の世帯年収は743万円であった. 全国の一般世帯およそ8000標本について収入と支出についての調査 この743万円という世帯年収を聞いての感想は,「ふつうの家はそんなに稼いでいるのか!!」 例えば,ボーナスを年間3ヶ月分支給すると仮定それば,1ヶ月の収入は約50万円となる.
日本全国の平均世帯収入は? 平均年収が743万円となった理由 1000万円以上稼ぐ高所得者が その平均を引き上げていたため 単位:万円
分布の特性値:散布度 散布度:分散(標準偏差) 次の2つのデータの平均を考える. 平均値は同じである データのもつ意味が全く違う データを要約する値としては不十分? データの散らばりを表す量も表示する
分布の特性値:散布度 例)散布度:分散(標準偏差) 3クラスで,統計学の試験をし,各クラスで30人ずつ選び平均点を計算すると50点であった.このデータから,ヒストグラムを作成したところ以下のような結果であった.この平均点だけで,データを解釈しても良いか.
データの散らばりを表す量 散布度:分散(標準偏差) 分散: データの散らばりを表現する量 データの散らばり具合が大きいほど,分散の値は大きくなる. 3つのクラスの分散の大きさは, クラスA<クラスB<クラスC 標準偏差:分散を平方根したもの
データの散らばりを表す量 散布度:分散(標準偏差) 分布1 分布2 分布1の平均 = 分布2の平均 分布1の分散 < 分布2の分散
平均,分散の計算式
平均値の意味1 以下の10人の学生の得点を表した図 得点と平均点との距離
平均値の意味2 この項が0のとき, yは最小になる x の標本分散
例題1:平均値の意味 次の度数分布表とヒストグラムはあるテスト結果をまとめたものである.わかることを述べなさい. 度数分布表 ヒストグラム
例題2:基本統計量 以下のデータは,10日間にわたる2つのストアの1日の売り上げ高(単位:万円)である.どちらのお店がより安定しているか答えなさい.
例題2:折れ線グラフ (日)
例題3:基本統計量 以下のデータは,同じ科目を講義中心と演習中心という2つの異なる講義方法でおこない,クラスA(講義中心)とクラスB(実習中心)からそれぞれ20名を選び,試験をおこなった結果である.2つのクラスを比較しなさい.
例題3:基本統計量 基本統計量 度数分布表
例題3:基本統計量
まとめ データからの情報抽出: データの要約 度数分布表,ヒストグラム 分布の中心を表す特性値 代表値:平均,最頻値,中央値 分布のばらつきを表す特性値 散布度:分散,標準偏差