第1日目第2時限の学習目標 基本的な1変量統計量(その2)について学ぶ。 尺度水準と適切な統計量との関連を整理する。 2変量データを手にした時の分布の特徴の記述方法について学ぶ。 基本的な2変量統計量ー1 カイ2乗統計量について学ぶ。
基本的な1変量統計量ー2 (a) 中央値、四分領域 中央値ーデータを小さい順に並べたとき、中央(50パーセント点)にくる値のこと。 第1四分位数ーデータを小さい順から大きい順に並べたとき、下から4分の1(25パーセント点)にくる値のこと。 第3四分位数ーデータを小さい順から大きい順に並べたとき、下から4分の3(75パーセント点)にくる値のこと。 四分領域ーデータを小さい順に並べたとき、第3四分位数と第1四分位数の差の半分の値のこと。
基本的な1変量統計量ー2 (b) 四分位数と四分領域 Q の関係 Q = (Q3-Q1)/2 25% 25% 25% 25% Q1 Mdn Q3
基本的な1変量統計量ー2 (c) 中央値 (Median) の求め方 中央値の求め方は、千野のWEB 頁の「心理統計学 」の第4章の(4.1) 式の通りである。すなわち、 • ここで、lm は、中央値のある階級の下限点、 • h は、階級の幅、 • cum (lm) は、中央値のある階級より1つ手前までの 累積度数、 • fm は、中央値のある階級の度数
基本的な1変量統計量ー2 (d)第1四分位数 の求め方 第1四分位数の求め方は、千野のWEB 頁の「心理統計学 」の第4章の (4.2) 式の通りである。すなわち、 • ここで、lQ1 は、第1四分位数のある階級の下限点、 • h は、階級の幅、 • cum (lQ1) は、第1四分位数のある階級より1つ手前 までの累積度数、 • fQ1 は、第1四分位数のある階級の度数
基本的な1変量統計量ー2 (e) 第3四分位数 の求め方 第3四分位数の求め方は、千野のWEB 頁の「心理統計学 」の第4章の(4.3) 式の通りである。すなわち、 • ここで、lQ3 は、第3四分位数のある階級の下限点、 • h は、階級の幅、 • cum (lQ3) は、第3四分位数のある階級より1つ手前 までの累積度数、 • fQ3 は、第3四分位数のある階級の度数
基本的な1変量統計量ー2 (f) 四分領域の求め方 これらにより 中央値 (Mdn)、第1四分位数 (Q1)、第 3 四分位数 (Q3) が求まったならば、四分領域 (Q)は、 同上第4章の「4.5 公式」の中の定義式、 を用いて求めればよい。
基本的な1変量統計量ー2 (g) 最頻値(mode) 最頻値ー得られる確率が最も高い値、もしくは得えられる頻度の最も多い値。 右の図では、2つの山のうちの右側に対応するxの値 (mode と 表記)。 x mode
基本的な1変量統計量ー2 (h) 中央値、四分領域、最頻値の性質 中央値、四分領域は、順序情報以上の尺度レベルのデータでは計算可能である。なぜ? 最頻値は、名義尺度、順序尺度、間隔尺度、比率尺度のいずれのレベルのデータでも計算可能である。なぜ?
基本的な1変量統計量ー2 まとめ これまでに学んだ基本的な1変量統計量の代表的な幾つかを尺度水準との関連でまとめると右の図のようになる。 基本的な1変量統計量ー2 まとめ これまでに学んだ基本的な1変量統計量の代表的な幾つかを尺度水準との関連でまとめると右の図のようになる。 順序尺度 間隔尺度・比率尺度 代表値 中央値 (Mdn) 平均 ばらつき 四分位数 (Q) 標準偏差(分散)
2変量データを手にした時の 分布の特徴の記述-1 2変量データを手にした時の 分布の特徴の記述-1 何らかの目的で N 対の対データ(2変量データ) を手にしたとする。 サンプル数 N がある程度以上大きい場合、簡単にデータの全体像をつかむためには、データが原則的に名義尺度レベルの場合はまず分割表を、順序尺度レベル以上であれば散布図を描けばよい。
2変量データを手にした時の 分布の特徴の記述-2 2変量データを手にした時の 分布の特徴の記述-2 分割表とは、例えば514名の被験者を(行と列の)2つの属性を用いて、右のように分類したものである。 厳しすぎ 適当 もっと厳しく 男 27 275 75 女 3 124 10
データの内容ー1 上記データは、新入生に対する永平寺参禅時の514名の学生に対する、参禅後の調査データを2つの属性で分類したものである。 属性の1つは学生の性別(男子、女子)であり、他方は永平寺の雲水による坐禅指導の評価(厳しすぎた、適当、もっと厳しく)である。
データの内容ー2 もとのデータは、上記2変量の対(x、y)が、 (性別、座禅指導の評価)、 から成る、一対のデータ、514名分である。 (性別、座禅指導の評価)、 から成る、一対のデータ、514名分である。 (2,2)、(2,3)、(1,2)、… 、(1,2) これらを、うえの表のようにまとめたものは、 分割表または、クロス表と呼ばれる 。
分割表(又はクロス表)の作り方 データ (2,2)、(2,3)、(1,2)、… 、(1,2) 1.厳し 過ぎた 2. 適当 3.もっと データ (2,2)、(2,3)、(1,2)、… 、(1,2) 1.厳し 過ぎた 2. 適当 3.もっと 厳しく 計 1.男子 学生 2.女子
演習(2) 次の20対(20名)の2変量データセットの1つを用いて、2×2分割表を作成せよ。ここで、(x、y)変量のうち、前者は性別を後者は向性(外向、内向)を表すものとする: (データセット1): (1,1)、(2,2)、(1,2)、(1,1)、(2,1)、 (1,1)、(2,1)、(2,1)、(1,1)、(2,2)、 (1,2)、(1,2)、(1,1)、(1,2)、(2,1)、 (1,2)、(1,1)、(1,1)、(1,2)、(1,2)
演習(2)の続き (データセット2): (2,1)、(2,2)、(2,1)、(1,1)、(2,1)、 (1,1)、(2,2)、(2,1)、(1,2)、(1,2)、 (1,2)、(1,2)、(1,2)、(1,2)、(2,1)、 (2,2)、(2,2)、(1,2)、(1,2)、(2,1)
2変量データを手にした時の 分布の特徴の記述-3 2変量データを手にした時の 分布の特徴の記述-3 散布図とは、例えば、千野のホームページの講義ノートの中の「データ解析/基礎と応用」の 1.2.3節 「はずれ値の相関係数への影響」の項にあるような図である。
2変量データを手にした時の 分布の特徴の記述-4 2変量データを手にした時の 分布の特徴の記述-4 データが名義尺度レベルの場合には、うえで紹介した分割表(クロス表)をもとに、2変量間の連関を表すための以下のような多くの指標がある。 それらは、例えば、統計学辞典(東洋経済、1989、pp.341-343)を見ると、以下のように各種の指標がこれまでに提案されていることがわかる:
2変量データを手にした時の 分布の特徴の記述-5 2変量データを手にした時の 分布の特徴の記述-5 それらは、 (1)カイ2乗統計量系指標(ピアソンのカイ2乗統計量、 クラメールのV、チュプロウの T、ピアソンの一致係 数 C、尤度比カイ2乗統計量) (2)予測関連指標(グッドマン・クラスカルの予測関連 指数) (3)その他、ヘイズの不確実性係数、コーエンの一致 係数など。
2変量データを手にした時の 分布の特徴の記述-6 2変量データを手にした時の 分布の特徴の記述-6 一方、データが順序尺度レベルの場合には、2変量 間の順位相関・関連係数を表すための以下のよう な多くの指標がある。例えば統計学辞典(東洋経済, 1989、pp.338-340) 。 それらは、 (1)ケンドールの順位相関係数 (2)スピアマンの順位相関係数 (3)ソマーズの関連指数、その他 である。
2変量データを手にした時の 分布の特徴の記述-7 2変量データを手にした時の 分布の特徴の記述-7 最後に、データが間隔尺度レベルの場合には、2変量間の相関関係を表すための以下のような指標がある。例えば統計学辞典(東洋経済、1989、pp.334-337) を見ると、 それらは、 (1)共分散 (2)ピアソンの(偏差積率)相関係数 (3)偏相関係数、重相関係数、偏回帰係数、その他 である。
2変量データを手にした時の 分布の特徴の記述-8 2変量データを手にした時の 分布の特徴の記述-8 この授業では、これらのうち、 (1)名義尺度レベルの対データの場合の代表的な連関の関連性の検討のための統計量であるピアソンのカイ2乗統計量と、 (2)間隔尺度レベル以上の対データの場合の代表的な2変量間の関連性の指標である共分散及び相関係数 についてのみ、簡単に触れる。