寺尾 敦 青山学院大学社会情報学部 atsushi@si.aoyama.ac.jp 社会統計 第3回:統計入門の落ち穂拾い 寺尾 敦 青山学院大学社会情報学部 atsushi@si.aoyama.ac.jp.

Slides:



Advertisements
Similar presentations
統計学の基礎 -何を学ぶか。 何ができるようになるか-. データとは何か 母集団と標本(サンプル)、データの関係 統計的方法を用いることにより、統計量から母数について どれほどのことが言えるか、知ることができる。 2.
Advertisements

ホーエル『初等統計学』 第7章4節~5節 推定 (2) 寺尾 敦 青山学院大学社会情報学部 atsushi [at] si.aoyama.ac.jp 青山学院大学社会情報学部 「統計入門」第 12 回.
1 章 データの整理 1.1 データの代表値. ■ 母集団と標本 観測個数 n ( または 標本の大きさ、標本サイズ、 Sample Size) n が母集団サイズに等しい時 … 全標本 または 全数調査 (census) 母集団 (population) 知りたい全体 標本 (sample) 入手した情報.
計量的手法入門 人材開発コース・ワークショップ (IV) 2000 年 6 月 29 日、 7 月 6 ・ 13 日 奥西 好夫
1 変量データの記述 (度数分布表とヒストグラム) 経済データ解析 2009 年度後 期. あるクラスのテストの点数が次のように なっていたとする。 このように出席番号と点数が並んでいるものだけでは、 このクラスの特徴がわかりづらい。 → このクラスの特徴がわかるような工夫が必要 → このクラスの特徴がわかるような工夫が必要.
Advanced Data Analysis 先進的データ分析法 2015 (2) 平成 27 年前期第1クウォータ科目 東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当:亀田弘之.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
社会福祉調査論 第 8 講 統計の基本的整理 12 月7日. 【目標】 量的調査の集計方法、結果の示し方につ いて、基礎的な手法を習得する。 統計値を捉えるための諸指標を理解する。
生物統計学・第 4 回 比べる準備をする 平均、分散、標準偏差、標準誤差、標準 化 2015 年 10 月 20 日 生命環境科学域 応用生命科学類 尾形 善之.
ヒストグラム5品種 松江城 出雲大社 石見銀山 三瓶山 アクアス しかしグラフで比較するのはめんどうなところがある 端的に1つの数字(代表値)で品種の特徴を表したい.
1 統計学 第2週 10/01 (月) 担当:鈴木智也. 2 前回のポイント 「記述統計」と「推測統計」。 データ自体の規則性を記述するのが 「記述統計」、データを生み出した背 景を推測するのが「推測統計」である。 推測統計は記述統計に基づくので、ま ずは記述統計から学ぶ。 以下、データの観測値をX.
生体情報論演習 - 統計法の実践 第 1 回 京都大学 情報学研究科 杉山麿人.
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
データ解析基礎 2. 度数分布と特性値 keyword データの要約 度数分布表,ヒストグラム 分布の中心を表す基本統計量
統計解析 第3章 散布度.
寺尾 敦 青山学院大学社会情報学部 Fisher の直接確率法 寺尾 敦 青山学院大学社会情報学部
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
データ分析入門(12) 第12章 単回帰分析 廣野元久.
寺尾 敦 青山学院大学社会情報学部 社会統計 第13回 重回帰分析(第11章後半) 寺尾 敦 青山学院大学社会情報学部
第1章 記述統計の復習 統計学 2007年度.
統計学 第3回 「データの尺度・データの図示」
第1回 担当: 西山 統計学.
Microsoft Excel 2010 を利用した 2項分布の確率計算
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 データ入力 データ分析 報告書の作成.
代表値と散らばり.
標本の記述統計 専修大学 経済学部 経済統計学(作間逸雄).
第1章 記述統計の復習 統計学 2010年度.
第1日目第2時限の学習目標 基本的な1変量統計量(その2)について学ぶ。 尺度水準と適切な統計量との関連を整理する。
ホーエル『初等統計学』 第5章 主要な確率分布
第4回 (10/16) 授業の学習目標 先輩の卒論の調査に協力する。 2つの定量的変数間の関係を調べる最も簡単な方法は?
寺尾 敦 青山学院大学社会情報学部 atsushi [at] si.aoyama.ac.jp
寺尾 敦 青山学院大学社会情報学部 社会統計 第9回:1要因被験者内デザイン 寺尾 敦 青山学院大学社会情報学部
疫学概論 母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.
確率・統計Ⅱ 第7回.
第3章 二つの変数の記述統計 二つの変数を対象として変数同士の関係を捉える 量的変数どうしの関係 質的変数どうしの関係.
寺尾 敦 青山学院大学社会情報学部 社会統計 第12回 重回帰分析(第11章前半) 寺尾 敦 青山学院大学社会情報学部
統計リテラシー教育における 携帯端末の利用
統計学 第3回 10/11 担当:鈴木智也.
統計学 11/08(木) 鈴木智也.
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
統計解析 第1章 データの表現.
メディア学部 2011年9月29日(木) 担当教員:亀田弘之
寺尾 敦 青山学院大学社会情報学部 エクセルでの正規分布の グラフの描き方 寺尾 敦 青山学院大学社会情報学部
1変量データの記述 経済データ解析 2006年度.
データのバラツキの測度 レンジと四分位偏差 分散と標準偏差 変動係数.
寺尾 敦 青山学院大学社会情報学部 エクセルでの正規分布の グラフの描き方 寺尾 敦 青山学院大学社会情報学部
看護研究における 統計の活用法 Part 3 京都府立医科大学 浅野 弘明 2012年11月10日 1.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 データ入力 データ分析 報告書の作成.
看護研究における 統計の活用法 Part 1 京都府立医科大学 浅野 弘明 2012年11月10日.
第8回授業(5/29日)の学習目標 検定と推定は、1つの関係式の見方の違いであることを学ぶ。 第3章のWEB宿題の説明
寺尾 敦 青山学院大学社会情報学部 エクセルでの正規分布の グラフの描き方 寺尾 敦 青山学院大学社会情報学部
中澤 港 統計学第4回 中澤 港
他の平均値 幾何平均 調和平均 メデイアンとモード 平均値・メデイアン・モードの関係.
確率と統計 メディア学部2008年後期 No.3 平成20年10月16日(木).
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
都市・港湾経済学(総) 国民経済計算論(商)
代表値と散らばり.
度数分布表における平均・分散 (第1章 記述統計の復習 補足)
疫学概論 頻度と分布 Lesson 9. 頻度と分布 §A. 頻度または度数 S.Harano,MD,PhD,MPH.
メディア学部 2010年9月30日(木) 担当教員:亀田弘之
数理統計学 西 山.
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
1変量データの記述 (度数分布表とヒストグラム)
臨床統計入門(1) 箕面市立病院小児科  山本威久 平成23年10月11日.
第2章 統計データの記述 データについての理解 度数分布表の作成.
都市・港湾経済学(総) 国民経済計算論(商)
Microsoft Excel 2010 を利用した 2項分布の確率計算
第1日目第2時限の学習目標 基本的な1変量統計量(その2)について学ぶ。 尺度水準と適切な統計量との関連を整理する。
Presentation transcript:

寺尾 敦 青山学院大学社会情報学部 atsushi@si.aoyama.ac.jp 社会統計 第3回:統計入門の落ち穂拾い 寺尾 敦 青山学院大学社会情報学部 atsushi@si.aoyama.ac.jp

第2章:度数分布表 度数分布表 棒グラフ,ヒストグラム 分位数

度数分布表 データ収集の初めのステップは,ある反応カテゴリに何人の人が属するかを明らかにすることである. 最初に,従属変数が名義尺度あるいは順序尺度で測定されている場合を考える. 度数分布表(frequency distribution):ある変数の反応カテゴリ,および,そのカテゴリが標本の中で観測された回数の,2つの要素からなる表のこと.

表2.2 スモールタウンの支持政党 この都市では,民主党支持者が最も多いことがわかる. 表2.2 スモールタウンの支持政党  支持政党 度数 百分率  共和党 37 29.6  民主党 47 37.6  支持政党なし 23 18.4  その他 18 14.4 計 125 100.0% この都市では,民主党支持者が最も多いことがわかる. 分布の把握は,百分率度数分布表(percentage frequency distribution)の方が容易. 百分率度数分布表では,標本の大きさは見えなくなる. これは利点でもあり,欠点でもある. 10人のデータで「支持率60%」は,データを取り直せば過半数を割っているかもしれない.

表2.3 スモールタウンとビックタウンにおける支持政党 表2.3 スモールタウンとビックタウンにおける支持政党  支持政党 スモールタウン ビックタウン  共和党 37 52  民主党 47 130  支持政党なし 23 30  その他 18 計 125 230 科学者の興味は,ひとつの標本での分布ではなく,異なる標本での分布の違いにあることが多い. 例:ビックタウンでの支持政党の分布は,スモールタウンにおける分布と同じか? 支持政党の変動を,地域の違いによって説明できるか? 参考:クロス集計表の分析(第4章)

表2.3 スモールタウンとビックタウンにおける支持政党(百分率) 表2.3 スモールタウンとビックタウンにおける支持政党(百分率)  支持政党 スモールタウン ビックタウン  共和党 29.6 22.6  民主党 37.6 56.5  支持政党なし 18.4 13.0  その他 14.4 7.8 計 100.0% 99.9% N 125 230 標本間の分布の比較には,度数分布表よりも,百分率度数分布表の方が適している. ビッグタウンの百分率の合計が100%でないのは,まるめの誤差のため.

独立変数は居住地域,従属変数は支持政党. 支持政党の違いを,居住地域の違いによって説明している. ただし,居住地域は支持政党の直接の原因ではないだろう.都市が異なると,なぜ支持政党の分布が異なるのだろうか? 主要な産業の違い? 住人の人種の違い?

質的変数に対する度数分布表 質的変数(名義尺度,順序尺度)の反応カテゴリは,相互排他的で,包括的でなければならない.(テキスト p.14, 30) 「その他」というカテゴリは便利だが,まったく異なった観測値がこうしたカテゴリの中に混在することは,できる限り避けるべき. カテゴリが多すぎるときや,度数の少ないカテゴリがいくつか存在するときには,カテゴリをまとめて再コード化を試みてもよい.

データ提示のテクニック 表のタイトルは上,図のタイトルは下. 標本の大きさ(N)を示す. 変数が名義尺度で測定された場合,分布を示す棒グラフ(bar chart)は,それぞれの棒(柱)を離して描く.(図2.1) 量的変数の分布を示すヒストグラムでは,棒(柱)はたがいに接する. APA(アメリカ心理学会)のPublication Manualを一読することをすすめる.

図2.1 支持政党に関する棒グラフ

順序尺度での測定と図示 順序尺度では,反応カテゴリの間に順序関係がある. 行動頻度を自己申告させる調査項目は,不正確さをできるだけ排除する. 「しばしば」はどれぐらいの頻度なのか? 分布を示すグラフは,量的変数の場合と同じく,ヒストグラムを用いる. 棒グラフでもよい

行動頻度をたずねる項目の例:あなたはふだん iPhone をどの程度使っていますか? 最も近い使用頻度を次から選んでください. ほぼ毎日使っている 1週間のうち2,3日は使っている日がある たまに使っている(使う日が1週間に1日あるかどうかという程度) ほとんど,あるいは,まったく使っていない 行動頻度をたずねるテキストでの例は,マリファナの使用頻度. 調査日:2011年10月14日 参加者:1年生必修科目「統計入門」の受講者55名(2年生4名,3年生1名を含む)

図 配布された iPhone の使用頻度 (N = 55)

図 配布された iPhone の使用頻度 (N = 55)

連続測度に関する度数分布 量的変数(間隔尺度,比率尺度)では,分布を把握するために,測定階級(measurement class)を構成する. 階級(class):測定値の存在する実数範囲を,連続するいくつかの範囲に分割したもの. 階級の数は,大まかな目安として,6から20ぐらい.

累積分布 累積度数(cumulative frequency):順序尺度以上で測定された度数分布において,ある反応カテゴリ(あるいは,階級)以下に属する度数の総和. 累積百分率(cumulative percentage):累積度数を,測定値の総数(N)に対する百分率で表したもの.

表2.11 アメリカ成人の幸福感に 関する累積度数分布表 表2.11 アメリカ成人の幸福感に 関する累積度数分布表 段階 度数 百分率(%) 累積度数 累積百分率 1 16 0.8 2 28 1.4 44 2.2 3 75 3.8 119 6.0 4 109 5.5 228 11.4 5 260 13.0 488 24.4 6 268 13.4 756 37.9 7 423 21.2 1,179 59.0 8 491 24.6 1,670 83.6 9 212 10.6 1,882 94.2 10 115 5.8 1,997 100.0

パーセンタイル パーセンタイル(percentile):その値以下の観測値の百分率が所与の値(たとえば,50%)となる,反応カテゴリや値. 累積百分率分布表からは,いくつかのパーセンタイルを読み取ることができる. 例:表2.11 のデータでは,59パーセンタイルは7.5(第7段階の上限が7.5であると考える)となる.

パーセンタイルの計算 (累積)度数分布表から,以下の計算式で,i パーセンタイル Pi を求めることができる. Lp:i パーセンタイルを含む区間の下側の境界 pi:比率で表した i パーセンタイル Cp:Pi を含む区間未満までの累積度数 fp: i パーセンタイルを含む区間の度数 Wi: Pi を含む区間の幅

パーセンタイルの計算(表2.12) 測定値1あたり,面積1の正方形を積み上げてヒストグラムを作ると考える. 90パーセンタイル = 左側の面積が24*0.9 上限$12,000.50の階級までで面積18(あと3.6) 次の階級の面積は5だから,ここから面積3.6を縦に切り取る点を求める. 階級の幅は$2,000だから,境界値$12,000.50 に$2,000 * (3.6/5) を加えれば,これが90パーセンタイル.

表2.12 24か国の1人当たり国民 総生産(GNP)の累積分布表 度数 累積度数 累積百分率 $2,000.50 -- 4,000.50 2 8.33 $4,000.50 -- 6,000.50 4 6 25.00 $6,000.50 –- 8,000.50 1 7 29.17 $8,000.50 –- 10,000.50 5 12 50.00 $10,000.50 –- 12,000.50 18 75.00 $12,000.50 –- 14,000.50 23 95.83 $14,000.50 –- 16,000.50 24 100.00 テキストの表での階級は,$2,001 – 4,000, $4,001 – 6,000, … $14.001 -- $16.000 となっている.上の表では,階級の境界として,真の境界を考えている.ヒストグラムの横軸が連続量であると考えると,真の境界がわかる.

5:3.6 $12,000.50 階級幅$2,000

分位数 パーセンタイルは分位数(quantile)の特別な場合. 他によく用いられる分位数として,四分位数(quartile)がある. 第1四分位数 Q1 = P25 第2四分位数 Q2 = P50(中央値) 第3四分位数 Q3= P75 分位数の計算には,いくつかの異なった方法がある.計算方法により,数値が多少異なる.

練習問題 表2.12の累積度数分布表から,ヒストグラムの面積を分割するという考え方に基づいて,3つの四分位数を計算しなさい. これはわかりやすい値になる(テキスト p.47).テキストでの Q3 の計算に誤植あり. 30パーセンタイルも計算してみよ.

第3章:度数分布の記述 分布のひずみ 多様性指数・質的変動指数 箱ひげ図 変動係数

分布の歪み 非対称な分布を歪んだ分布(skewed distribution)と呼ぶ. 正の歪み(positive skew):右すそが長い 負の歪み(negative skew):左すそが長い 歪んだ分布では,平均値,中央値,最頻値が異なる.(例:少数の人だけが高給の企業) 平均値よりも中央値の方が,代表値として適切かもしれない.

正に歪んだ分布の例 家計調査報告(貯蓄・負債編)-平成26年(2014年)平均結果速報- http://www.stat.go.jp/data/sav/sokuhou/nen/index.htm

負に歪んだ分布の例 テキスト図3.2 (p.59)

量的変数での分布の歪みの程度を表す統計量として,歪度(skewness)がある. 標準化した測定値の,3乗の平均 平均のまわりの3次のモーメントを,標準偏差の3乗で割った値.

多様性指数 多様性指数(index of diversity):質的変数の変動を表す測度のひとつ.観測値全体からランダムに抽出した2つの観測値が,異なったカテゴリに属している確率.カテゴリ数を K ,i 番目のカテゴリに含まれるケースの比率を pi として, テキストでは「母集団から無作為に抽出した」(p.64)と書かれているが,スライドのような表現が妥当だろう.

カテゴリ 1 2 ・・・ K 比率 p1 p2 pK 2つの観測値をランダムに抽出する. 2つの観測値がカテゴリ i に属する確率: 2つの観測値が同一のカテゴリに属する確率: 2つの観測値が異なったカテゴリに属する確率:

多様性指数が最小になるのは,すべてのケースが同一のカテゴリに属する場合.このとき,多様性指数の値は0(ゼロ)となる. 多様性指数が最大になるのは,すべてのカテゴリにケースが均一に分布する場合.最大値は (K-1)/K

質的変動指数 質的変動指数(index of qualitative variation):多様性指数を標準化し,カテゴリ数によらず最小値0,最大値1としたもの. データから計算される D を,D がとりうる最大値で割ったもの. 章末問題 27, 28, 29 に取り組んでみよ.

箱ひげ図(box-and-whisker diagram) 量的変数での測定値の分布を示す.探索的データ解析(exploratory data analysis, EDA)で用いられる技法のひとつ(テキストp.71). 描き方にはいくつかのバリエーションがある. EDAは,与えられたデータに含まれる生きた情報を最大限に取り出すことを目指して,データを探索的に解析する統計的手法の総称(『統計用語辞典』新曜社)

箱ひげ図の描き方のひとつ 第1四分位数(Q1),第3四分位数(Q3)を両端とした箱(長方形)を描く. テキストの説明(p.73)では「ヒンジ」を用いている. 中央値の位置で線を入れ,箱を2分割する. 箱の両端から 1.5*IQR の範囲で,最も外側にある測定値まで「ひげ」をのばす. 四分位範囲 IQR(interquartile range): ひげの先より外側の値は外れ値(outlier)として図示する.

箱ひげ図の例 「第3四分位数 + 1.5*IQR」 にある最大値 第3四分位数 中央値 第1四分位数 「第1四分位数 ― 1.5*IQR」 にある最小値 高校数学では,ひげを最大値および最小値まで伸ばす. 外れ値 テキスト図3.5(p.74)

箱ひげ図による群比較 読売新聞2010年4月14日 教育ルネサンス No.1245 テキスト図6.4(p.168)も参照のこと

変動係数 変動係数(coefficient of relative variation):量的変数として測定された,複数の分布の散らばりを比較するために用いる. 平均が大きい分布は一般に分散も大きいので,単純に分散を比較するのではなく,標準偏差を平均で割って補正した方がよい場合がある. 例:満点の異なるテスト間での得点分布の比較,物価が異なる時代間での所得格差の比較,など.

平均1, 標準偏差0.707, 変動係数0.707 平均0.5, 標準偏差0.5, 変動係数1 平均と標準偏差の単位は同じなので, この係数は無単位. 平均1.5, 標準偏差0.866, 変動係数0.577

投資の分散効果 ひとつの投資が成功する確率を1/2として,成功回数の分布を考える.<2項分布> 投資先の数が多い方が,リスクが小さくなる. 投資先の数が増えるにつれて,すべてが失敗する確率は小さくなっていく. 単純には「リスク=分散」.しかし,投資先が多くなると,成功回数の分散は大きくなる. 平均値も大きくなっていることに注意.平均値が異なる場合に分散を評価するには,変動係数を考えるのが適切. 参考文献:吉田耕作『直観的統計学』日経BP社(p.172)