寺尾敦青山学院大学社会情報学部 atsushi@si.aoyama.ac.jp 社会統計第３回：統計入門の落ち穂拾い寺尾　敦青山学院大学社会情報学部 atsushi@si.aoyama.ac.jp.

Slides:

Advertisements

Similar presentations

統計学の基礎－何を学ぶか。何ができるようになるか－. データとは何か母集団と標本（サンプル）、データの関係統計的方法を用いることにより、統計量から母数についてどれほどのことが言えるか、知ることができる。 2.

Advertisements

ホーエル『初等統計学』第７章４節～５節推定（２）寺尾敦青山学院大学社会情報学部 atsushi [at] si.aoyama.ac.jp 青山学院大学社会情報学部「統計入門」第 12 回.

1 章データの整理 1.1 データの代表値. ■ 母集団と標本観測個数 n ( または標本の大きさ、標本サイズ、 Sample Size) n が母集団サイズに等しい時 … 全標本または全数調査 (census) 母集団 (population) 知りたい全体標本 (sample) 入手した情報.

計量的手法入門人材開発コース・ワークショップ (IV) 2000 年 6 月 29 日、 7 月 6 ・ 13 日奥西好夫

1 変量データの記述（度数分布表とヒストグラム）経済データ解析 2009 年度後期. あるクラスのテストの点数が次のようになっていたとする。このように出席番号と点数が並んでいるものだけでは、このクラスの特徴がわかりづらい。 → このクラスの特徴がわかるような工夫が必要 → このクラスの特徴がわかるような工夫が必要.

Advanced Data Analysis 先進的データ分析法 2015 （２）平成 27 年前期第１クウォータ科目東京工科大学大学院バイオニクス・情報メディア学専攻科担当：亀田弘之.

土木計画学第３回：１０月１９日調査データの統計処理と分析２担当：榊原弘之. 標本調査において，母集団の平均や分散などを直接知ることはできない．母集団の平均値（母平均）母集団の分散（母分散）母集団中のある値の比率（母比率） p Sample 標本平均標本分散（不偏分散）標本中の比率.

社会福祉調査論第 8 講統計の基本的整理 12 月７日. 【目標】量的調査の集計方法、結果の示し方について、基礎的な手法を習得する。統計値を捉えるための諸指標を理解する。

生物統計学・第 4 回比べる準備をする平均、分散、標準偏差、標準誤差、標準化 2015 年 10 月 20 日生命環境科学域応用生命科学類尾形善之.

ヒストグラム５品種松江城出雲大社石見銀山三瓶山アクアスしかしグラフで比較するのはめんどうなところがある端的に１つの数字（代表値）で品種の特徴を表したい.

1 統計学第２週 10/01 （月）担当：鈴木智也. 2 前回のポイント「記述統計」と「推測統計」。データ自体の規則性を記述するのが「記述統計」、データを生み出した背景を推測するのが「推測統計」である。推測統計は記述統計に基づくので、まずは記述統計から学ぶ。以下、データの観測値をＸ.

生体情報論演習 - 統計法の実践第 1 回京都大学情報学研究科杉山麿人.

統計学入門２関係を探る方法講義のまとめ. 今日の話変数間の関係を探るクロス集計表の検定：独立性の検定散布図、相関係数講義のまとめとキーワード「統計学入門」後の関連講義・実習社会調査士.

●母集団と標本母集団標本母数母平均、母分散無作為抽出標本データの分析（記述統計学）母集団における状態の推測（推測統計学）

データ解析基礎 2. 度数分布と特性値 keyword データの要約度数分布表，ヒストグラム分布の中心を表す基本統計量

統計解析第3章散布度.

寺尾敦青山学院大学社会情報学部 Fisher の直接確率法寺尾　敦青山学院大学社会情報学部

第1回確率変数、確率分布確率･統計Ⅰ ここです！確率変数と確率分布確率変数の同時分布、独立性確率変数の平均確率変数の分散

データ分析入門（12）第12章　単回帰分析廣野元久.

寺尾敦青山学院大学社会情報学部社会統計　第13回重回帰分析（第11章後半）寺尾　敦青山学院大学社会情報学部

第1章記述統計の復習統計学　2007年度.

統計学第3回「データの尺度・データの図示」

第１回担当：　西山統計学.

Microsoft Excel 2010 を利用した２項分布の確率計算

市場調査の手順問題の設定調査方法の決定データ収集方法の決定データ収集の実行データ分析と解釈データ入力データ分析報告書の作成.

代表値と散らばり.

標本の記述統計専修大学　経済学部経済統計学（作間逸雄）.

第1章記述統計の復習統計学　2010年度.

第１日目第２時限の学習目標基本的な１変量統計量（その２）について学ぶ。尺度水準と適切な統計量との関連を整理する。

ホーエル『初等統計学』第５章主要な確率分布

第４回 (10/16) 授業の学習目標先輩の卒論の調査に協力する。２つの定量的変数間の関係を調べる最も簡単な方法は？

寺尾敦青山学院大学社会情報学部 atsushi [at] si.aoyama.ac.jp

寺尾敦青山学院大学社会情報学部社会統計第９回：１要因被験者内デザイン寺尾　敦青山学院大学社会情報学部

疫学概論母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.

確率･統計Ⅱ 第7回.

第3章　二つの変数の記述統計二つの変数を対象として変数同士の関係を捉える量的変数どうしの関係質的変数どうしの関係.

寺尾敦青山学院大学社会情報学部社会統計　第12回重回帰分析（第11章前半）寺尾　敦青山学院大学社会情報学部

統計リテラシー教育における携帯端末の利用

統計学第３回　10/11 担当：鈴木智也.

統計学 11/08（木）鈴木智也.

正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定

統計解析第１章データの表現.

メディア学部 2011年9月29日(木) 担当教員：亀田弘之

寺尾敦青山学院大学社会情報学部エクセルでの正規分布のグラフの描き方寺尾敦青山学院大学社会情報学部

1変量データの記述経済データ解析　2006年度.

データのバラツキの測度レンジと四分位偏差分散と標準偏差変動係数.

寺尾敦青山学院大学社会情報学部エクセルでの正規分布のグラフの描き方寺尾敦青山学院大学社会情報学部

看護研究における統計の活用法 Part ３京都府立医科大学　浅野　弘明 2012年11月10日 1.

市場調査の手順問題の設定調査方法の決定データ収集方法の決定データ収集の実行データ分析と解釈データ入力データ分析報告書の作成.

看護研究における統計の活用法 Part １京都府立医科大学　浅野　弘明 2012年11月10日.

第８回授業（5/29日）の学習目標検定と推定は、１つの関係式の見方の違いであることを学ぶ。第３章のWEB宿題の説明

寺尾敦青山学院大学社会情報学部エクセルでの正規分布のグラフの描き方寺尾敦青山学院大学社会情報学部

中澤港統計学第４回中澤　港

他の平均値幾何平均調和平均メデイアンとモード平均値・メデイアン・モードの関係.

確率と統計メディア学部２００8年後期 No.3 平成20年10月16日（木）.

データの型量的データ質的データ数字で表現されるデータ身長、年収、得点カテゴリで表現されるデータ性別、職種、学歴

「アルゴリズムとプログラム」結果を統計的に正しく判断三学期第7回袖高の生徒ってどうよ調査(3)

都市・港湾経済学（総）国民経済計算論（商）

代表値と散らばり.

度数分布表における平均・分散（第1章記述統計の復習補足）

疫学概論頻度と分布 Lesson 9. 頻度と分布 §A. 頻度または度数 S.Harano,MD,PhD,MPH.

メディア学部 2010年9月30日(木) 担当教員：亀田弘之

数理統計学西山.

情報の集約記述統計記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。

1変量データの記述（度数分布表とヒストグラム）

臨床統計入門（１）箕面市立病院小児科　　山本威久平成２３年１０月１１日.

第2章統計データの記述データについての理解度数分布表の作成.

都市・港湾経済学（総）国民経済計算論（商）

Microsoft Excel 2010 を利用した２項分布の確率計算

第１日目第２時限の学習目標基本的な１変量統計量（その２）について学ぶ。尺度水準と適切な統計量との関連を整理する。

Presentation transcript:

寺尾敦青山学院大学社会情報学部 atsushi@si.aoyama.ac.jp 社会統計第３回：統計入門の落ち穂拾い寺尾　敦青山学院大学社会情報学部 atsushi@si.aoyama.ac.jp

第2章：度数分布表度数分布表棒グラフ，ヒストグラム分位数

度数分布表データ収集の初めのステップは，ある反応カテゴリに何人の人が属するかを明らかにすることである．最初に，従属変数が名義尺度あるいは順序尺度で測定されている場合を考える．度数分布表（frequency distribution）：ある変数の反応カテゴリ，および，そのカテゴリが標本の中で観測された回数の，２つの要素からなる表のこと．

表2.2 スモールタウンの支持政党この都市では，民主党支持者が最も多いことがわかる．表2.2　スモールタウンの支持政党　支持政党度数百分率　共和党 37 29.6 　民主党 47 37.6 　支持政党なし 23 18.4 　その他 18 14.4 計 125 100.0% この都市では，民主党支持者が最も多いことがわかる．分布の把握は，百分率度数分布表（percentage frequency distribution）の方が容易．百分率度数分布表では，標本の大きさは見えなくなる．これは利点でもあり，欠点でもある． 10人のデータで「支持率60％」は，データを取り直せば過半数を割っているかもしれない．

表2.3 スモールタウンとビックタウンにおける支持政党表2.3　スモールタウンとビックタウンにおける支持政党　支持政党スモールタウンビックタウン　共和党 37 52 　民主党 47 130 　支持政党なし 23 30 　その他 18 計 125 230 科学者の興味は，ひとつの標本での分布ではなく，異なる標本での分布の違いにあることが多い．例：ビックタウンでの支持政党の分布は，スモールタウンにおける分布と同じか？支持政党の変動を，地域の違いによって説明できるか？参考：クロス集計表の分析（第４章）

表2.3 スモールタウンとビックタウンにおける支持政党（百分率）表2.3　スモールタウンとビックタウンにおける支持政党（百分率）　支持政党スモールタウンビックタウン　共和党 29.6 22.6 　民主党 37.6 56.5 　支持政党なし 18.4 13.0 　その他 14.4 7.8 計 100.0% 99.9% N 125 230 標本間の分布の比較には，度数分布表よりも，百分率度数分布表の方が適している．ビッグタウンの百分率の合計が100%でないのは，まるめの誤差のため．

独立変数は居住地域，従属変数は支持政党．支持政党の違いを，居住地域の違いによって説明している．ただし，居住地域は支持政党の直接の原因ではないだろう．都市が異なると，なぜ支持政党の分布が異なるのだろうか？主要な産業の違い？住人の人種の違い？

質的変数に対する度数分布表質的変数（名義尺度，順序尺度）の反応カテゴリは，相互排他的で，包括的でなければならない．（テキスト p.14, 30）「その他」というカテゴリは便利だが，まったく異なった観測値がこうしたカテゴリの中に混在することは，できる限り避けるべき．カテゴリが多すぎるときや，度数の少ないカテゴリがいくつか存在するときには，カテゴリをまとめて再コード化を試みてもよい．

データ提示のテクニック表のタイトルは上，図のタイトルは下．標本の大きさ（N）を示す．変数が名義尺度で測定された場合，分布を示す棒グラフ（bar chart）は，それぞれの棒（柱）を離して描く．（図2.1）量的変数の分布を示すヒストグラムでは，棒（柱）はたがいに接する． APA（アメリカ心理学会）のPublication Manualを一読することをすすめる．

図2.1　支持政党に関する棒グラフ

順序尺度での測定と図示順序尺度では，反応カテゴリの間に順序関係がある．行動頻度を自己申告させる調査項目は，不正確さをできるだけ排除する．「しばしば」はどれぐらいの頻度なのか？分布を示すグラフは，量的変数の場合と同じく，ヒストグラムを用いる．棒グラフでもよい

行動頻度をたずねる項目の例：あなたはふだん iPhone をどの程度使っていますか？最も近い使用頻度を次から選んでください．ほぼ毎日使っている１週間のうち２，３日は使っている日があるたまに使っている（使う日が１週間に１日あるかどうかという程度）ほとんど，あるいは，まったく使っていない行動頻度をたずねるテキストでの例は，マリファナの使用頻度．調査日：2011年10月14日参加者：１年生必修科目「統計入門」の受講者55名（2年生4名，3年生1名を含む）

図　配布された iPhone の使用頻度　（N = 55）

図　配布された iPhone の使用頻度　（N = 55）

連続測度に関する度数分布量的変数（間隔尺度，比率尺度）では，分布を把握するために，測定階級（measurement class）を構成する．階級（class）：測定値の存在する実数範囲を，連続するいくつかの範囲に分割したもの．階級の数は，大まかな目安として，６から20ぐらい．

累積分布累積度数（cumulative frequency）：順序尺度以上で測定された度数分布において，ある反応カテゴリ（あるいは，階級）以下に属する度数の総和．累積百分率（cumulative percentage）：累積度数を，測定値の総数（N）に対する百分率で表したもの．

表2.11 アメリカ成人の幸福感に関する累積度数分布表表2.11　アメリカ成人の幸福感に関する累積度数分布表段階度数百分率(%) 累積度数累積百分率 1 16 0.8 2 28 1.4 44 2.2 3 75 3.8 119 6.0 4 109 5.5 228 11.4 5 260 13.0 488 24.4 6 268 13.4 756 37.9 7 423 21.2 1,179 59.0 8 491 24.6 1,670 83.6 9 212 10.6 1,882 94.2 10 115 5.8 1,997 100.0

パーセンタイルパーセンタイル（percentile）：その値以下の観測値の百分率が所与の値（たとえば，50%）となる，反応カテゴリや値．累積百分率分布表からは，いくつかのパーセンタイルを読み取ることができる．例：表2.11 のデータでは，59パーセンタイルは7.5（第7段階の上限が7.5であると考える）となる．

パーセンタイルの計算（累積）度数分布表から，以下の計算式で，i パーセンタイル Pi を求めることができる． Lp：i パーセンタイルを含む区間の下側の境界 pi：比率で表した i パーセンタイル Cp：Pi を含む区間未満までの累積度数 fp： i パーセンタイルを含む区間の度数 Wi： Pi を含む区間の幅

パーセンタイルの計算（表2.12）測定値１あたり，面積１の正方形を積み上げてヒストグラムを作ると考える． 90パーセンタイル = 左側の面積が24*0.9 上限$12,000.50の階級までで面積18（あと3.6）次の階級の面積は5だから，ここから面積3.6を縦に切り取る点を求める．階級の幅は$2,000だから，境界値$12,000.50 に$2,000 * (3.6/5) を加えれば，これが90パーセンタイル．

表2.12 24か国の１人当たり国民総生産（GNP）の累積分布表度数累積度数累積百分率 $2,000.50 -- 4,000.50 2 8.33 $4,000.50 -- 6,000.50 4 6 25.00 $6,000.50 –- 8,000.50 1 7 29.17 $8,000.50 –- 10,000.50 5 12 50.00 $10,000.50 –- 12,000.50 18 75.00 $12,000.50 –- 14,000.50 23 95.83 $14,000.50 –- 16,000.50 24 100.00 テキストの表での階級は，$2,001 – 4,000, $4,001 – 6,000, … $14.001 -- $16.000 となっている．上の表では，階級の境界として，真の境界を考えている．ヒストグラムの横軸が連続量であると考えると，真の境界がわかる．

5:3.6 $12,000.50 階級幅$2,000

分位数パーセンタイルは分位数（quantile）の特別な場合．他によく用いられる分位数として，四分位数（quartile）がある．第1四分位数 Q1 = P25 第2四分位数 Q2 = P50（中央値）第3四分位数 Q3= P75 分位数の計算には，いくつかの異なった方法がある．計算方法により，数値が多少異なる．

練習問題表2.12の累積度数分布表から，ヒストグラムの面積を分割するという考え方に基づいて，３つの四分位数を計算しなさい．これはわかりやすい値になる（テキスト p.47）．テキストでの Q3 の計算に誤植あり． 30パーセンタイルも計算してみよ．

第３章：度数分布の記述分布のひずみ多様性指数・質的変動指数箱ひげ図変動係数

分布の歪み非対称な分布を歪んだ分布（skewed distribution）と呼ぶ．正の歪み（positive skew）：右すそが長い負の歪み（negative skew）：左すそが長い歪んだ分布では，平均値，中央値，最頻値が異なる．（例：少数の人だけが高給の企業）平均値よりも中央値の方が，代表値として適切かもしれない．

正に歪んだ分布の例家計調査報告（貯蓄・負債編）－平成26年（2014年）平均結果速報－ http://www.stat.go.jp/data/sav/sokuhou/nen/index.htm

負に歪んだ分布の例テキスト図3.2 （p.59）

量的変数での分布の歪みの程度を表す統計量として，歪度（skewness）がある．標準化した測定値の，３乗の平均平均のまわりの３次のモーメントを，標準偏差の３乗で割った値．

多様性指数多様性指数（index of diversity）：質的変数の変動を表す測度のひとつ．観測値全体からランダムに抽出した２つの観測値が，異なったカテゴリに属している確率．カテゴリ数を K ，i 番目のカテゴリに含まれるケースの比率を pi として，テキストでは「母集団から無作為に抽出した」（p.64）と書かれているが，スライドのような表現が妥当だろう．

カテゴリ 1 2 ・・・ K 比率 p1 p2 pK ２つの観測値をランダムに抽出する．２つの観測値がカテゴリ i に属する確率：２つの観測値が同一のカテゴリに属する確率：２つの観測値が異なったカテゴリに属する確率：

多様性指数が最小になるのは，すべてのケースが同一のカテゴリに属する場合．このとき，多様性指数の値は０（ゼロ）となる．多様性指数が最大になるのは，すべてのカテゴリにケースが均一に分布する場合．最大値は (K-1)/K

質的変動指数質的変動指数（index of qualitative variation）：多様性指数を標準化し，カテゴリ数によらず最小値０，最大値１としたもの．データから計算される D を，D がとりうる最大値で割ったもの．章末問題 27, 28, 29 に取り組んでみよ．

箱ひげ図（box-and-whisker diagram）量的変数での測定値の分布を示す．探索的データ解析（exploratory data analysis, EDA）で用いられる技法のひとつ（テキストp.71）．描き方にはいくつかのバリエーションがある． EDAは，与えられたデータに含まれる生きた情報を最大限に取り出すことを目指して，データを探索的に解析する統計的手法の総称（『統計用語辞典』新曜社）

箱ひげ図の描き方のひとつ第１四分位数（Q1），第３四分位数（Q3）を両端とした箱（長方形）を描く．テキストの説明（p.73）では「ヒンジ」を用いている．中央値の位置で線を入れ，箱を２分割する．箱の両端から 1.5*IQR の範囲で，最も外側にある測定値まで「ひげ」をのばす．四分位範囲 IQR（interquartile range）：ひげの先より外側の値は外れ値（outlier）として図示する．

箱ひげ図の例「第３四分位数 + 1.5*IQR」にある最大値第３四分位数中央値第１四分位数「第１四分位数 ― 1.5*IQR」にある最小値高校数学では，ひげを最大値および最小値まで伸ばす．外れ値テキスト図3.5（p.74）

箱ひげ図による群比較読売新聞2010年4月14日教育ルネサンス No.1245 テキスト図6.4(p.168)も参照のこと

変動係数変動係数（coefficient of relative variation）：量的変数として測定された，複数の分布の散らばりを比較するために用いる．平均が大きい分布は一般に分散も大きいので，単純に分散を比較するのではなく，標準偏差を平均で割って補正した方がよい場合がある．例：満点の異なるテスト間での得点分布の比較，物価が異なる時代間での所得格差の比較，など．

平均1, 標準偏差0.707, 変動係数0.707 平均0.5, 標準偏差0.5, 変動係数1 平均と標準偏差の単位は同じなので，この係数は無単位．平均1.5, 標準偏差0.866, 変動係数0.577

投資の分散効果ひとつの投資が成功する確率を1/2として，成功回数の分布を考える．＜２項分布＞投資先の数が多い方が，リスクが小さくなる．投資先の数が増えるにつれて，すべてが失敗する確率は小さくなっていく．単純には「リスク＝分散」．しかし，投資先が多くなると，成功回数の分散は大きくなる．平均値も大きくなっていることに注意．平均値が異なる場合に分散を評価するには，変動係数を考えるのが適切．参考文献：吉田耕作『直観的統計学』日経BP社（p.172）