確率と統計 メディア学部2008年後期 No.3 平成20年10月16日(木).

Slides:



Advertisements
Similar presentations
統計学の基礎 -何を学ぶか。 何ができるようになるか-. データとは何か 母集団と標本(サンプル)、データの関係 統計的方法を用いることにより、統計量から母数について どれほどのことが言えるか、知ることができる。 2.
Advertisements

5 章 標本と統計量の分布 湯浅 直弘. 5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合  ・有限な場合:有限母集合 → 1つの箱に入っているねじ.  ・無限な場合:無限母集合.
1 章 データの整理 1.1 データの代表値. ■ 母集団と標本 観測個数 n ( または 標本の大きさ、標本サイズ、 Sample Size) n が母集団サイズに等しい時 … 全標本 または 全数調査 (census) 母集団 (population) 知りたい全体 標本 (sample) 入手した情報.
Lesson 9. 頻度と分布 §D. 正規分布. 正規分布 Normal Distribution 最もよく使われる連続確率分布 釣り鐘形の曲線 -∽から+ ∽までの値を取る 平均 mean =中央値 median =最頻値 mode 曲線より下の面積は1に等しい.
1 変量データの記述 (度数分布表とヒストグラム) 経済データ解析 2009 年度後 期. あるクラスのテストの点数が次のように なっていたとする。 このように出席番号と点数が並んでいるものだけでは、 このクラスの特徴がわかりづらい。 → このクラスの特徴がわかるような工夫が必要 → このクラスの特徴がわかるような工夫が必要.
Advanced Data Analysis 先進的データ分析法 2015 (2) 平成 27 年前期第1クウォータ科目 東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当:亀田弘之.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
社会福祉調査論 第 8 講 統計の基本的整理 12 月7日. 【目標】 量的調査の集計方法、結果の示し方につ いて、基礎的な手法を習得する。 統計値を捉えるための諸指標を理解する。
生物統計学・第 4 回 比べる準備をする 平均、分散、標準偏差、標準誤差、標準 化 2015 年 10 月 20 日 生命環境科学域 応用生命科学類 尾形 善之.
ヒストグラム5品種 松江城 出雲大社 石見銀山 三瓶山 アクアス しかしグラフで比較するのはめんどうなところがある 端的に1つの数字(代表値)で品種の特徴を表したい.
中学校段階での 相関関係の指導 宮崎大学教育文化学部 藤井良宜. 概要 現在の学習指導要領における統計の扱い これまでの相関関係の指導 相関関係の指導のポイント 相関関係.
1 統計学 第2週 10/01 (月) 担当:鈴木智也. 2 前回のポイント 「記述統計」と「推測統計」。 データ自体の規則性を記述するのが 「記述統計」、データを生み出した背 景を推測するのが「推測統計」である。 推測統計は記述統計に基づくので、ま ずは記述統計から学ぶ。 以下、データの観測値をX.
生体情報論演習 - 統計法の実践 第 1 回 京都大学 情報学研究科 杉山麿人.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
1 調査データ分析 2003/5/27 第6回 堀 啓造(香川大学経済学部). 2 課題 (1) 解答 (1) Pearson のカイ2乗= 自由度= 1 漸近有意確率= 男女とコーヒー・紅茶の好み において連関がない( χ 2 (1)=0.084,p>0.05 )。 または.
確率と統計 2007 平成 20 年 1 月 10 日 ( 木 ) 東京工科大学 亀田弘之. 復習.
MS-EXCEL、 OpenCalcを 用いた表計算
データ解析基礎 2. 度数分布と特性値 keyword データの要約 度数分布表,ヒストグラム 分布の中心を表す基本統計量
統計解析 第3章 散布度.
数理統計学  第9回 西山.
第1回 確率変数、確率分布 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
『基礎理論』 (C)Copyright, Toshiomi KOBAYASHI,
第1章 記述統計の復習 統計学 2007年度.
確率と統計2011 平成24年1月12日(木) 東京工科大学 亀田弘之.
確率と統計 平成23年12月8日 (徐々に統計へ戻ります).
統計解析 第7回 第6章 離散確率分布.
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
第1章 記述統計の復習 統計学 2011年度.
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
第1回 担当: 西山 統計学.
代表値と散らばり.
標本の記述統計 専修大学 経済学部 経済統計学(作間逸雄).
第1章 記述統計の復習 統計学 2010年度.
統計解析 第9回 第9章 正規分布、第11章 理論分布.
生物統計学・第3回 全体を眺める(2) 主成分分析
流れ(3時間分) 1 ちらばりは必要か? 2 分散・標準偏差の意味 3 計算演習(例題と問題) 4 実験1(きれいな山型の性質を知ろう)
放射線の計算や測定における統計誤差 「平均の誤差」とその応用(1H) 2項分布、ポアソン分布、ガウス分布(1H) 最小二乗法(1H)
統計学 第3回 10/11 担当:鈴木智也.
統計学 11/08(木) 鈴木智也.
統計学  第6回 西山.
1時限で理解する 統計の基礎 応用情報処理II 2015/12/4 講師:新居雅行.
メディア学部 2011年9月29日(木) 担当教員:亀田弘之
統計リテラシー育成のための数学の指導方法に関する実践的研究
1変量データの記述 経済データ解析 2006年度.
データのバラツキの測度 レンジと四分位偏差 分散と標準偏差 変動係数.
春の統計学・計量経済学勉強会 第1回:2017年2月21日(火) 市野泰和
看護研究における 統計の活用法 Part 3 京都府立医科大学 浅野 弘明 2012年11月10日 1.
地理情報システム論演習 地理情報システム論演習
数理統計学 第4回 西山.
代表値とは 散布度とは 分布のパラメータ 母集団とサンプル
第1日目第1時限の学習目標 平成22年度「教育統計」の学習内容の概要を知る。 尺度の4水準の例とそれらの特色の概要を学ぶ。
確率と統計2008 平成20年12月4日(木) 東京工科大学 亀田弘之.
中澤 港 統計学第4回 中澤 港
他の平均値 幾何平均 調和平均 メデイアンとモード 平均値・メデイアン・モードの関係.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
計測工学 -誤差、演習問題 計測工学(第6回) 2009年5月26日 Ⅱ限目.
確率と統計2009 第12日目(A).
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
都市・港湾経済学(総) 国民経済計算論(商)
本時の目標 相対度数の意味を理解し、二つのデータを比較してその傾向を分析することができる。
代表値と散らばり.
度数分布表における平均・分散 (第1章 記述統計の復習 補足)
メディア学部 2010年9月30日(木) 担当教員:亀田弘之
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
1変量データの記述 (度数分布表とヒストグラム)
臨床統計入門(1) 箕面市立病院小児科  山本威久 平成23年10月11日.
散らばり 本時の目標 資料の傾向をみるときは、代表値だけでなく散らばりを考える必要があることを理解する。
プログラミング論 相関
データ分布の特徴 基準化変量 歪度 尖度.
第1日目第1時限の学習目標 平成21年度「教育統計」の学習内容の概要を知る。 尺度の4水準の例とそれらの特色の概要を学ぶ。
Presentation transcript:

確率と統計 メディア学部2008年後期 No.3 平成20年10月16日(木)

前回の内容 データ解析の演習 度数分布表の作成 ヒストグラムの作成

今日の内容 データ解析 度数分布表の作成(復習) ヒストグラムの作成(復習) グラフの分析 (データの)代表値 (データの)散らばり

新生児60人の体重(1998) 表. 新生児の体重 (1998年) 単位はグラム

度数分布表の作成 最大値=____, 最小値=___ 範囲R=最大値-最小値 区間数k=____ 区間幅h=____ 最大値=____, 最小値=___ 範囲R=最大値-最小値 区間数k=____ 区間幅h=____ 最小値と最大値とを勘案して、区間の両端を決める。

新生児の体重(1998年) 体重(g) 人数 ~2000 2000~2400 3 2400~2800 14 2800~3200 16 3200~3600 3600~4000 7 4000~4400 4 4400~4800 2

ヒストグラム

グラフに関する考察(思考実験) データの個数nをどんどん増やすと 区間の幅hをどんどん小さくすると 棒グラフがどんどん高くなる 度数がゼロの区間がなくなっていく 区間の幅hをどんどん小さくすると 棒グラフがどんどん低くなる 度数がゼロの区間が増えていき、ほとんどの区間で度数がゼロ、あっても1になる。

グラフに関する考察(思考実験) nを増やすとともにhを減らしていくと... ヒストグラムがある形状に落ち着く! これは統計的性質の1つ。 (大数の法則)

集団としての特徴値(代表値) いろんなグラフを比べてみよう! (正規分布、賃金分布、双峰分布など)

いろいろなグラフ

集団構造の記述 調査や測定により得られるデータの集まりに対して、その集団の構造(特徴)を端的に表現する指標(代表値)を求めることを、集団構造の記述という。 平均(平均値)はその代表例。

平均値 例(身長のデータ): データ群A = {167, 150, 161, 158, 164} データ群B = {169, 174, 160, 165, 172}     (単位:cm) 150 155 160 165 170 175 cm

平均値の数学的定義 平均m = (x1 + x2 + x3 + … + xn)÷n

いろいろな代表値 算術平均 (いわゆる平均のこと) モード (mode) 中央値 (Median)

ここまでのまとめ

記述統計学 まず、データ(data)ありき データの分析 以上により、データ全体の様子(分布の形状)が 視覚的・感覚的にわかる。 全体を眺める 整列(ソート)する 度数分布表の作成 => どんな値が何個あるのか? ヒストグラムの作成 => よりvisualな表現へ 分布曲線(ヒストグラムの概形)を求める => 数式表現可能 以上により、データ全体の様子(分布の形状)が 視覚的・感覚的にわかる。

記述統計学 まず、データ(data)ありき データの分析 以上により、データ全体の様子(分布の形状)が 視覚的・感覚的にわかる。 全体を眺める 整列(ソート)する 度数分布表の作成 => どんな値が何個あるのか? ヒストグラムの作成 => よりvisualな表現へ 分布曲線(ヒストグラムの概形)を求める => 数式表現可能 以上により、データ全体の様子(分布の形状)が 視覚的・感覚的にわかる。

ポイント 個々のデータ1つ1つに目を奪われることなく (データを)全体的にとらえる (データの)集団としての特徴をとらえる ことがポイント。 データの集団としての特徴を数値的にとらえられないか? 代表値という考えが生まれる。

代表値 例: データ: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8} データの個数 n=

代表値 例: データ: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8} データの個数 n=12 それでは、簡単に分析してみよう!

例: データ: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8} 個数 n=12 合計 T=48 データ値 個 数 データ:  {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8}    個数 n=12    合計 T=48 表.度数分布表 データ値 個 数 (度数) 小 計 1 2 3 9 4 8 5 6 12 7 合 計 n=12 T=48 図.ヒストグラム

ヒストグラム 図.ヒストグラム

特徴を分析してみよう データの重心(平均) m = (データの合計)÷(データの個数) = T / n = _____

モード(最頻値) 出現頻度が一番多いのはどれ? Mode= _____

最大値maxと最小値min max = _____ min = _____

大きさの順番に並べたとき、真ん中にあるデータの値が中央値 今の場合、med = _____ 3 ? 4 ? 中央値(median) データ: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8}  大きさの順番に並べたとき、真ん中にあるデータの値が中央値  今の場合、med = _____ 3 ? 4 ? 左から6個目 右から6個目

中央値(median) データ: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8}  大きさの順番に並べたとき、真ん中にあるデータの値が中央値  今の場合、med = (3 + 4)÷2 = 3.5

分析結果 例: データ: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8} データの個数 n = 12 データ: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8} データの個数 n = 12 (算術)平均 m = 4 <= 代表値 モード(最頻値) mode = 3 <= 代表値 中央値(メディアン) med = 3.5 <= 代表値 最大値 max = 8 最小値 min = 1

例2: データ: {-9, -7, -4, -1, 3, 3, 4, 6, 8, 12, 15, 18} データの個数 n = (算術)平均 m = <= 代表値 モード(最頻値) mode = <= 代表値 中央値(メディアン) med = <= 代表値 最大値 max = 最小値 min =

例2: データ: {-9, -7, -4, -1, 3, 3, 4, 6, 8, 12, 15, 18} データの個数 n = 12 (算術)平均 m = 4 <= 代表値 モード(最頻値) mode = 3 <= 代表値 中央値(メディアン) med = 3.5 <= 代表値 最大値 max = 18 <= 分布の位置 最小値 min = -9 <= 分布の位置

例1と例2のデータの比較 例1: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8} データ数 n = 12 平均 m = 4 モード mode = 3 中央値 med = 3.5 最大値 max = 8 最小値 min = 1 例2 : {-9, -7, -4, -1, 3, 3, 4, 6, 8, 12, 15, 18} データ数 n = 12 平均 m = 4 モード mode = 3 中央値 med = 3.5 最大値 max = 18 最小値 min = -9 分布が異なっているにもかかわらず、代表値は同じ! => 何がいけないのか?

平均が同じでも分布の形状が違う例 O

平均が同じでも分布の形状が違う例 データの重心(平均)が同じでも、 データの散らばり方が違っている! => 散らばりを定式化してみよう!

散らばりの定式化 アイデア1: データの存在範囲 範囲(range) R = 最大値 – 最小値

アイデア1 範囲(range) R = 最大値 ー 最小値 長所: 短所: 単純(計算が楽) 2個のデータしか利用していない。

アイデア2 平均からのズレの総和Sの平均 長所 短所 平均mから各データがどれだけズレているかが偏差。 偏差 di = xi – m (i=1,2,3, … , n) 偏差の和 S = (x1 – m) + (x2 – m) + … + (xn – m)    = 0 <= いつも必ずゼロ 偏差の和の平均 mean of S = S÷n = 0 <= いつも必ずゼロ 長所 すべてのデータの情報を利用 短所 いつもゼロになり意味がない。

アイデア3 平均からの距離の総和Sの平均 長所 短所 各データの平均からの距離 D = | di | = | 偏差 | 偏差 di = xi – m (i=1,2,3, … , n) S = | x1 – m | + | x2 – m | + … + | xn – m | 偏差の絶対値の平均(平均偏差M.D.) = S÷n 長所 すべてのデータの情報を利用 短所 数学的取り扱いが大変(どうやって絶対値をはずす?)

アイデア4 平均からの距離の二乗の総和Sの平均 長所 短所 各データの平均からの距離 D = | di | = | 偏差 | 偏差 di = xi – m (i=1,2,3, … , n) S = (x1 – m) 2 + (x2 – m) 2 + … + (xn – m)2 距離の自乗の平均 = S÷n 長所 すべてのデータの情報を利用 数学的に取り扱いやすい 短所 計算が大変? <= コンピュータを利用すればOK! 解釈は?(データxやmと、Sの次元がちがう!)

分散と標準偏差 分散S 2 = {(x1 – m) 2 + (x2 – m) 2 + … + (xn – m)2}÷n 標準偏差S = √ S 2 (分散の平方根) (短所の2番目を配慮して平方根をとった。)

散らばり 以上のような経緯により、データの散らばりの尺度として、 などが用いられる。 標準偏差S <= 一般によく利用される。 範囲R <= 工場等でよく利用される。 平均偏差M.D. <= これも利用されることが ある。 などが用いられる。

平均の考え方の重要性 データ{xi | i=1, 2, 3, …, n} 平均 m = (x1 + x2 +…+ xn)÷n 分散: xi から (xi – m)2 を作り出し、この平均を求めている。

例1と例2のデータの比較 例1: {1, 1, 2, 3, 3, 3, 4, 4, 6, 6, 7, 8} データ数 n = 12 平均 m = 4 モード mode = 3 中央値 med = 3.5 最大値 max = 8 最小値 min = 1 分散 例2 : {-9, -7, -4, -1, 3, 3, 4, 6, 8, 12, 15, 18} データ数 n = 12 平均 m = 4 モード mode = 3 中央値 med = 3.5 最大値 max = 18 最小値 min = -9 分散 分布が異なっているにもかかわらず、代表値は同じ! => 散らばりも考慮しよう!

おまけ http://www.stat.go.jp/ の左下にある「統計学習サイト」をクリックすると「How to 統計」のページが出てきます。そを参考に、自習 することをお勧めします。特に、世の中に どのような統計データが収集・公開されて いるのかを知ってください。(統計学習も経験の積み重ねが大切。)