データ解析基礎 2. 度数分布と特性値 keyword データの要約 度数分布表,ヒストグラム 分布の中心を表す基本統計量

Slides:



Advertisements
Similar presentations
5 章 標本と統計量の分布 湯浅 直弘. 5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合  ・有限な場合:有限母集合 → 1つの箱に入っているねじ.  ・無限な場合:無限母集合.
Advertisements

1標本のt検定 3 年 地理生態学研究室 脇海道 卓. t検定とは ・帰無仮説が正しいと仮定した場合に、統 計量が t 分布に従うことを利用する統計学的 検定法の総称である。
1 章 データの整理 1.1 データの代表値. ■ 母集団と標本 観測個数 n ( または 標本の大きさ、標本サイズ、 Sample Size) n が母集団サイズに等しい時 … 全標本 または 全数調査 (census) 母集団 (population) 知りたい全体 標本 (sample) 入手した情報.
1 変量データの記述 (度数分布表とヒストグラム) 経済データ解析 2009 年度後 期. あるクラスのテストの点数が次のように なっていたとする。 このように出席番号と点数が並んでいるものだけでは、 このクラスの特徴がわかりづらい。 → このクラスの特徴がわかるような工夫が必要 → このクラスの特徴がわかるような工夫が必要.
確率・統計学の基礎 データの特性を表すパラメータとは? 2 つのデータの関係性を表す式の導出方法.
Advanced Data Analysis 先進的データ分析法 2015 (2) 平成 27 年前期第1クウォータ科目 東京工科大学大学院 バイオニクス・情報メディア学専攻科 担当:亀田弘之.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
社会福祉調査論 第 8 講 統計の基本的整理 12 月7日. 【目標】 量的調査の集計方法、結果の示し方につ いて、基礎的な手法を習得する。 統計値を捉えるための諸指標を理解する。
生物統計学・第 4 回 比べる準備をする 平均、分散、標準偏差、標準誤差、標準 化 2015 年 10 月 20 日 生命環境科学域 応用生命科学類 尾形 善之.
ヒストグラム5品種 松江城 出雲大社 石見銀山 三瓶山 アクアス しかしグラフで比較するのはめんどうなところがある 端的に1つの数字(代表値)で品種の特徴を表したい.
1 統計学 第2週 10/01 (月) 担当:鈴木智也. 2 前回のポイント 「記述統計」と「推測統計」。 データ自体の規則性を記述するのが 「記述統計」、データを生み出した背 景を推測するのが「推測統計」である。 推測統計は記述統計に基づくので、ま ずは記述統計から学ぶ。 以下、データの観測値をX.
生体情報論演習 - 統計法の実践 第 1 回 京都大学 情報学研究科 杉山麿人.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
MS-EXCEL、 OpenCalcを 用いた表計算
統計解析 第3章 散布度.
第2章 1変量データの記述 統計学基礎 2011年度.
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
第1章 記述統計の復習 統計学 2007年度.
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
第1章 記述統計の復習 統計学 2011年度.
統計学 第3回 「データの尺度・データの図示」
第1回 担当: 西山 統計学.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 データ入力 データ分析 報告書の作成.
代表値と散らばり.
標本の記述統計 専修大学 経済学部 経済統計学(作間逸雄).
第1章 記述統計の復習 統計学 2010年度.
第1日目第2時限の学習目標 基本的な1変量統計量(その2)について学ぶ。 尺度水準と適切な統計量との関連を整理する。
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
流れ(3時間分) 1 ちらばりは必要か? 2 分散・標準偏差の意味 3 計算演習(例題と問題) 4 実験1(きれいな山型の性質を知ろう)
データ解析基礎 4. 正規分布と相関係数 keyword 正規分布(教科書:31ページ~38ページ) 正規分布の性質 偏差値
第3章 二つの変数の記述統計 二つの変数を対象として変数同士の関係を捉える 量的変数どうしの関係 質的変数どうしの関係.
統計学 第3回 10/11 担当:鈴木智也.
統計学 10/19 鈴木智也.
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
社会福祉調査論 第9講 母集団の推計 12月14日.
統計解析 第1章 データの表現.
メディア学部 2011年9月29日(木) 担当教員:亀田弘之
1変量データの記述 経済データ解析 2006年度.
データのバラツキの測度 レンジと四分位偏差 分散と標準偏差 変動係数.
データの分類 P.128 診断や治療を,長年の経験則に頼らず, 科学的根拠に裏付けされた事実に基づいて判断する。
看護研究における 統計の活用法 Part 3 京都府立医科大学 浅野 弘明 2012年11月10日 1.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 データ入力 データ分析 報告書の作成.
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
地理情報システム論演習 地理情報システム論演習
看護研究における 統計の活用法 Part 1 京都府立医科大学 浅野 弘明 2012年11月10日.
代表値とは 散布度とは 分布のパラメータ 母集団とサンプル
第1日目第1時限の学習目標 平成22年度「教育統計」の学習内容の概要を知る。 尺度の4水準の例とそれらの特色の概要を学ぶ。
第3章 統計的推定 (その1) 統計学 2006年度.
中澤 港 統計学第4回 中澤 港
他の平均値 幾何平均 調和平均 メデイアンとモード 平均値・メデイアン・モードの関係.
確率と統計 メディア学部2008年後期 No.3 平成20年10月16日(木).
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
都市・港湾経済学(総) 国民経済計算論(商)
代表値と散らばり.
度数分布表における平均・分散 (第1章 記述統計の復習 補足)
疫学概論 頻度と分布 Lesson 9. 頻度と分布 §A. 頻度または度数 S.Harano,MD,PhD,MPH.
メディア学部 2010年9月30日(木) 担当教員:亀田弘之
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
小標本に関する平均の推定と検定 標本が小さい場合,標本分散から母分散を推定するときの不確実さを加味したt分布を用いて,推定や検定を行う
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
1変量データの記述 (度数分布表とヒストグラム)
臨床統計入門(1) 箕面市立病院小児科  山本威久 平成23年10月11日.
情報コミュニケーション入門b 第9回 表計算ソフト入門(3)
第2章 統計データの記述 データについての理解 度数分布表の作成.
第1日目第1時限の学習目標 平成21年度「教育統計」の学習内容の概要を知る。 尺度の4水準の例とそれらの特色の概要を学ぶ。
第1日目第2時限の学習目標 基本的な1変量統計量(その2)について学ぶ。 尺度水準と適切な統計量との関連を整理する。
Presentation transcript:

データ解析基礎 2. 度数分布と特性値 keyword データの要約 度数分布表,ヒストグラム 分布の中心を表す基本統計量 平均,最頻値,中央値 分布のばらつきを表す統計量 分散,標準偏差

統計データの構造-1 データ解析の目的・・・ 具体的な対象(母集団)についての調査結果(標本をどう加工・処理し,有益な情報を引き出すかである. 加工・処理するための調査結果として,データ(観測データ)というものがある. 母集団から無作為抽出された個体のことを標本といい,その個数を標本の大きさまたは標本サイズと呼ぶ. “標本=観測データ”と読み替えても良い

統計データの構造-2 データ解析では調査項目のことを変量と呼ぶ. 質的変量 量的変量(連続的変量) 名義尺度:名前,性別 順序尺度:好きなもの順位など 量的変量(連続的変量) 間隔尺度:温度,成績など 比例尺度:距離,重量,金額など

統計データの構造-3:名義尺度 対象者特性を便宜的に数字で表現 統計的処理 性別:男性=1,女性=2 好きな動物:犬=1,猫=2,ウサギ=3 度数のカウント 例)男性100人,女性85人 名義尺度の数字は,加減乗除算ができない

統計データの構造-4:順位尺度 順位やベスト3,ワースト3などで表現 統計的処理 行きたい国から順に3つ書いてください. 次のタレントを好きな順に3名書いてください. 統計的処理 例)順位別の度数 1位 ドイツ20名 2位 中国10名 3位 オランダ8名

統計データの構造-5:間隔尺度 評価などの質問(等間隔の順序尺度)で使われる 統計的処理 満足度の調査 度数のカウント 得点化し,換算 平均などの統計量を計算 非常に満足 やや満足 どちらでもない やや不満 非常に不満

統計データの構造-6:比例尺度 数や量などを質問 統計的処理 年収,年齢 年間売上高,来場者数 カテゴリー化して度数を計算 平均などの統計量の計算

度数分布表1:質的データ例 応答パターン 頭部損傷:(有り,無し) ヘルメット着用:     (着用,非着用)

度数分布表1:質的な観測データの要約 データで各々の値の個数(度数)を求める. 度数を表形式にしたものが度数分布表である

度数分布表2:量的な観測データの要約 データ集計 ⇔ 度数分布表の作成 度数分布表(区間数10)

度数分布表3:度数分布表の作成 度数分布表作成手順 データ項目を適当な階級に分ける 各階級に入る度数を数える 更に必要ならば, 相対度数,累積度数,累積相対度数を計算 相対度数は,データの大きさが異なる複数のデータの分布の比較に有効

度数分布表4:用語の復習 階級: 階級値: 度数: 相対度数: 累積度数,累積相対度数: 標本値が取り得る値を適当な区間に分けたもの 階級を代表する値.通常階級の上限と下限の中間値 度数: 階級に入る標本値の個数 相対度数: 度数を全標本値の個数で割って,比率にしたもの 累積度数,累積相対度数: 度数,相対度数を下の階級から順に足したもの

度数分布表5:ヒストグラムの作成 ヒストグラム: グラフの分布の形を見るために,度数分布表をグラフにしたもの 度数分布表を作成して,ヒストグラムを描くことによってデータの分布を知ることが出来る. ↓ データ解析のはじめの一歩!!

度数分布表6:度数分布表の読み方 データ区間: 300以上400未満 階級値: 350=(300+400)/2 度数: データ区間に13人   300以上400未満 階級値:   350=(300+400)/2 度数:   データ区間に13人 相対度数:   9人は全体の22% 累積度数:   最初から数えてこの   データ区間までに38人 累積相対度数:   データ区間までの人数は   全体の64%

度数分布表7:ヒストグラムの作成 度数分布表 ヒストグラム

例題:得点データ

例題:度数分布表

例題:ヒストグラム データのまとめ方によって,異なる解釈ができる場合がある.

分布の特性値 代表値:データの中心の位置 散布度:データの散らばり具合 度数分布やヒストグラムを見ることで分布の形状を知るができる. 数値で分布の概要を把握するための指標として, 代表値:データの中心の位置 散布度:データの散らばり具合 がある. 2つの指標を総称して「分布の特性値」という.

分布の特性値:代表値 データの分布がどのような値を中心に散らばっているか明らかにする. 平均: 最頻値: 中央値(メジアン): データのすべての値を足し合わせて,データ数で割ったもの 最頻値: 分布の最も高い場所 中央値(メジアン): データの中央にくる値のこと

分布の特性値:代表値 最頻値 平均値 中央値

日本全国の平均世帯収入は? 渡辺久哲「調査データにだまされない法」創元社より 総務庁の統計局の家計調査によると,平成8年度の全国平均の世帯年収は743万円であった. 全国の一般世帯およそ8000標本について収入と支出についての調査 この743万円という世帯年収を聞いての感想は,「ふつうの家はそんなに稼いでいるのか!!」 例えば,ボーナスを年間3ヶ月分支給すると仮定それば,1ヶ月の収入は約50万円となる.

日本全国の平均世帯収入は? 平均年収が743万円となった理由 1000万円以上稼ぐ高所得者が その平均を引き上げていたため 単位:万円

分布の特性値:散布度 散布度:分散(標準偏差) 次の2つのデータの平均を考える. 平均値は同じである データのもつ意味が全く違う データを要約する値としては不十分? データの散らばりを表す量も表示する

分布の特性値:散布度 例)散布度:分散(標準偏差) 3クラスで,統計学の試験をし,各クラスで30人ずつ選び平均点を計算すると50点であった.このデータから,ヒストグラムを作成したところ以下のような結果であった.この平均点だけで,データを解釈しても良いか.

データの散らばりを表す量 散布度:分散(標準偏差) 分散: データの散らばりを表現する量 データの散らばり具合が大きいほど,分散の値は大きくなる. 3つのクラスの分散の大きさは, クラスA<クラスB<クラスC 標準偏差:分散を平方根したもの

データの散らばりを表す量 散布度:分散(標準偏差) 分布1 分布2 分布1の平均 = 分布2の平均 分布1の分散 < 分布2の分散

平均,分散の計算式

平均値の意味1 以下の10人の学生の得点を表した図 得点と平均点との距離

平均値の意味2 この項が0のとき, yは最小になる x の標本分散

例題1:平均値の意味 次の度数分布表とヒストグラムはあるテスト結果をまとめたものである.わかることを述べなさい. 度数分布表 ヒストグラム

例題2:基本統計量 以下のデータは,10日間にわたる2つのストアの1日の売り上げ高(単位:万円)である.どちらのお店がより安定しているか答えなさい.

例題2:折れ線グラフ (日)

例題3:基本統計量 以下のデータは,同じ科目を講義中心と演習中心という2つの異なる講義方法でおこない,クラスA(講義中心)とクラスB(実習中心)からそれぞれ20名を選び,試験をおこなった結果である.2つのクラスを比較しなさい.

例題3:基本統計量 基本統計量 度数分布表

例題3:基本統計量

まとめ データからの情報抽出: データの要約 度数分布表,ヒストグラム 分布の中心を表す特性値 代表値:平均,最頻値,中央値 分布のばらつきを表す特性値 散布度:分散,標準偏差