データ解析 http://coconut.sys.eng.shizuoka.ac.jp/data/ 静岡大学工学部 安藤和敏 2005.10.12.

Slides:



Advertisements
Similar presentations
Mathematica による固有値計算の高速化 Eigenvalue calculation speed by Mathematica 情報工学部 06A2055 平塚翔太.
Advertisements

5 章 標本と統計量の分布 湯浅 直弘. 5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合  ・有限な場合:有限母集合 → 1つの箱に入っているねじ.  ・無限な場合:無限母集合.
1 変量データの記述 (度数分布表とヒストグラム) 経済データ解析 2009 年度後 期. あるクラスのテストの点数が次のように なっていたとする。 このように出席番号と点数が並んでいるものだけでは、 このクラスの特徴がわかりづらい。 → このクラスの特徴がわかるような工夫が必要 → このクラスの特徴がわかるような工夫が必要.
確率・統計学の基礎 データの特性を表すパラメータとは? 2 つのデータの関係性を表す式の導出方法.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
ヒストグラム5品種 松江城 出雲大社 石見銀山 三瓶山 アクアス しかしグラフで比較するのはめんどうなところがある 端的に1つの数字(代表値)で品種の特徴を表したい.
Example 8 種類のチーズの塩分量 : m = 325 Q 3 = 340 m Q 1 = Q3Q3Q3Q3 Q1Q1Q1Q1.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
―本日の講義― 1・相関関係と因果性・相関係数の種類 2.散布図をつくる 3・共分散・相関係数の計算
主成分分析 主成分分析は 多くの変数の中を軸を取り直すことで より低い次元で表現できるようにする。 データがばらついている方向ほど
データ解析
数理統計学(第四回) 分散の性質と重要な法則
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
補章 時系列モデル入門 ー 計量経済学 ー.
9. 主成分分析 Principal Component Analysis (PCA)
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
相関係数 植物生態学研究室木村 一也.
第4回 (10/16) 授業の学習目標 先輩の卒論の調査に協力する。 2つの定量的変数間の関係を調べる最も簡単な方法は?
統計解析 第9回 第9章 正規分布、第11章 理論分布.
心理統計学 II 第7回 (11/13) 授業の学習目標 相関係数のまとめと具体的な計算例の復習 相関係数の実習.
データ解析基礎 4. 正規分布と相関係数 keyword 正規分布(教科書:31ページ~38ページ) 正規分布の性質 偏差値
―本日の講義― 1・相関関係と因果性・相関係数の種類 2.散布図をつくる 3・共分散・相関係数の計算
第3章 二つの変数の記述統計 二つの変数を対象として変数同士の関係を捉える 量的変数どうしの関係 質的変数どうしの関係.
第3章 重回帰分析 ー 計量経済学 ー.
第3章 重回帰分析 ー 計量経済学 ー.
統計数理 石川顕一 10/17 組み合わせと確率 10/24 確率変数と確率分布 10/31 代表的な確率分布
1変量データの記述 経済データ解析 2006年度.
データのバラツキの測度 レンジと四分位偏差 分散と標準偏差 変動係数.
? ? ? ? ? ? ? ? 多変量解析とは? 問題となっている現象 ●問題の発生原因がわからない(因果関係)
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 データ入力 データ分析 報告書の作成.
補章 時系列モデル入門 ー 計量経済学 ー.
フィージビリティスタディにおける シミュレーション
ガウス過程による回帰 Gaussian Process Regression GPR
13.1 パス解析 (1) 標準偏回帰係数 変数の標準化.
相関分析.
データ解析 静岡大学工学部 安藤和敏
 統計学講義 第11回     相関係数、回帰直線    決定係数.
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
主成分分析 (Principle Component Analysis)
代表値とは 散布度とは 分布のパラメータ 母集団とサンプル
確率論の基礎 「ロジスティクス工学」 第3章 鞭効果 第4章 確率的在庫モデル 補助資料
データ解析 静岡大学工学部 安藤和敏
独立成分分析 (ICA:Independent Component Analysis )
中澤 港 統計学第4回 中澤 港
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
多変量解析 ~主成分分析~ 1.主成分解析とは 2.適用例と解析の目的 3.解析の流れ 4.変数が2個の場合の主成分分析
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
パターン認識特論 担当:和田 俊和 部屋 A513 主成分分析
部分的最小二乗回帰 Partial Least Squares Regression PLS
プロセスデータ解析学5 -主成分分析- 担当:長谷部伸治     金 尚弘.
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
データ解析 静岡大学工学部 安藤和敏
データ解析 静岡大学工学部 安藤和敏
データ構造とアルゴリズム (第5回) 静岡大学工学部 安藤和敏
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
第5回 確率変数の共分散 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
データ解析 静岡大学工学部 安藤和敏
データ解析 静岡大学工学部 安藤和敏
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
相関分析 2次元データと散布図 共分散 相関係数.
臨床統計入門(1) 箕面市立病院小児科  山本威久 平成23年10月11日.
数理統計学  第6回 西山.
プログラミング論 相関
Locally-Weighted Partial Least Squares LWPLS 局所PLS
第3章 統計的推定 (その2) 統計学 2006年度 <修正・補足版>.
統計現象 高嶋 隆一 6/26/2019.
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

データ解析 http://coconut.sys.eng.shizuoka.ac.jp/data/ 静岡大学工学部 安藤和敏 2005.10.12

多変量データ … 個体名 変数名 変数名 社員No 社交性 勤勉性 企画力 判断力 1 7 6 8 10 2 4 5 3 個体

多変量データ 個体 変数 x 変数 y 変数 z 変数 w 1 x1 y1 z1 w1 2 x2 y2 z2 w2 … n xn yn zn

平均値 個体名 変数 x 1 x1 2 x2 … n xn

同じ平均値を持つ3つのデータ

左端の資料の分布

中央の資料の分布

右端の資料の分布

分散 個体名 変数 x 1 x1 2 x2 … n xn

標準偏差

標準化 標準化された変数の平均は0,分散は1になる.(証明せよ.)

ちなみに偏差値とは i番目の個体の偏差値

データのもつ情報量 分散 はデータの平均の情報量をあらわすと考えられる. もし毎日が晴れの天気であったならば,「明日は晴れる」という天気予報は何の情報もあたえない. 毎日,爆弾テロが起こっていては「爆弾テロが発生した」というニュースは,情報としての価値はない. 珍しい事ほど,あるいは,平均から離れているデータほど,情報量が大きいと考えられる. 分散 はデータの平均の情報量をあらわすと考えられる.

変動 個体名 変数 x 偏差 1 x1 x1 - 2 x2 x2 - … n xn xn - はデータの総情報量をあらわすと考えられ,変動と呼ばれる.

2変数データのもつ情報量 個体名 変数 x 変数 y 1 x1 y1 2 x2 y2 … n xn yn 平均

2変数データのもつ情報量

2変数データ全体の情報量 個体名 変数 x 変数 y 1 x1 y1 2 x2 y2 … n xn yn

共分散 個体名 変数 x 変数 y 1 x1 y1 2 x2 y2 … n xn yn

社員に関する4つの調査項目

身長と体重の相関図(散布図)

身長と体重の相関 身長(x)と体重(y)との間には,正の相関がある. sxy = 16.6

身長と営業成績の相関図(散布図)

身長と営業成績の相関 身長(x)と営業成績(u)との間には,相関がない(無相関). sxu = 0.02

営業成績と遅刻回数の相関図(散布図)

営業成績と遅刻回数の相関 遅刻回数(v)と営業成績(u)との間には,負の相関がある. suv = -44.3

相関係数 共分散は,単位のとりかたの影響を受けるので,その大きさを単純に比較できない.

相関係数の性質

相関係数の例 身長と体重 身長と営業成績 営業成績と遅刻回数 共分散 16.594 0.024 44.33 相関係数 0.6941 0.000 -0.888

相関係数の解釈 |相関係数| 意味 0~0.2 相関はない 0.2~0.4 ほとんど相関はない 0.4~0.7 弱い相関がある 0.7~1 強い相関がある

分散共分散行列 例えば,3変数 x, y, z についての分散と共分散を のように行列にまとめたものを分散共分散行列と呼ぶ.

相関行列 どうように,共分散の代わりに相関係数を並べたものを相関行列と呼ぶ. 分散共分散行列も相関行列も対称行列である.

本日のまとめ 平均値,分散,標準偏差の定義,及び,それらの意味. 相関図,共分散,相関係数の定義,及び,それらの意味. 平均値,分散,標準偏差,相関図,共分散,相関係数をExcelを用いた計算.