高次元データの解析 -平均ベクトルに関する検定統計量の 漸近分布に対する共分散構造の影響-

Slides:



Advertisements
Similar presentations
果物識別 補足資料 1. やりたい事  入力された画像内に映っている果物が何かを自動判 別するプログラムを組むこと 識別器 りんご です.
Advertisements

『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
主成分分析 主成分分析は 多くの変数の中を軸を取り直すことで より低い次元で表現できるようにする。 データがばらついている方向ほど
コンピュータビジョン特論 第8回対象追跡 2006年11月22日 加藤丈和.
一般化Bi-CGSTAB(s, L) (=一般化IDR(s, L))
数理統計学(第四回) 分散の性質と重要な法則
確率と統計 平成23年12月8日 (徐々に統計へ戻ります).
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
多変量解析 -重回帰分析- 発表者:時田 陽一 発表日:11月20日.
9. 主成分分析 Principal Component Analysis (PCA)
確率・統計Ⅰ 第11回 i.i.d.の和と大数の法則 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
統計学 11/13(月) 担当:鈴木智也.
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
Bassモデルにおける 最尤法を用いたパラメータ推定
疫学概論 母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.
AllReduce アルゴリズムによる QR 分解の精度について
Bias2 - Variance - Noise 分解
放射線の計算や測定における統計誤差 「平均の誤差」とその応用(1H) 2項分布、ポアソン分布、ガウス分布(1H) 最小二乗法(1H)
統計学 11/19(月) 担当:鈴木智也.
ランダムプロジェクションを用いた 音声特徴量変換
土木計画学 第6回(11月9日) 調査データの統計処理と分析4 担当:榊原 弘之.
高次元データにおける幾つかの検定統計量の漸近分布について
ガウス過程による回帰 Gaussian Process Regression GPR
第6章 カーネル法 修士2年 藤井 敬士.
母集団と標本:基本概念 母集団パラメーターと標本統計量 標本比率の標本分布
果物識別 マハラノビス距離を求める.
北大MMCセミナー 第74回 附属社会創造数学センター主催 Date: 2017年8月4日(金) 15:00~16:30
正規分布における ベーテ近似の解析解と数値解 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
確率・統計Ⅰ 第3回 確率変数の独立性 / 確率変数の平均 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
正規分布確率密度関数.
確率論の基礎 「ロジスティクス工学」 第3章 鞭効果 第4章 確率的在庫モデル 補助資料
情報理工学系研究科 数理情報学専攻 数理第四研究室 博士三年 指導教員: 駒木 文保 准教授 鈴木 大慈 2008年8月14日
第3章 統計的推定 (その1) 統計学 2006年度.
独立成分分析 (ICA:Independent Component Analysis )
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
Anja von Heydebreck et al. 発表:上嶋裕樹
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
数量分析 第2回 データ解析技法とソフトウェア
主成分分析 Principal Component Analysis PCA
多変量解析 ~主成分分析~ 1.主成分解析とは 2.適用例と解析の目的 3.解析の流れ 4.変数が2個の場合の主成分分析
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
変換されても変換されない頑固ベクトル どうしたら頑固になれるか 頑固なベクトルは何に使える?
パターン認識特論 担当:和田 俊和 部屋 A513 主成分分析
Number of random matrices
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
第3章 線形回帰モデル 修士1年 山田 孝太郎.
サポートベクターマシン Support Vector Machine SVM
第5回 確率変数の共分散 確率・統計Ⅰ ここです! 確率変数と確率分布 確率変数の同時分布、独立性 確率変数の平均 確率変数の分散
高次元データにおける2次形式の近似について
藤本翔太1, 狩野裕1, Muni.S.Srivastava2 1大阪大学基礎工学研究科
``Exponentiated Gradient Algorithms for Log-Linear Structured Prediction’’ A.Globerson, T.Y.Koo, X.Carreras, M.Collins を読んで 渡辺一帆(東大・新領域)
ガウス分布における ベーテ近似の理論解析 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
確率と統計2007(最終回) 平成20年1月17日(木) 東京工科大学 亀田弘之.
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
◎小堀 智弘,菊池 浩明(東海大学大学院) 寺田 真敏(日立製作所)
最小二乗法による線形重回帰分析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
モデルの微分による非線形モデルの解釈 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
パターン認識特論 カーネル主成分分析 和田俊和.
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
Jan 2015 Speaker: Kazuhiro Inaba
第3章 統計的推定 (その2) 統計学 2006年度 <修正・補足版>.
目次 はじめに 収束性理論解析 数値実験 まとめ 特異値計算のための dqds 法 シフトによる収束の加速
Q状態イジング模型を用いた多値画像修復における 周辺尤度最大化によるハイパパラメータ推定
ランダムプロジェクションを用いた音響モデルの線形変換
混合ガウスモデル Gaussian Mixture Model GMM
外れ値検出 Outlier Detection 外れサンプル検出 Outlier Sample Detection
Presentation transcript:

高次元データの解析 -平均ベクトルに関する検定統計量の 漸近分布に対する共分散構造の影響- 藤本翔太1, 狩野裕1, Muni.S.Srivastava2 1大阪大学基礎工学研究科 2Department of Statistics, University of Toronto November 9, 2018 研究集会「高次元データの推測理論の開発と応用」

もくじ Introduction Result 1 Result 2 高次元データの解析(平均に関する検定) 幾つかの検定統計量とその漸近分布 先行研究の条件を弱める 漸近的挙動に関する定理と数値的な確認 まとめ(新しい問題点の発見) Result 2 新しい検定統計量の提案 Result 1 での問題点を解決 まとめ with $E(\bm{Z}_{m})=0$, ${\rm Var}(\bm{Z}_{m})=I_{m}$ and November 9, 2018

Introduction(1) 近年,情報技術の発展やデータベースの整備によって様々な分野で高次元データが収集 顧客購買データ, 気象・地震データ DNAマイクロアレイ, 画像データ High-Dimension Low-Sample Size Data (HDLSS Data) DNAマイクロアレイ パン酵母:約6000個 人遺伝子:約22000個 サンプル:数十から数百のオーダ November 9, 2018

Introduction(2) 平均ベクトルの検定問題 記号 Hotelling’s Test Statistic: 高次元データにおける1標本問題 記号 Hotelling’s Test Statistic: with $E(\bm{Z}_{m})=0$, ${\rm Var}(\bm{Z}_{m})=I_{m}$ and November 9, 2018

Introduction(3) 定義されない(標本共分散行列が特異) cが1に近い場合は検出力は著しく低い November 9, 2018 with $E(\bm{Z}_{m})=0$, ${\rm Var}(\bm{Z}_{m})=I_{m}$ and November 9, 2018

高次元データにも対応可能な統計量 November 9, 2018

条件について November 9, 2018

提案する条件     November 9, 2018

Lemma (Fujimoto, et al., 2010, submitted) November 9, 2018

Example 1 {\rm D}\;(\bm{A}_{p})\;\;\; November 9, 2018

Example 2 {\rm D}\;(\bm{A}_{p})\;\;\; November 9, 2018

PDF {\rm D}\;(\bm{A}_{p})\;\;\; November 9, 2018

解釈 {\rm D}\;(\bm{A}_{p})\;\;\; November 9, 2018

Theorem (Fujimoto, et al., 2010, submitted) November 9, 2018

続き November 9, 2018

Estimators {\rm D}\;(\bm{A}_{p})\;\;\; November 9, 2018

簡単な数値実験 各統計量に対する近似法のActual Error Probability を Monte Carlo実験によって計算 設定 以下を計算 November 9, 2018

実験結果 November 9, 2018

ここまで のまとめ 高次元データにも対応可能な統計量 漸近正規性のための条件を弱める 拡張に伴う問題点 この事実を踏まえて One-Sample Versionを3つ紹介 漸近正規性のための条件を弱める 各統計量の漸近分布を導出 漸近分布は母共分散行列に依存して変化 拡張に伴う問題点 信頼できる検定のためには母共分散が既知である必要 この事実を踏まえて 新しい検定統計量を提案 H0における漸近分布が母共分散行列に依存しない with $E(\bm{Z}_{m})=0$, ${\rm Var}(\bm{Z}_{m})=I_{m}$ and November 9, 2018

検定統計量のクラス November 9, 2018

漸近正規性 November 9, 2018

証明の概要(1)       November 9, 2018

証明の概要(2)       November 9, 2018

New Procedure 検定統計量のクラス 母共分散行列に依存せずに漸近正規する 母共分散行列への条件を定数行列Aの条件に移行 November 9, 2018

最適な定数行列 行列Aの選択 出来るだけいい性質を持つAを選びたい 検出力 検出力は次の項に依存 November 9, 2018

行列Aの選択 検出力最大化の観点から行列Aを選出 しかし,検出力を大きくしようとすると漸近正規性が満たされなくなる可能性がある November 9, 2018

Selection of the matrix A (4) 解決策:制約付き最適化問題 定数 c はSimulationを用いて決定 Monte Carlo実験による検定サイズの計算 cの値に依存してρの値を変化させる ∑の形は最悪のケースを想定するため: November 9, 2018

数値実験 Monte Carlo Simulation 近似が正確ならばαとの絶対誤差は0.0022以下のはず $\bm{A}_{n}=(\rho^{|i-j|})$,\; $\bm{\Sigma}_{p}=\bm{1}_{p}\bm{1}_{p}^{T}$ November 9, 2018

数値実験結果 $\bm{A}_{n}=(\rho^{|i-j|})$,\; $\bm{\Sigma}_{p}=\bm{1}_{p}\bm{1}_{p}^{T}$ November 9, 2018

最適化問題(1) 先ずxに関して最大化 November 9, 2018

最適化問題(2) 次にλに関して最大化 制約条件の空間は有界閉集合 大域的な最適解が存在する まだ陽に解けてはいないが,Mathematicaを用いて数値的に大域解を求めることは可能(n < 120) November 9, 2018

最適化問題(3) 求めた固有値と次のような直交行列を用いれば,検出力を最大化する行列Bを求めることが出来る(1例) 1/2 < c < 7/12 \Rightarrow \lambda_{2}<0,\;\lambda_{3}=\lambda_{4} November 9, 2018

検出力に関する数値実験 Monte Carlo実験による検出力の計算 November 9, 2018

結果 November 9, 2018

まとめ ある検定統計量のクラスを提案 今後の課題 共分散行列に依存しないで漸近正規性を持つ クラスの中で検出力の大きな統計量を選出 問題:提案した統計量はデータの並び換えに依存 データを取る順番を換えると統計量の値も変化 Permutation sample や Bootstrap sample を取って何らかの方法で要約し,客観性を保つ⇒その分布を計算する必要がある November 9, 2018

Reference {\rm D}\;(\bm{A}_{p})\;\;\; November 9, 2018