Download presentation
Presentation is loading. Please wait.
1
高次元データの解析 -平均ベクトルに関する検定統計量の 漸近分布に対する共分散構造の影響-
藤本翔太1, 狩野裕1, Muni.S.Srivastava2 1大阪大学基礎工学研究科 2Department of Statistics, University of Toronto November 9, 2018 研究集会「高次元データの推測理論の開発と応用」
2
もくじ Introduction Result 1 Result 2 高次元データの解析(平均に関する検定)
幾つかの検定統計量とその漸近分布 先行研究の条件を弱める 漸近的挙動に関する定理と数値的な確認 まとめ(新しい問題点の発見) Result 2 新しい検定統計量の提案 Result 1 での問題点を解決 まとめ with $E(\bm{Z}_{m})=0$, ${\rm Var}(\bm{Z}_{m})=I_{m}$ and November 9, 2018
3
Introduction(1) 近年,情報技術の発展やデータベースの整備によって様々な分野で高次元データが収集
顧客購買データ, 気象・地震データ DNAマイクロアレイ, 画像データ High-Dimension Low-Sample Size Data (HDLSS Data) DNAマイクロアレイ パン酵母:約6000個 人遺伝子:約22000個 サンプル:数十から数百のオーダ November 9, 2018
4
Introduction(2) 平均ベクトルの検定問題 記号 Hotelling’s Test Statistic:
高次元データにおける1標本問題 記号 Hotelling’s Test Statistic: with $E(\bm{Z}_{m})=0$, ${\rm Var}(\bm{Z}_{m})=I_{m}$ and November 9, 2018
5
Introduction(3) 定義されない(標本共分散行列が特異) cが1に近い場合は検出力は著しく低い November 9, 2018
with $E(\bm{Z}_{m})=0$, ${\rm Var}(\bm{Z}_{m})=I_{m}$ and November 9, 2018
6
高次元データにも対応可能な統計量 November 9, 2018
7
条件について November 9, 2018
8
提案する条件 November 9, 2018
9
Lemma (Fujimoto, et al., 2010, submitted)
November 9, 2018
10
Example 1 {\rm D}\;(\bm{A}_{p})\;\;\; November 9, 2018
11
Example 2 {\rm D}\;(\bm{A}_{p})\;\;\; November 9, 2018
12
PDF {\rm D}\;(\bm{A}_{p})\;\;\; November 9, 2018
13
解釈 {\rm D}\;(\bm{A}_{p})\;\;\; November 9, 2018
14
Theorem (Fujimoto, et al., 2010, submitted)
November 9, 2018
15
続き November 9, 2018
16
Estimators {\rm D}\;(\bm{A}_{p})\;\;\; November 9, 2018
17
簡単な数値実験 各統計量に対する近似法のActual Error Probability を Monte Carlo実験によって計算 設定
以下を計算 November 9, 2018
18
実験結果 November 9, 2018
19
ここまで のまとめ 高次元データにも対応可能な統計量 漸近正規性のための条件を弱める 拡張に伴う問題点 この事実を踏まえて
One-Sample Versionを3つ紹介 漸近正規性のための条件を弱める 各統計量の漸近分布を導出 漸近分布は母共分散行列に依存して変化 拡張に伴う問題点 信頼できる検定のためには母共分散が既知である必要 この事実を踏まえて 新しい検定統計量を提案 H0における漸近分布が母共分散行列に依存しない with $E(\bm{Z}_{m})=0$, ${\rm Var}(\bm{Z}_{m})=I_{m}$ and November 9, 2018
20
検定統計量のクラス November 9, 2018
21
漸近正規性 November 9, 2018
22
証明の概要(1) November 9, 2018
23
証明の概要(2) November 9, 2018
24
New Procedure 検定統計量のクラス 母共分散行列に依存せずに漸近正規する 母共分散行列への条件を定数行列Aの条件に移行
November 9, 2018
25
最適な定数行列 行列Aの選択 出来るだけいい性質を持つAを選びたい 検出力 検出力は次の項に依存 November 9, 2018
26
行列Aの選択 検出力最大化の観点から行列Aを選出 しかし,検出力を大きくしようとすると漸近正規性が満たされなくなる可能性がある
November 9, 2018
27
Selection of the matrix A (4)
解決策:制約付き最適化問題 定数 c はSimulationを用いて決定 Monte Carlo実験による検定サイズの計算 cの値に依存してρの値を変化させる ∑の形は最悪のケースを想定するため: November 9, 2018
28
数値実験 Monte Carlo Simulation 近似が正確ならばαとの絶対誤差は0.0022以下のはず
$\bm{A}_{n}=(\rho^{|i-j|})$,\; $\bm{\Sigma}_{p}=\bm{1}_{p}\bm{1}_{p}^{T}$ November 9, 2018
29
数値実験結果 $\bm{A}_{n}=(\rho^{|i-j|})$,\; $\bm{\Sigma}_{p}=\bm{1}_{p}\bm{1}_{p}^{T}$ November 9, 2018
30
最適化問題(1) 先ずxに関して最大化 November 9, 2018
31
最適化問題(2) 次にλに関して最大化 制約条件の空間は有界閉集合 大域的な最適解が存在する
まだ陽に解けてはいないが,Mathematicaを用いて数値的に大域解を求めることは可能(n < 120) November 9, 2018
32
最適化問題(3) 求めた固有値と次のような直交行列を用いれば,検出力を最大化する行列Bを求めることが出来る(1例)
1/2 < c < 7/12 \Rightarrow \lambda_{2}<0,\;\lambda_{3}=\lambda_{4} November 9, 2018
33
検出力に関する数値実験 Monte Carlo実験による検出力の計算 November 9, 2018
34
結果 November 9, 2018
35
まとめ ある検定統計量のクラスを提案 今後の課題 共分散行列に依存しないで漸近正規性を持つ クラスの中で検出力の大きな統計量を選出
問題:提案した統計量はデータの並び換えに依存 データを取る順番を換えると統計量の値も変化 Permutation sample や Bootstrap sample を取って何らかの方法で要約し,客観性を保つ⇒その分布を計算する必要がある November 9, 2018
36
Reference {\rm D}\;(\bm{A}_{p})\;\;\; November 9, 2018
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.