第134回(2018-2)品質管理セミナー・ベーシックコース 2019年1月16日 第134回(2018-2)品質管理セミナー・ベーシックコース 回帰分析ケーススタディ 早稲田大学 講師 梶原 千里 ※ 本日の投影資料は,後日,日科技連のHPにアップいたしますので, 必要な方はダウンロードしてください
回帰分析ケーススタディのねらい 回帰分析とは 重回帰分析の難しさ 難しさを克服するために 複数の変数間の“関係”を解析するための手法 P.1 回帰分析ケーススタディのねらい テキスト色&頁↑ 回帰分析とは 複数の変数間の“関係”を解析するための手法 YがXの変動に対して,どの程度変化しているかを予測するための手法 重回帰分析の難しさ 複数の説明変数間の関係を正しく整理できない 説明変数と目的変数の関わり合いを正しく把握できない 残差の評価方法が理解できない 難しさを克服するために 基本手順を覚える:①点検,②分析,③診断,④対策 →(1) ④対策として,変数変換の方法を理解する →(1) 層別変数の取り扱い方法を理解する →(2) 想像しやすい実践事例(マンション価格)を通して習得する →(3) 基本手順を、事例に合わせて応用する方法を習得する →(4) ・他の分析との違い:分散分析とか
タイムスケジュール イントロダクション …10分 (1)基本的な解析手順と目的変数の変数変換 (2)層別変数を含む重回帰分析 表紙裏 タイムスケジュール イントロダクション …10分 (1)基本的な解析手順と目的変数の変数変換 小問ごとに個人演習+解説 …30分×4題 (2)層別変数を含む重回帰分析 個人演習+解説 …45分 -昼休憩- (3)重回帰の総合演習1 個人演習+簡単な解説 …30分 (4)重回帰の総合演習2 グループ演習(1)+発表,解説 …60分+20分 グループ演習(2)+発表,解説 …60分+20分 ※コラムは時間があったら紹介.演習+解説に時間をかける.
回帰分析の流れ データの点検 回帰分析 回帰診断 回帰モデルの改善 得られた重回帰式の確認,予測 代数的チェック:基本統計量,相関係数 幾何的チェック:多変量連関図,時系列グラフ 回帰分析 説明変数の選択 → 回帰式を導く 分散分析:式を当てはめたことに意味があったかどうか 回帰診断 残差の検討:式の当てはめはよかったか,他の重要な変数の見落としはないか テコ比とt値,残差のヒストグラム,残差の時系列プロット, 説明変数と残差の散布図,予測値と残差の散布図 トレランス:多重共線性のチェック 回帰モデルの改善 変数変換,2次項の当てはめ,サンプルのマスク 得られた重回帰式の確認,予測 偏回帰係数,寄与率,残差標準偏差
ケーススタディ(1)
ケーススタディ(1) 出題意図 小問(1)まずは手順を習得 小問(2)目的変数の変数変換 小問(3)説明変数の変数変換 ケーススタディ(1) 出題意図 小問(1)まずは手順を習得 ①データの点検 ②回帰分析 ③回帰診断 ④回帰モデル改善方策の検討 小問(2)目的変数の変数変換 変数変換により,回帰式はどのように変化するか? さらなる変数変換の必要性の検討 小問(3)説明変数の変数変換 小問(4)説明変数の中心化変換 残差検討に基づく変数変換の必要性の検討 残差とは、予測値と実測値の差。 残差検討により、仮定モデルで導かれる予測値と、実測値の差の傾向を見る。
P.1 小問(1) ①データの点検 表1 基本統計量 表2 相関係数行列
小問(1) ①データの点検 図1 多変量連関図 不良率yと説明変数 との散布図 →乖離した点の存在 →外れ値の可能性 P.1 小問(1) ①データの点検 図1 多変量連関図 不良率yと説明変数 との散布図 →乖離した点の存在 →外れ値の可能性 説明変数間の散布図 に,異常は見られない ・反応温度と不良率yに,やや強い正の相関 ・不良率yと説明変数との散布図 → 凝集した点と乖離した点.外れ値があるかもしれない. ・不良率yが正規分布となっていない ・説明変数間の散布図に異常はない
小問(1) ②回帰分析(変数指定) 変数選択 表3 回帰係数 P.2 ・標準偏回帰係数・・・P.80 小問(1) ②回帰分析(変数指定) 変数選択 表3 回帰係数 ・標準偏回帰係数・・・P.80 各変数の単位の取り方がそろうように,事前にすべての変数x1・・・xp,yの平均を0,分散を1に標準化したうえで,回帰係数の推定値を求めたもの. 説明変数間に相関がある場合は,必ずしも回帰係数の大きさで影響度を評価できるとはいえない.
指標:トレランス(Tolerance)とは P.2 指標:トレランス(Tolerance)とは 多重共線性の有無を判定するための指標 多重共線性:説明変数間の強い相関関係 定義: Tolerance = 1 – Rj2 (j=1,2,…,p) p個の説明変数に対して定義される R: それぞれの説明変数について,残りのp-1個の説明変数に 対する重回帰分析の結果で得られる重相関係数 Tolerance ≦0.1の場合,多重共線性があると判定 Rj2≧0.9・・・寄与率が1に近い ある説明変数について,他の説明変数で説明できてしまう事を 意味する 多重共線性・・・P.145 多重共線性があると,回帰係数の推定値や回帰式による予測の際に悪い影響が現れることがある. 対処法→一部の説明変数の除去,平均をとるなど要約,背後に隠されている本質的要因を説明変数にする,クラスター分析を行い似ているものをまとめる
小問(1) ②回帰分析(分散分析) 表4 分散分析表 P.2 小問(1) ②回帰分析(分散分析) 表4 分散分析表 データに回帰式を当てはめたことに意味があったかどうか →分散比 10.4504 であり,有意水準1%で有意
小問(1) ③回帰診断 テコ比とt値 確認の目的:影響の大きな観測値があるか調べる P.3 小問(1) ③回帰診断 テキスト 10.21.4 (P.141~) テコ比とt値 確認の目的:影響の大きな観測値があるか調べる 確認方法,基準:テコ比とt値の散布図 テコ比: t値:絶対値が2.0を超える 対処法: データの吟味 異常値と特定できた場合, マスクする(解析対象から外す) 変数変換をすることで, 対処できる場合がある
小問(1) ③回帰診断 「残差の検討」の目的 残差のヒストグラム 残差の時系列プロット 回帰式の当てはめがよかったか P.3 小問(1) ③回帰診断 テキスト 10.6(P.27~)、10.21(P.127~) 「残差の検討」の目的 回帰式の当てはめがよかったか 2次項の追加や変数変換の必要性はないか 重要な変数を見落としていないか 残差のヒストグラム 確認の視点:正規分布かどうか,±3シグマを超えるものがないか 対処法: 例)二山型→層別,±3σを超えるデータを吟味 残差の時系列プロット 確認の視点: ランダムになっているか,周期性 or 傾向はないか → ダービン・ワトソン比(ランダムであると,2に近い値) 残差の大きさに変化はないか(等分散といえるか) 対処法:原因の追及,時刻の経過に関する説明変数を追加
小問(1) ③回帰診断 説明変数と残差の散布図 予測値と残差の散布図 検討しなかった変数と残差の散布図 P.3 小問(1) ③回帰診断 テキスト 10.6(P.27~)、10.21(P.127~) 説明変数と残差の散布図 予測値と残差の散布図 確認の視点:等分散か,相関がないか,曲線的な関係はないか 対処法:変数変換,二次項の説明変数を追加 検討しなかった変数と残差の散布図 対処法:有力なものが見つかった場合,変数として追加
小問(1) ③回帰診断 ヒストグラムが右に歪んでいる(正規性がない) +3シグマを超える残差がある P.3 残差の分布→残差のヒストグラム 小問(1) ③回帰診断 残差の分布→残差のヒストグラム 残差の分布→正規確率プロット 残差の正規性、 正規確率プロット: ヒストグラムが右に歪んでいる(正規性がない) +3シグマを超える残差がある
小問(1) ③回帰診断 図2 予測値と残差の散布図 P.3 残差と予測値及び説明変数との散布図 残差の連関→残差との連関図 小問(1) ③回帰診断 残差と予測値及び説明変数との散布図 残差の連関→残差との連関図 図2 予測値と残差の散布図 残差の連関→連関図(拡大):予測値を選択
小問(1) ④回帰モデルの改善 残差の検討から判明したこと では,どうするか? 目的変数yは不良率 残差のヒストグラムが正規分布でない P.3 小問(1) ④回帰モデルの改善 残差の検討から判明したこと 残差のヒストグラムが正規分布でない 予測値と残差の散布図が湾曲傾向 → 回帰式があまり適合していない では,どうするか? 目的変数yは不良率 説明変数の値の範囲を大きくとると,不良率が0%や100%を超える 不良率を-∞から+∞に変換 比率のデータによく利用されるロジット変換を行う
小問(2) 変数変換(ロジット変換) ロジット変換 ケーススタディ(1)では,不良率yが%で与えられているため, で与えられる P.3 小問(2) 変数変換(ロジット変換) ロジット変換 pは比率データ (0<p<1) ケーススタディ(1)では,不良率yが%で与えられているため, とおいて で与えられる これを目的変数として解析するのが小問(2)
P.4 小問(2) ①データの点検 図3 多変量連関図 小問1(図1)と比べて、 プロットの凝集・乖離が改善
P.5 小問(2) ②回帰分析(変数選択) 表6 回帰係数 表5 相関係数表 符号が一致
小問(2) ②回帰分析(分散分析) 表7 分散分析表 分散比 21.7546 であり,有意水準1%で有意 P.5 小問(2) ②回帰分析(分散分析) 表7 分散分析表 分散比 21.7546 であり,有意水準1%で有意 小問(1)に比べ,寄与率,残差標準偏差が大幅に改善
P.5,6 小問(2) ③回帰診断 予測値と残差の散布図(図4)
P.5,6 小問(2) ③回帰診断 説明変数と残差の散布図(図5,6)
小問(2) ④回帰モデルの改善 残差の検討から判明したこと では,どうするか? 説明変数x1及びx4の2乗の変数を追加 P.5,6 小問(2) ④回帰モデルの改善 残差の検討から判明したこと 残差のヒストグラムや,予測値と残差の散布図は改善 説明変数x1,x4と残差の散布図では,xが動くにつれて, 2次曲線の傾向がありそう では,どうするか? 説明変数x1及びx4の2乗の変数を追加 これらも説明変数に加え,重回帰分析を行う →小問(3)
P.7 小問(3) ①データの点検 表8 相関係数表 多変量連関図
小問(3) ②回帰分析,③回帰診断 表9 回帰係数 説明変数x4に対する偏回帰係数の符号の逆転現象 多重共線性の影響 P.7,8 小問(3) ②回帰分析,③回帰診断 表9 回帰係数 説明変数x4に対する偏回帰係数の符号の逆転現象 多重共線性の影響 安易に2次項を取り入れると,説明変数間に多重共線性が生じやすい
小問(3) ④回帰モデルの改善 では,どうするか? 小問(4) 説明変数間の相関を減らしたい P.8 小問(3) ④回帰モデルの改善 では,どうするか? 説明変数間の相関を減らしたい 1次項との相関が小さくなるように修正した2次項を取り入れたい →説明変数の値を平均からの偏差とし,相関をやわらげる を2次項として取り入れる : 中心化変換 小問(4) 説明変数X1,X4を中心化変換したデータを,2次項として 取り入れる
P.8 小問(3) 中心化変換 x=1,2,3,4,5の場合
補足:トレランスがあった場合の対処 テキスト P.10-145~146 説明変数の一部を除去 相関の強い説明変数の要約を行う 2つの変数の平均をとる など 説明変数の背後にある本質的な要因を説明変数にする “似ている”ものをまとめて新しい変数を考える 回帰分析の前にクラスター分析などを行う
P.8 小問(4) ①データの点検 表11 相関係数表 X1とX11*,X4とX44*の相関の値が小さくなった
P.9 小問(4) ②回帰分析 表12 回帰係数 表13 分散分析表
ケーススタディ(1)で習得したこと 重回帰分析の基本的手順 回帰診断 変数変換 多重共線性:トレンランス 残差の正規性:正規確率プロット,残差のヒストグラム 残差との散布図 変数変換 ロジット変換 中心化変換 残差は誤差の推定値。 モデルで説明できない部分。
ケーススタディ(2) 層別変数の取り扱い方を学ぶ
P.3 小問(1)①データの点検 表4 基本統計量 表5 相関行列
小問(1) ①データの点検 図1 多変量連関図 P.3 ・特に大きな異常は見当たらない ・ゴム収縮率と電気抵抗値に相関がありそう 図1 多変量連関図 ・特に大きな異常は見当たらない ・ゴム収縮率と電気抵抗値に相関がありそう ・製造時湿度は3つのカテゴリーにわかれているが,2,3は似たような分布 ・分散状態も2~5は平均値が似ている
小問(2) ②回帰分析1 表 カテゴリ統合前の説明変数を取り込んだ場合の結果 ※ゴム温度,ゴム収縮率,製造時湿度,分散状態が取り込まれる P.4 小問(2) ②回帰分析1 表 カテゴリ統合前の説明変数を取り込んだ場合の結果 ※ゴム温度,ゴム収縮率,製造時湿度,分散状態が取り込まれる
小問(2) ②回帰分析1 層別変数(質的変数)の読み取り 表 カテゴリ統合前の説明変数を取り込んだ場合の結果 表 カテゴリ統合前の回帰式 P.4 小問(2) ②回帰分析1 層別変数(質的変数)の読み取り 表 カテゴリ統合前の説明変数を取り込んだ場合の結果 表 カテゴリ統合前の回帰式 カテゴリ1の値を0 残りのカテゴリの値は,カテゴリ1からの距離(定数項の差)
小問(2) ④回帰モデルの改善 表 カテゴリ統合前の説明変数を取り込んだ場合の結果 表6 カテゴリスコア (確定モデル→カテゴリスコア) P.4,5 小問(2) ④回帰モデルの改善 表 カテゴリ統合前の説明変数を取り込んだ場合の結果 表6 カテゴリスコア (確定モデル→カテゴリスコア) カテゴリ変数では、カテゴリの数だけ説明変数が増えてしまう。 例)湿度10%、20%、30%でカテゴリが設定されていたとすると、湿度10%なのか、20%以上なのかは区別する意味があるが、20%以上ならば30%でも電気抵抗値に対してはほぼ同じとみなせる。 t値が小さい場合はカテゴリを統合 (例:有意水準10%で判定 → t値<1.645)
小問(2) カテゴリの統合 操作方法 “①カテゴリ統合”→ポップアップ上で操作
P.5 小問(2) ②回帰分析2 表9 カテゴリ統合後の変数選択 変数絞込,カテゴリ統合後 カテゴリ統合前から 少し上昇
P.5 小問(2) ③回帰診断 残差のヒストグラム
P.8 小問(2) ③回帰診断 テコ比とt値の散布図 BCテキスト P10-142 No.23のデータを吟味する 必要あり
P.8 小問(2) ⑤予測 予測画面で操作 2.計算開始 1.直接入力
ケーススタディ(2)のまとめ 層別変数を含む重回帰分析の解析方法 回帰診断 回帰式を用いた予測 StatWorksでは,質的変数も同時に解析可能 カテゴリ間の距離が近い場合は,カテゴリ統合を行う 回帰診断 多重共線性:トレランス 残差の分布:ヒストグラム,正規確率プロット,散布図(連関図) 残差系列のランダムさ:時系列プロット,ダービンワトソン比 モデルの線形性:散布図(連関図) 影響を与える観測値:テコ比と残差t値 回帰式を用いた予測
ケーススタディ(3)
小問(1) ①データの点検(多変量連関図) 得られる情報 特に飛び離れたデータはないようである P.1 小問(1) ①データの点検(多変量連関図) 得られる情報 特に飛び離れたデータはないようである 専有面積と価格(目的変数)には,相関がありそう 相関係数:0.664 説明変数(量的変数)間には,相関がなさそう
P.2 小問(2) ②回帰分析 図2 変数選択結果
小問(3) ③回帰診断 図3 回帰係数 テコ比とt値 : t値の絶対値が2.0を超えるサンプル4つ 残差のヒストグラム : 正規分布 P.3~5 小問(3) ③回帰診断 図3 回帰係数 トレランスの値から,多重共線性はなさそう テコ比とt値 : t値の絶対値が2.0を超えるサンプル4つ 残差のヒストグラム : 正規分布 残差の時系列プロット : 特徴はなさそうである ダービン・ワトソン比 1.917 残差の連関図(散布図) : 特徴はなさそうである
P.5~6 小問(4) ⑤マスクデータの予測 マスクデータの予測方法 マスクデータ予測
小問(4) ⑤マスクデータの予測 実際のデータ(マスクデータ) 図7 予測タブの出力結果 ・No.53: 95%予測上限を超えている P.5~6 小問(4) ⑤マスクデータの予測 実際のデータ(マスクデータ) 占有面積 電車 徒歩 地区年数 階 総戸数 向き 車庫 管理人 床暖房 ペット オートロック 宅配ボックス 価格 203.03 6 10 5 40 南東 有(費用別途) 通勤 無 不可 有 11910 235.04 3 20 7 44 東 常駐 12450 208.31 13 8 12 25 南 巡回 可 12290 図7 予測タブの出力結果 ・No.53: 95%予測上限を超えている ・No.54: 95%予測上限を超えている ・No.55: 95%予測上限を超えている
P.5~6 小問(4) ⑤マスクデータの予測 基本統計量 専有面積と価格の 散布図
小問(4) ⑤マスクデータの予測 外挿した予測 マスクデータは,重回帰分析に用いた51組の データに比べ,専有面積がかなり広い → 外挿 P.5~6 小問(4) ⑤マスクデータの予測 外挿した予測 マスクデータは,重回帰分析に用いた51組の データに比べ,専有面積がかなり広い → 外挿 外挿の場合,適切に予測ができない データの範囲を常に意識する
ケーススタディ(4)
P.1~2 小問(1) (1) 1変量ごとのチェック 多変量連関図 (図1)
基本統計量(表2) 小問(1) (1) 1変量ごとのチェック 外れ値は見当たらない 滞留時間のヒストグラムは歯抜け形に見える P.1~2 小問(1) (1) 1変量ごとのチェック 基本統計量(表2) 外れ値は見当たらない 滞留時間のヒストグラムは歯抜け形に見える →特定のいくつかの値しかとらないため 原料特性,炉内圧力の分布は左に裾を引いた形に見える 入口温度,出口温度,焼成度は二山形に見える →ラインごとに違いがある
多変量連関図と以下の相関係数行列(表3)から考察 P.1~2 小問(1) (2) 2変量の組み合わせのチェック 多変量連関図と以下の相関係数行列(表3)から考察 外れ値は見当たらない 滞留時間はある特定の値のみをとっている 入口温度と出口温度の相関係数が0.953,出口温度と炉内圧力の相関係数が0.830であり,強い正の相関がある 入口温度と炉内圧力の相関係数が0.752であり,正の相関がある 炉内圧力,入口温度,出口温度と焼成度は正の相関がある
説明変数の選択結果(「ライン」は選択しない) (表4) P.2~5 小問(1) (3) 説明変数の選択 説明変数の選択結果(「ライン」は選択しない) (表4) 滞留時間,入口温度,出口温度が取り込まれた 入口温度の偏回帰係数が負となっている 入口温度と出口温度のトレランスが0.092 →多重共線性が疑われる
P.2~5 小問(1) (3) 回帰診断 残差のヒストグラム(図2-1) 外れ値はない 正規分布から大きく外れてはいない
残差の時系列プロット(図2-2) 小問(1) (3) 回帰診断 ランダムに並んでいるようには見えない P.2~5 小問(1) (3) 回帰診断 残差の時系列プロット(図2-2) ランダムに並んでいるようには見えない ダービン・ワトソン比も0.794と低い値である
テコ比と残差のt値 (図2-3) 小問(1) (3) 回帰診断 「テコ比の平均値」の2.5倍を超えるサンプルはない P.2~5 小問(1) (3) 回帰診断 テコ比と残差のt値 (図2-3) 「テコ比の平均値」の2.5倍を超えるサンプルはない t値の絶対値が2を超えるものが散見されるが,2.5を超えるものはない
P.2~5 小問(1) (3) 回帰診断 残差との連関図 (図2-4) 特別な傾向は 見当たらない
小問(2) (1) 1変量ごとのチェック 解析対象データの選択
P.6~8 小問(2) (1) 1変量ごとのチェック 多変量連関図 (ラインA) 図3-A
P.6~8 小問(2) (1) 1変量ごとのチェック 多変量連関図 (ラインB) 図3-B
ラインA,Bの比較(全体の多変量連関図より) P.6~8 小問(2) (1) 1変量ごとのチェック ラインA,Bの比較(全体の多変量連関図より) ラインA,Bともにいえること 外れ値は見当たらない 原料特性の分布は,やや左に裾を引いている 焼成度の分布は,高原形に近い ラインA,Bの比較 炉内圧力,入口温度,出口温度,焼成度の平均値は,ラインAの方が ラインBより大きい 炉内圧力,入口温度,出口温度のばらつきは,ラインAの方が小さい 原料特性,焼成度のばらつきは,ラインBの方が小さい
P.6~8 小問(2) (2) 2変量の組み合わせのチェック 相関係数行列 表6-A ラインA 表6-B ラインB
ラインA,Bともに,外れ値は見当たらない ラインA ラインB 小問(2) (2) 2変量の組み合わせのチェック P.6~8 小問(2) (2) 2変量の組み合わせのチェック ラインA,Bともに,外れ値は見当たらない ラインA 出口温度,焼成度に強い正の相関がみられる 入口温度と出口温度,焼成度との間にも正の相関が みられるが,全体やラインBに比べると,その程度は小さい ラインB 全体の相関係数行列と同様の傾向 すなわち,炉内圧力,入口温度,出口温度,焼成度に強い正の相関がみられる.
ラインA,ラインBで取り込まれた変数が異なる P.6~8 小問(1) (3) 説明変数選択と回帰診断 項目 ラインA ラインB 回帰式 自由度調整済寄与率 77.3% 74.7% 残差の 標準偏差 3.752 2.951 トレランス いずれも1に近く,多重共線性は 問題なし ラインA,ラインBで取り込まれた変数が異なる
小問(1) (3) 説明変数選択と回帰診断 項目 ラインA ラインB 残差 ヒストグラム テコ比と 残差のt値 残差との 連関図 P.6~8 ・尖りが大きい ・正に大きな値をとっている残差 がある ・正規分布から大きく外れている ようには見えない 時系列プロット ・ダービンワトソン比が0.580 ・系列相関がありそう ・誤差の独立性に疑問が残る ・ダービンワトソン比が1.814 ・誤差の独立性は問題なし テコ比と 残差のt値 ・残差のt値が大きく正に出ている もの(No.8,9)がある ・テコ比が大きいもの(No.92)が ある 残差との 連関図 ・特に傾向はない ・非等分散性や,高次の傾向なし
寄与率 :低い 残差の標準偏差:大きい トレランス(多重共線性):問題あり →この回帰式を使用した工程管理は不適切 P.16 小問(3) (2) 全体のデータにおける解析 寄与率 :低い 残差の標準偏差:大きい トレランス(多重共線性):問題あり →この回帰式を使用した工程管理は不適切
小問(3) (3) ラインAのデータにおける解析 P.16 小問(3) (3) ラインAのデータにおける解析 滞留時間と出口温度の影響あり これらの偏回帰係数は,ラインBよりも大きい 目標値に対して安定した管理を行うには, 滞留時間と出口温度の管理を行う必要 残差の検討 No.8,No.9サンプルで残差の値が大きい →要検討 ダービンワトソン比<2,系列相関あり →データ測定順に影響する要因がある可能性 →明らかになれば,残差の標準偏差を小さくできる
小問(3) (4) ラインBのデータにおける解析 P.16 小問(3) (4) ラインBのデータにおける解析 滞留時間,出口温度,原料特性の影響あり 滞留時間,出口温度の管理 原料特性のバラツキに対処する必要あり 残差の検討 No.92サンプルでテコ比が大きい →どのようなサンプルか調べる →重回帰式の再現性は必ずしも高いといえない
「ライン」を層別因子として説明変数に加えた場合の結果 層別の必要性 「ライン」の扱い方 ケーススタディ(4)では,ラインで層別 ケーススタディ(2)のように,層別因子として,説明変数に 加えて解析することも可能 「ライン」を層別因子として説明変数に加えた場合の結果 層別因子とした場合,ラインの違いは定数項の差として現れる
手元にあるデータから何らかの情報を引き出したい 回帰分析の目的と適用の場面 永田靖 著 「入門統計解析法」 P.210 単回帰分析 適用場面 前段階の実験等から絞り込まれた1つの因子を取り上げて, 因子の水準の選択,予測等を行う 分析に使用するデータ 他の因子の水準を一定にして,実験計画法的にとられるものが多い 重回帰分析 データはあるが,どの因子(説明変数)が目的変数に寄与しているのか不明 → 寄与する説明変数を調べたい “あるがままのデータ”,管理された実験データではないことが多い 手元にあるデータから何らかの情報を引き出したい