妥当性概念の展開日本学術振興会・東京工業大学村山航.

Slides:

Advertisements

Similar presentations

社会システム論第 1 回システムとは何か大野正英経済学部准教授. この授業のねらい現代社会をシステムという視点から捉える。社会の複雑さをシステムというツールを用いることによって、理解する。

Advertisements

2016 年度計量経済学講義内容担当者：河田正樹

1 徹底討論「主成分分析 vs 因子分析」主成分分析は因子分析ではない ! 狩野裕（大阪大学）日本行動計量学会第 30 回大会於：多摩大学.

グラフィカル多変量解析 ----目で見る共分散構造分析----

「ストレスに起因する成長」に関する文献的検討

SPSS操作入門よい卒業研究をめざして橋本明浩.

組織の経営学　第1章ニモ・クルー・からあげ.

コメント「ファセット・アプローチの魅力とパワー」

周育佳東京外国語大学地域文化研究科博士後期課程

実証分析の手順経済データ解析　2011年度.

Toshihiko SHIOTSU 塩津敏彦

コメント狩野裕大阪大学人間科学部日本心理学会ワークショップ「探索的因子分析における変数の選択（3）」

　　　　　特別支援学校高等部学習指導要領聴覚障害教育について.

５因子性格モデルによる性格特性とプライベート空間

第37回日本看護研究学会学術集会シンポジウムII 20011/8/8(月)（デブの日）14：40～16:40 中山和弘（聖路加看護大学）

自律学習と動機づけ教育心理学の観点から 2011／2／19 上淵　寿（東京学芸大学）.

分布の非正規性を利用した行動遺伝モデル開発

疫学概論母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.

ユースケース図 FM12012　比嘉久登.

ソシオン理論における三者関係のシミュレーション

研修１組織の規範について東京コンサル株式会社担当：事変.

グループ研究１班第一章　経営戦略とは何か雨森彩大嶋健夫小沢博之.

イントロダクション.

因子分析や３相因子分析による分析の問題点を整理する狩野裕＋原田章（行動工学講座）

無料サンプルと消費者の選択行動－無料サンプルの消費者購買意思決定プロセスへの影響－

データ分析入門（13）第13章　主成分分析廣野元久.

第４日目第２時限の学習目標検査（テスト）の信頼性について学ぶ。（１）検査得点の構成について知る。（２）検査の信頼性の定義を知る。

ワークショップユーザーとメーカーの公開相談会

疫学概論測定の信頼性 Lesson 20. 評価の要件 §B. 測定の信頼性 S.Harano, MD,PhD,MPH.

回帰モデル・クラス分類モデルを評価・比較するためのモデルの検証 Model validation

心理学武庫川女子大学文学部教育学科北口勝也 http: //www. mukogawa-u.ac.jp/~kitaguti.

人工知能特論2007 東京工科大学亀田弘之.

Evidence-based Practice とは何か

シミュレーション論 Ⅱ 第１５回まとめ.

第６章連立方程式モデルｰ計量経済学ｰ.

ISO 9001:2015 The process approach

4章までのまとめｰ計量経済学ｰ.

第４日目第３時限の学習目標検査の信頼性（続き）を学ぶ。妥当性について学ぶ。（１）構成概念妥当性とは？（２）内容妥当性とは？

執筆者：伊東昌子授業者：寺尾敦 atsushi [at] si.aoyama.ac.jp

卒論の書き方：参考文献について 2017年9月27日小尻智子.

学びを促進する“インフォームドアセスメント” －学力評価の方向づけ機能に着目して－

指標の数と信頼性・内容的妥当性指標の数は多いほうがよい.

数量分析第２回データ解析技法とソフトウェア

予測に用いる数学 2004/05/07 ide.

尺度化について狩野　裕大阪大学人間科学部.

疫学概論測定の信頼性 Lesson 20. 評価の要件 §B. 測定の信頼性 S.Harano, MD,PhD,MPH.

再討論狩野裕（大阪大学人間科学部）.

心理科学・保健医療行動科学の視点に基づく

部分的最小二乗回帰 Partial Least Squares Regression PLS

対応のある共分散分散行列の同時分析ーー震災ストレスデータの同時分析ーー

確率と統計2009 第12日目(A).

シミュレーション論Ⅰ 第１４回シミュレーションの分析と検討.

データの型量的データ質的データ数字で表現されるデータ身長、年収、得点カテゴリで表現されるデータ性別、職種、学歴

理論研究：言語文化研究担当：細川英雄.

理論研究：言語文化研究担当：細川英雄.

１．因子分析とは２．因子分析を行う前に確認すべきこと３．因子分析の手順４．因子分析後の分析５．参考文献６．課題11

東京工科大学コンピュータサイエンス学部亀田弘之

疫学概論測定の妥当性 Lesson 20. 評価の要件 §A. 測定の妥当性 S.Harano, MD,PhD,MPH.

第５章性格とは何か？.

述語論理式の構文と意味一階述語論理式の構文一階述語論理式の意味述語，限量記号自然言語文の述語論理式表現解釈妥当，充足不能

異文化能力の概念化と応用　―　批判的再考　― The Conceptualization and Application of Intercultural Competence: A critical review ケンパー・マティアス.

回帰分析入門経済データ解析　2011年度.

図15-1 教師になる人が学ぶべき知識子どもについての知識教授方法についての知識教材内容についての知識.

文脈テクノロジに関する知識教科内容に関する知識教育学的知識

仮説演繹法思考経験問題：あるべき姿と現状のギャップ課題：問題解決のために成すべきこと問題 19世紀あるべき姿（予想）

感覚運動期（誕生～2歳）第1段階反射の修正（出生～約1ヶ月）第2段階第1次循環反応（約1ヶ月～4ヶ月）

第４日目第２時限の学習目標検査（テスト）の信頼性について学ぶ。（１）検査得点の構成について知る。（２）検査の信頼性の定義を知る。

一問一答式クイズAQuAsにおける学習支援の方法

市場調査の手順問題の設定調査方法の決定データ収集方法の決定データ収集の実行データ分析と解釈報告書の作成.

Presentation transcript:

妥当性概念の展開日本学術振興会・東京工業大学村山航

発表の構成歴史的変遷近年における捉え方さらに考えを発展させるために

発表の構成歴史的変遷近年における捉え方さらに考えを発展させるために

妥当性 (validity) とは何か測定したいものが測定できているのか信頼性 (reliability) との違いダーツのアナロジー “A test is valid if it measures what it purports to measure” (Kelley, 1927) 信頼性 (reliability) との違いダーツのアナロジー信頼性：大妥当性：大信頼性：大妥当性：小信頼性：小妥当性：小 ※ 信頼性が低くて妥当性が高いものは想定しにくい

妥当性概念の歴史的変遷 1950‘s 1980‘s 1955 1959 1989 構成概念妥当性構成概念妥当性基準連関妥当性 Cronbach & Meehl Campbell & Fiske Messick 収束的妥当性弁別的妥当性構成概念妥当性構成概念妥当性基準連関妥当性 Trinitarian View 内容的妥当性操作主義論理実証主義反証主義実用論

1950年代まで背景：操作主義 (operationalism) 測定の方法（尺度）自体が概念の定義である尺度が何を測定しているかは考えない基準連関妥当性 (criterion-referenced validity) の登場尺度がその概念を反映している外的基準と相関するか予測的妥当性・併存的妥当性の２タイプ尺度が測定しているのは外的基準そのもの(Anastasi, 1950) 影響会社の適性検査会社での実績

項目内容に対する視点内容的妥当性 (content validity; e.g., Rulon, 1946) 問題や質問の内容が測定したい領域を反映しているか領域の範囲内から選ばれているか領域から偏りなく選ばれているか項目ユニバース

項目内容に対する視点内容的妥当性 (content validity; e.g., Rulon, 1946) 問題や質問の内容が測定したい領域を反映しているか領域の範囲内から選ばれているか領域から偏りなく選ばれているか専門家のチェックによる検討 e.g., 分数の割り算能力を測定するテストの開発問題点：主観的になりやすい選ばれた項目項目ユニバース

Cronbach & Meehl のブレイクスルー背景：論理実証主義現象の背後に一般的な法則（理論）を想定する理論から得られる命題を実証的に検討 Cronbach & Meehl (1955) 構成概念妥当性 (construct validity) の重要性を主張尺度は理論的・仮説的な構成概念を測定している構成概念は他の構成概念との関係で定義される ⇒ 法則定立ネットワーク影響

法則定立ネットワーク (nomological network) 構成概念2 構成概念3 理論の世界構成概念１構成概念4 指標2a 指標3a 指標4a 指標1a 現実の世界指標2b 指標3b 指標4b 指標1b Cronbach & Meehl流の構成概念妥当性とは，データによってこのネットワークの理論を検証すること

収束的妥当性と弁別的妥当性構成概念妥当性の２つの検証方法 Campbell & Fiske (1959) の提唱収束的妥当性 (convergent validity)：理論的に関連の強い構成概念を測定する指標との相関が高い弁別的妥当性 (discriminant validity)：理論的に関連の弱い構成概念を測定する指標との相関が低い Campbell & Fiske (1959) の提唱多特性多方法行列（後述）による検証を主張するが，他の場面にも当てはまる概念

× × 構成概念妥当性の特徴妥当性を仮説検証の繰り返しプロセスと考える仮説（理論）：１つのデータで検証されるものではないあるデータを説明できる仮説は必ず複数存在する対立仮説を棄却して仮説の確証度を高めることが大切反証主義の影響「尺度得点X」と「失敗時の皮膚電気反応」に0.5の相関データ「Ｘ」は「不安」を測定している仮説 × 「Ｘ」は「成功欲求」を測定している × 「尺度得点X」と「身体の震え」に0.4の相関

支持したい仮説対立仮説 ○○尺度との相関大 △△尺度との相関小 ××尺度との相関大

Trinitarian Viewの時代 Trinitarian View APA et al.(1954, 1966, 1974)のテストスタンダード基準連関妥当性，内容的妥当性，構成概念妥当性を，妥当性の３つのタイプとして記述その結果，３つの妥当性の関係について詳細な考察が行われず３つの妥当性を，ただ形式的に Stamp Collectingすればよいという風潮 (Landy, 1986) Trinitarian View

妥当性概念の歴史的変遷 1950‘s 1980‘s 1955 1959 1989 構成概念妥当性構成概念妥当性基準連関妥当性 Cronbach & Meehl Campbell & Fiske Messick 収束的妥当性弁別的妥当性構成概念妥当性構成概念妥当性基準連関妥当性 Trinitarian View 内容的妥当性操作主義論理実証主義反証主義実用論

発表の構成歴史的変遷近年における捉え方さらに考えを発展させるために

「構成概念妥当性」による統合構成概念妥当性は妥当性の下位概念でなく，“妥当性そのもの”：妥当性は単一の概念(unitary concept) 構成概念妥当性とは (Messick, 1989) テスト得点に基づいて構成概念に対する推論・解釈をするとき，その推論・解釈を支える証拠の適切性に対する統合的な評価（＝テスト得点の解釈の適切性）基本はCronbach & Meehl 流の考え方でよい批判的思考能力（構成概念）批判的思考テストの得点推論・解釈証拠１証拠２証拠３

「○○妥当性」は何だったのか？構成概念妥当性を検証するための証拠・方法のタイプ妥当性 (validity) と妥当化 (validation) の区別批判的思考能力（構成概念）批判的思考テストの得点推論・解釈内容的証拠収束的証拠専門家による批判的思考の要素の同定演繹推論テストとの正の相関言語流暢性テストとの弱い相関弁別的証拠従来の “内容的妥当性” 従来の “収束的妥当性” 従来の “弁別的妥当性”

Messick(1995)の妥当化に関する6つの基準内容的側面：専門家による判断など本質的側面：プロセスの分析など構造的側面：因子分析など一般化側面：信頼性など外的側面：相関パターンなど結果的側面：社会的影響の分析など e.g. パフォーマンスアセスメント（Linn et al., 1991; Moss, 1992; 村山, 2006など）

基本はやはり「繰り返しの仮説検証」ただし，その仮説検証の範囲は，もはや法則定立ネットワークだけに留まらないさまざまな基準からの多面的検討が必須妥当性はテストの属性ではない：目的・文脈依存性また，仮説検証も厳密な論理実証主義で行うわけではない：実用主義的な論証アプローチ (Kane, 1992) 仮説は単一の証拠で完全に棄却されるわけではない：妥当性のある・なしではなく「どの程度あるのか」証拠には強い前提を支える証拠と弱い前提を支える証拠があり，全体的な妥当性は最も弱い前提を支える証拠に規定されるこの証拠を補強することが効果的な妥当性検証 Nomological networkの考えだと，テストはnomological networkのどの部分を反映しているのか，という意味で，妥当性はテストの属性とも考えられた． Kaneの言っていたことをはじめ、ここに書いてあることは、決してCronbachたちが言っていなかったわけではないが、近年の統合でより強く認識されたということ．

仮説が完全に確証/棄却されるわけではない支持したい仮説対立仮説信頼性係数が△△ 内容的な吟味の結果 ××尺度との相関大観点が収束－弁別的妥当性に留まらない．また，仮説の確信度も程度問題．この図では「内容的吟味」が弱い前提を支える証拠収束・弁別的証拠だけでない弱い前提を支える証拠

発表の構成歴史的変遷近年における捉え方さらに考えを発展させるために

さらに考えを発展させるための３つの視点「人間のモデル」を考える尺度得点を算出することの難しさを考える数量化の方法を考える

「人間のモデル」を考える解答/回答者は人間項目に答えるときの「人間のモデル」を知ることなしに妥当性のあるテストの作成は無理！人間は積極的に解釈を作りあげてしまう Please describe your mood right now 1 2 3 4 5 6 7 not happy happy Russell & Carroll (1999) ニュートラル少し嬉しい作成者の意図いろいろなことが言われているが，ここでは有名でかつ，あまり測定の本では言われていないものを取り上げるやや“悲しい” ニュートラル単極尺度が双極尺度に！回答者の読み取り

内的一貫性の増大相関のある誤差の蓄積妥当性の低下？ Knowles (1988) 被験者内項目分散項目‐全体間相関回答者は徐々に一貫した回答をするようになる！内的一貫性の増大回答者は「何が測定されているか」を積極的に解釈し，トップダウン的に回答これは一見，内的一貫性の増大に繋がっていて、よいことのように思えますが，違う．相関のある誤差の蓄積 (Drolet, 2001) 妥当性の低下？

妥当性はテストと人との相互作用で変化する人間はテストにあわせて方略を変える村山 (2004) 妥当性の増大？（Powers, 1985) 妥当性はテストと人との相互作用で変化する人はテストにあわせて柔軟に方略を調整妥当性の低下？(Mehrens & Kaminski, 1985)

「人間のモデル」を考えると，表面的妥当性も重要！さらに… 解答者の学習行動は，テストの表面的な「見え方」に引きずられる「人間のモデル」を考えると，表面的妥当性も重要！村山 (2005)

他にも… 内省能力の限界 (Nisbett & Wilson, 1977; 吉田, 2002) 反応バイアスの存在選択肢を呈示する文脈の効果 (Sudman et al. 1996) 問題文の表現の効果 (Hudson, 1983)

できるだけ領域の代表性が高い（幅広い）項目を作成する尺度得点を算出することの難しさを考える項目作成のときの２つのベクトルできるだけ領域の代表性が高い（幅広い）項目を作成する測定すべき概念項目１項目２項目３できるだけ共通性の高い項目を作成する項目１項目２項目３ジレンマ！帯域幅と忠実度のジレンマ項目作成のときには，このジレンマと戦いつつ，両方を満たすような尺度を作成する必要性

η しかし，これらを満たす「いい尺度」ができたとしても，「尺度得点の算出方法（モデル）」によって切り捨てられる部分が出てくる結果指標モデル項目１項目２項目３ η Bollen & Lennox (1991) 結果指標モデル通常使われるモデル ηは全項目の共通成分項目の独自因子は誤差に原因指標モデル項目の独自部分もηに寄与高い共通性（項目間相関）はηの解釈を困難に（多重共線性）

普通に足し合わせる方法 (parceling?) スケーリングの問題他変数との相関は項目内の相関関係に依存する ⇒ 内的一貫性と基準連関妥当性のジレンマ基準連関妥当性内的一貫性 McGrath (2005) より

数量化の方法を考える方法1(自己報告) 方法2(他者評定) A B C 方法1 特性A (.82) 特性B .13 (.80) 特性C 多特性多方法行列 (Multitrait-Multimethod Matrix, MTMM行列) 方法1(自己報告) 方法2(他者評定) A B C 方法1 特性A (.82) 特性B .13 (.80) 特性C .24 .23 (.43) 方法2 .65 .14 .10 (.28) .06 .73 .16 .27 (.38) .01 .08 .69 .19 .37 (.42) 信頼性収束的妥当性三角の枠が弁別的妥当性

収束的・弁別的妥当性を統合的に評価できるが… 方法・特性の分散を定量的に評価できない方法・特性の共分散や交互作用を評価できない加法モデル (Jöreskog, 1974) 直積モデル (Browne, 1984) A B C 方法1 方法2

構成概念妥当性の数量化 cf. pattern matching法 (Trochim, 1985) Westen & Rosenthal(2003)：Quantifying construct validity cf. pattern matching法 (Trochim, 1985) 予測値実測値予測値と実測値との相関対比の考えを用い，絶対値を考慮した相関

村上先生の方法 ⇒ これから詳細に報告注意点あくまで妥当性検証の１つのステップ．これだけで妥当性が保障されるわけでは決してない (Smith, 2003)

The End of Presentation Thank you! Murayama Kou 質問がありましたら murakou@orion.ocn.ne.jp までお願いします

絶対的な存在（他の変数間の相関関係に依存しない）補足：Borsboom et al. (2004) Messickを中心とした近年の構成概念妥当性の考え方を真っ向から否定妥当性の定義：“測りたいものが測れているか” その基準：構成概念から指標への“因果”関係この因果のプロセスを明らかにすることこそがすべて因果構成概念指標絶対的な存在（他の変数間の相関関係に依存しない）

具体例：工夫速算問題の妥当性検証（村山・市川, 2006）工夫速算とは：普通に前から計算をしたり筆算をしたりしても解けるが，ちょっとした工夫をすることでより速く・正確な計算が可能になるテスト．例： 42 × 8 ÷ 7 = 他指標との相関で妥当性を検討するのが困難そもそも問題を見ただけでも「工夫をすると早く正確に解ける」という因果の流れが明確さらに，“工夫をした人が早く正確に解ける”という因果関係を，インタビューを用いてより直接的に検証加えて、“工夫速算スキルを教えると点数が上がる”という因果関係も検証