Download presentation
Presentation is loading. Please wait.
1
ニューラルテスト理論: 資格試験のためのテスト理論
荘島宏二郎 大学入試センター研究開発部
2
テスト 社会の公具(public tool;荘島,2007) テストの果たすべき3つの文脈(荘島,2007)
人的資源の社会的配置問題に密接に関係 テストの果たすべき3つの文脈(荘島,2007) 測定の文脈 どうしてその能力を測るの? 説明の文脈 なぜその能力が重要なの? 存在の文脈 在り方(way of presence)が重要
3
テスト理論 テストを経年的に運用するための方法論 標準化(standardization) の技術を提供 古典的テスト理論 項目反応理論
潜在尺度(能力の次元)が連続 標準化(standardization) の技術を提供 尺度化(scaling) 等化(equating)
4
ニューラルテスト理論 (neural test theory, NTT)
Shojima (2008) IMPS2007 CV, in press. 自己組織化マップ(SOM; Kohonen, 1995)のメカニズムを利用したテスト理論 尺度化 潜在尺度が順序尺度 潜在ランク(ランク数は3~20) 項目参照プロファイル テスト参照プロファイル ランク・メンバーシップ・プロファイル 等化 共時等化法(concurrent calibration) 4 4
5
なぜ順序尺度? 2つの主な理由 方法論的理由 教育社会学的理由 5 5
6
方法論的理由 心理変数は連続である可能性 心理変数を連続尺度上で測定する道具は高解像度ではない 推論,読解力,能力・・・
不安,うつ,劣等感・・・ 心理変数を連続尺度上で測定する道具は高解像度ではない テスト 心理質問紙 社会調査票 6 6
7
体重と体重計 現象(連続) 測定(高解像度) 3 4 1 2 7 Weight 7
8
能力とテスト 現象(連続?) 測定(低信頼性・低解像度) 4 3 2 1 8 Ability 8
9
解像度(Resolution) 2つ以上のモノの差異を検出する力 体重計 テスト
ほとんど同じ体重をもつ2人の違いを見抜くことが可能 ほぼ間違いなくキログラム尺度上で人々を並び替えることが可能 テスト 大体同じ能力を持つ2人の違いを見抜くことができない 人々を正確に並び替えることが不可能 テストは,受検者をいくつかのレベルに段階付けるくらいがせいぜい 9 9
10
教育社会学的理由 連続尺度の負の側面 順序尺度の正の側面 生徒たちは,日々,一点でも高い得点をとるよう動機付けられている
不安定な連続尺度の乱高下に一喜一憂させるべきではない 順序尺度の正の側面 段階評価は,連続尺度上での評価よりも頑健 継続して努力しないと上位ランクに進めない 10 10
11
NTT 潜在ランク理論 SOM GTM Binary RN08-02 RN07-03 RN07-21 Continuous
Shojima (in press) RN08-02 Polytomous (ordinal) RN07-03 In preparation (nominal) RN07-21 Continuous NTT ML (RN07-04) Fitness (RN07-05) Missing (RN07-06) Equating (RN07-9) Bayes (RN07-15) 11 11
12
NTTにおける統計的学習 ・For (t=1; t ≤ T; t = t + 1)
・U(t)←Randomly sort row vectors of U ・For (h=1; h ≤ N; h = h + 1) ・Obtain zh(t) from uh(t) ・Select winner rank for uh(t) ・Obtain V(t,h) by updating V(t,h−1) ・V(t,N)←V(t+1,0) Point 1 Point 2 Slide 10 This is the framework for estimating the NTT model. Skipping the details, there are two main procedures: selecting the winner rank (point 1) and updating the reference matrix (point 2). 12 12
13
NTTのメカニズム Latent rank scale Number of items Response Point 2 Point 1
1 1 Number of items Slide 11 The NTT mechanism is graphically explained in this slide. To begin with, a one-dimensional lattice or chain is prepared. This is the latent rank scale of the NTT. In the figure, the number of latent ranks is seven. Each latent rank has its own reference vector whose size is equal to the number of items. Each element is a number from 0 to 1. This matrix composed of the number of items times the number of latent ranks elements is the rank reference matrix. If this data vector is input, the rank whose vector is closest to the input data is the winner rank. This process is Point 1. Then, the reference vector of the winner rank is changed so that it becomes closer to the input data. In addition, the reference vectors of neighboring ranks are updated according to their geographic closeness to the winner. This process is Point 2. Statistical learning continues repeatedly in this manner. Latent rank scale 13 13
14
Point 1: 勝者ランク選択 The least squares method is also available.
Likelihood ML Bayes Slide 12 Mathematically, the winner rank is determined by distance based on likelihood. The maximum likelihood method or Bayesian method is useful for determining the winner rank. The least squares method is also available. 14 14
15
Point 2: ランク参照行列の更新 The nodes of the ranks nearer to the winner are updated to become closer to the input data h: tension α: size of tension σ: region size of learning propagation Slide 13 Then, this is the method for updating the reference matrix. It is very simple. My colleague developed software for the NTT in one day. 15 15
16
分析例 地理テスト N 5000 n 35 Median 17 Max Min 2 Range 33 Mean 16.911 Sd
4.976 Skew 0.313 Kurt -0.074 Alpha 0.704 16 16
17
項目参照プロファイルの例 17 単純増加制約を課すことも可能 17
18
IRP指標 (1) 項目困難度 Beta B Rank stepping over 0.5 Its value 熊谷 (2007) 18
Slide 18 Professor Kumagai proposed some IRP indices. Skipping the details, this index is the item difficulty. 熊谷 (2007) 18 18
19
IRP指標 (2) 項目識別度 Alpha Smaller rank of the neighboring pair with the biggest change A Its value Slide 19 This is the item discriminancy. 19 19
20
IRP指標 (3) 項目単調度 Gamma Proportion of neighboring pairs with negative changes. C Their sum Slide 20 And this is the item monotonicity. 20 20
21
項目参照プロファイルの推定値 IRP指標 ・・・ ITEM R1 R2 R3 R8 R9 R10 A α B β C γ 1 0.262
0.257 0.255 0.416 0.460 0.497 0.044 8 10 -0.007 0.222 2 0.271 0.240 0.319 0.320 0.317 0.025 5 -0.033 0.333 3 0.597 0.624 0.669 0.856 0.867 0.880 0.057 4 0.000 0.210 0.204 0.202 0.539 0.592 0.084 7 9 -0.009 0.227 0.219 0.214 0.390 0.445 0.071 -0.013 6 0.747 0.784 0.836 0.914 0.921 0.928 0.052 0.111 0.352 0.326 0.296 0.439 0.440 0.436 0.051 -0.066 0.444 0.229 0.234 0.238 0.490 0.593 0.667 0.104 0.491 0.562 0.778 0.802 0.816 0.287 0.254 0.548 0.648 0.719 0.112 -0.094 32 0.189 0.170 0.157 0.302 0.332 0.360 0.042 -0.032 33 0.168 0.188 0.221 0.376 0.414 34 0.407 0.413 0.424 0.566 0.585 0.036 0.535 35 0.481 0.522 0.569 0.765 0.794 21 21
22
Can-Do Table (例) 到達度評価表
Ability category and item content IRP estimates IRP indices 22 22
23
テスト参照プロファイル (test reference profile, TRP)
IRPの重み付き和 各潜在ランクの期待値 弱順序配置条件(Weakly ordinal alignment condition) TRPが単調増加だけど,全てのIRPが単調であるわけではない 強順序配置条件(Strongly ordinal alignment condition) 全てのIRPが単調増加 TRPも単調増加 潜在尺度が順序尺度であるためには,少なくともWOACを満たす必要 23 23
24
適合度指標 ML, Q=10 ML, Q=5 潜在ランク数を決定するのに便利 24 24
25
潜在ランクの推定 Likelihood ML Bayes 25 25
26
潜在ランク分布 (latent rank distribution, LRD)
いつも必ず平坦ではない 反応パタンの類似性によってランク分けされる 最小2乗法と最尤推定法は,両端のランクに人がたまる傾向がある ベイズ推定法を用いれば解消できる 26 26
27
層別化LRD LRD stratified by sex LRD stratified by establishment 27 27
28
潜在ランクと得点の関係 NTT尺度の妥当性を傍証 R-S散布図 R-Q散布図 Spearman’s R=0.929
28 28
29
ランク・メンバーシップ・プロファイル (rank membership profile, RMP)
各受検者がどの潜在ランクに所属するかについての事後分布 RMP Slide 29 Rank membership profile is the posterior distribution of latent rank, and it is useful for reviewing the probabilities that each examinee belongs to the respective latent ranks. 29 29
30
RMPの例 30 30
31
ウェブサイト ソフトウェア http://www.rd.dnc.ac.jp/~shojima/ntt/index.htm EasyNTT
開発者:熊谷先生(新潟大学) Neutet 開発者:橋本先生(大学入試センター) 31 31
32
拡張モデル Graded Neural Test Model (RN07-03)
NTT model for ordinal polytomous data Nominal Neural Test Model (RN07-21) NTT model for nominal polytomous data Batch-type NTT Model (RN08-03) Continuous Neural Test Model Multidimensional Neural Test Model 32 32
33
段階ニューラルテストモデル 境界カテゴリ参照プロファイル of Items 1-9 破線は,観測率プロファイル (ORP)
34
段階ニューラルテストモデル 項目カテゴリ参照プロファイル of Items 1-9 破線は観測率プロファイル
35
名義ニューラルテストモデル 項目カテゴリ参照プロファイル of Items 1-16
名義ニューラルテストモデル 項目カテゴリ参照プロファイル of Items 1-16 * 正答選択肢, x 10%未満のカテゴリをマージしたカテゴリ
36
議論 潜在尺度が順序であるテスト標準化理論 項目バンクを作成してテスト編集ができる 等化も可能 潜在尺度が順序尺度 モデルの非線形性と柔軟性
難しいIRPをもつ項目のみを選抜してテストを編集すれば高学力層向きのテストが編集できる 等化も可能 共時等化法(concurrent calibration) 学力の経年変化などに運用できる
37
NTTの拡張(2) Structural Neurofield Mapping: 構造神経場マッピング Latent rank model for Multivariate Data 多変量データのための潜在ランク理論 37 37
38
SEMのパス図:因子のパス解析
39
SEMのパス図(2):階層因子モデル
40
問題意識 1つの潜在変数を2~5の観測変数が測定 多くても観測変数は10くらい 潜在変数は連続変数 潜在的な名義変数(潜在クラス)も一般的
41
測定論の立場から 1つの潜在変数を5つくらいの観測変数で連続尺度上で評価することは難しい
たとえば,テストでいえば,50くらいの項目でようやく能力を10~20段階に評価するくらいがせいぜい 解像度(ものの違いを見抜く力)が小さいから 潜在的な順序尺度の必要性
42
NTTからSNMへ 実は,NTTは1因子の因子分析みたいなもの NTTをSEMっぽく拡張することが可能
ただし,因子が順序変数 NTTをSEMっぽく拡張することが可能 Structural Neurofield Mapping (SNM) 構造神経場マッピング 確認的高次元SOM 多次元NTT
43
Higher-Order Multidimensional NTT Model
SNMの下位モデル 全ての因子は順序尺度 テストが複数の下位テストからなる 下位テストごとに潜在ランクを推定 高次潜在ランクも推定
44
HOMDNTTモデルにおける統計的学習 44 Slide 10
This is the framework for estimating the NTT model. Skipping the details, there are two main procedures: selecting the winner rank (point 1) and updating the reference matrix (point 2). 44 44
45
図的説明 x x f f f f
46
英語テストの分析
47
問題構成 下位テスト 問題内容 項目数 1 発音 6 2 文法穴埋め 16 3 文章並び替え 7 4 図表読解 5 会話文読解 長文読解 8
48
分析モデル 1D-NTT Confirmatory 6-Dimensional Neural Test Model or
High-Dimensional Self-Organizing Map 1D-NTT 3 5 10
49
分析モデル 10 Graded Neural Test Model
3 5 10 Graded Neural Test Model 1D-NTT for Categorical-Ordered Response Data
50
Item Reference Profiles of Ability 1 (n=6, Q=3)
51
IRPs of Ability 2 (n=16, Q=5)
52
IRPs of Ability 3 (n=7, Q=3)
53
IRPs of Ability 4 (n=5, Q=3)
54
IRPs of Ability 5 (n=5, Q=3)
55
IRPs of Ability 6 (n=8, Q=3)
56
Test Reference Profiles of 6 Abilities
57
Latent Rank Distributions of 6 Abilities
58
Spearman’s R Matrix Ability 1 2 3 4 5 6 0.354 0.280 0.603 0.223 0.525
0.453 0.241 0.455 0.384 0.378 0.545 0.449 0.437 0.431
59
Rank Membership Profiles of Examinees 1, 7 and 9 for 6 Abilities
60
Boundary Category Reference Profiles of 6 Abilities on General Ability
61
Item Category Reference Profiles of 6 Abilities on General Ability
62
Marginal Output Ability 1 2 3 4 5 6 G Factor 0.436 0.882 0.767 0.697
Test Reference Profile Latent Rank Distribution Rank-Score Scatter Plot Spearman’s R of 6 Abilities with General Ability Ability 1 2 3 4 5 6 G Factor 0.436 0.882 0.767 0.697 0.628 0.730
63
Rank Membership Profiles of Examinees 1-15 on General Ability Rank Scale
64
まとめ ニューラルテスト理論の拡張を行った 潜在変数が順序変数の多変量解析モデル いずれはSEMの中で統合したほうがよい
高次因子分析モデルで例示 下位テストが含まれるテストにおいて,下位ランクと高次ランクを出力できるので便利 他にもさまざまなモデルを表現可能 統計学は視覚的要約の時代に入っている中で,出力が煩雑なので工夫が必要
65
理論・応用・ソフトウェア開発なんでも大歓迎
ご清聴ありがとうございました 理論・応用・ソフトウェア開発なんでも大歓迎 一緒に研究しましょう
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.