荘島宏二郎 大学入試センター研究開発部 shojima@rd.dnc.ac.jp ニューラルテスト理論 荘島宏二郎 大学入試センター研究開発部 shojima@rd.dnc.ac.jp
テストの精度(accuracy) 体重計で測定しました fW (A1)≠74 fW (A1)≠72 テストで測定しました A1君は73kgでした fW(A1)=73 fW (A1)≠74 fW (A1)≠72 テストで測定しました B1君は73点でした fT(B1)=73 fT(B1)≠74 ? fT(B1)≠72 ?
テストの識別力(discrimination) 体重計で測定しました A1君は73kgでした A2君は75kgでした fW(A1)<fW (A2) テストで測定しました B1君は73点でした B2君は75点でした fT(B1)<fT (B2) ?
テストの解像度(resolution) 体重計で測定しました テストで測定しました A1君は73kgでした A2君は75kgでした B1君は73点でした B2君は75点でした B3君は・・・ kg T
Neural Test Theory (NTT) テストは大事な社会の公具(public tool) 高い精度の測定は困難 測定内容の10%は誤差 テストは,学力を5~20レベルに段階評価するくらいがせいぜい Neural test theory (NTT) Shojima, K. (2009) Neural test theory. K. Shigemasu et al. (Eds.) New Trends in Psychometrics, Universal Academy Press, Inc., pp.417-426. 自己組織化マップ(SOM)あるいは,生成トポグラフィックマッピング(GTM)のメカニズムを利用したテスト理論 潜在尺度が順序尺度 5 5
For Qualifying Tests Ordinal academic ability evaluation scale based on Neural Test Theory Continuous academic ability evaluation scale based on IRT or CTT It is difficult to explain the relationship between scores and abilities because individual abilities also change continuously Because the individual abilities also change in stages, it is easy to explain the relationship between scores and abilities. This increases the test’s accountability. 段階評価 ↓ アカウンタビリティ 資格試験
NTTにおける統計的学習 SOMメカニズム GTMメカニズム 逐次学習型 標本サイズ10000以下 滑らかさ大 一括学習型 滑らかさ小 標本サイズ10000以上 潜在クラス分析byEMアルゴリズム スムージング 7 7
NTTのメカニズム(SOMの場合) Latent rank scale Number of items Response Point 2 1 1 Number of items Latent rank scale 8 8
Point 1: 勝者ランク選択 Likelihood ML Bayes 9 9
Point 2: ランク参照行列の更新 The nodes of the ranks nearer to the winner are updated to become closer to the input data h: tension α: size of tension σ: region size of learning propagation 10 10
分析例 地理テスト N 5000 n 35 Median 17 Max Min 2 Range 33 Mean 16.911 Sd 4.976 Skew 0.313 Kurt -0.074 Alpha 0.704 11 11
適合度指標 ML, Q=10 ML, Q=5 潜在ランク数を決定するのに便利 12 12
単純増加制約(monotonic increasing constraint)を課すことも可能 項目参照プロファイル 13 単純増加制約(monotonic increasing constraint)を課すことも可能 13
テスト参照プロファイル(TRP) IRPの重み付き和 各潜在ランクの期待値 弱順序配置条件(Weakly ordinal alignment condition) TRPが単調増加だけど,全てのIRPが単調であるわけではない 強順序配置条件(Strongly ordinal alignment condition) 全てのIRPが単調増加 TRPも単調増加 潜在尺度が順序尺度であるためには,少なくともWOACを満たす必要 14 14
ランク・メンバーシップ・プロファイル(RMP) 各受検者がどの潜在ランクに所属するかについての事後分布 RMP 15 15
RMPの例 16 16
拡張モデル 段階NTTモデル(RN07-03) 名義NTTモデル(RN07-21) 連続NTTモデル 多次元NTTモデル 17 17
段階NTTモデル 境界カテゴリ参照プロファイル
段階NTTモデル 項目カテゴリ参照プロファイル
名義NTTモデル 項目カテゴリ参照プロファイル * 正答選択肢, x 10%未満のカテゴリをマージしたカテゴリ
ウェブサイト ソフトウェア http://www.rd.dnc.ac.jp/~shojima/ntt/index.htm EasyNTT 熊谷先生(新潟大学) Neutet 橋本先生(大学入試センター) Exametrika 荘島(大学入試センター) 21 21
Can-Do Chart (例) さて,最後にしますが,NTTでテストデータを分析することの最終目的は,このようなcan-do chartを作ることです. このチャートでは,ここに,各項目の具体的な問題内容が書かれています. ただし,いまは,黒く塗りつぶしてあります. 各項目は,測定領域,項目タイプ,問われている学力内容,基本的な統計情報などについて記述されています. 小さな項目バンクと言ってもいいです. この項目バンクに,NTTの分析結果を追加します. ここには,項目参照プロファイルと,今回は説明しませんでしたが,IRP指標(IRP indices)が掲載されています. IRP指標は,IRPの形状を要約している統計量(statistics)です. すると,各潜在ランクに所属する受験者が,どのような項目群に正答できて,どのような項目群に誤答しているかが見えてきます. すると,各潜在ランクのタイトルやcan-do statementを記述することができます. このように,各段階に応じた学力内容を説明し,テストのアカウンタビリティを高めることが,テストが社会的責任を果たす上で重要だと考えています. 実は,Can-do chartを作るのが本当の目的であり,NTTは,単なるcan-do chartの作成支援ツールだと思っています. 実際に,TOEFLでは,IRTを用いていますが,連続尺度を適当な区分に区切って段階評価ができるようなcan-do chartを作成しています. しかし,連続尺度をどこで分割するかについては難しい問題があり,また,最終的に段階評価を行うのに,連続尺度を仮定するのは,方法論上あまり美しいことではありません. また,そもそもテストは連続尺度上で評価できるほどの解像度がありません. したがって,順序尺度を仮定したNTTを用いてテストを標準化する意義が出てくると思います. 僕の発表は終わります. ご清聴ありがとうございました. 22 22