Download presentation
Presentation is loading. Please wait.
1
潜在ランク理論に基づく コンピュータアダプティブテスト
ニューラルテスト理論による大問形式の英語読解問題のデータ分析 日本テスト学会第8回大会 潜在ランク理論に基づく コンピュータアダプティブテスト ○木村 哲夫*,**, 永岡慶三** *新潟青陵大学看護福祉心理学部, **早稲田大学大学院人間科学研究科 日本テスト学会第9回大会 2011年9月11日 ○木村哲夫・永岡慶三
2
CAT for Everyone MOTTO & Happy CAT
3
ニューラルテスト理論による大問形式の英語読解問題のデータ分析
日本テスト学会第8回大会 Outline 本研究の目的 CATの根源? CATアルゴリズム LRT-CATアルゴリズムの提案 今後の研究の方向性 ○木村哲夫・永岡慶三
4
ニューラルテスト理論による大問形式の英語読解問題のデータ分析
日本テスト学会第8回大会 本研究の目的 潜在ランク理論(latent rank theory, LRT)に基づくCATアルゴリズムの提案 今後の研究の方向性を示す 本研究において、LRTはニューラルテスト理論(neural test theory, NTT: Shojima, 2007)のことをさす。 ○木村哲夫・永岡慶三
5
ニューラルテスト理論による大問形式の英語読解問題のデータ分析
日本テスト学会第8回大会 CATの根源 Paper-Pencil Test Computer Assisted Test Computer Adaptive Test コンピュータを利用したテスト実施の個別化と効率化 ① 受験者の能力に合った問題の出題 ② 時間短縮と測定精度の向上 Adaptive Test Self-scoring flexilevel test (Lord, 1971) Binet’s IQ test (Binet’s & Simon, 1905) ○木村哲夫・永岡慶三
6
Flexilevel Test (Lord,1971)
The middle difficulty item, number 11 in difficulty-order ① ② ③ ④ 1. A slightly easier item, number 10 in difficulty-order ① ② ③ ④ 1. A slightly harder item, number 12 in difficulty-order 2. A slightly easier item, number 9 in difficulty-order 2. A slightly harder item, number 13 in difficulty-order 3. ・ 10. The easiest item, number 1 in difficulty-order 10. The hardest item, number 21 in difficulty-order ① ② ③ ④ ① ② ③ ④ ① ② ③ ④ ① ② ③ ④ ① ② ③ ④ ① ② ③ ④ ① ② ③ ④ ① ② ③ ④ ① ② ③ ④ ① ② ③ ④ ① ② ③ ④
7
Computerized Implementation of a Flexilevel Test and Its Comparison with a Bayesian Computerized Adaptive Test (DeAyala & Koch,1986) シミュレーションデータにより、flexilevel CATが、ベイズ推定法に基づくIRT-CATの結果と比較して遜色ないことを示す。 IRTに基づき項目特性を求められたアイテムバンクを用意しなくてもflexilevel CATは実行可能であり、教室環境で有効な方法であることを示唆。
8
Binet’s IQ test (Binet’s & Simon,1905)
The First Adaptive Test
9
Stratified adaptive test (Weiss,1973)
10
CAT-Pharmacology (Halktis,1993)
11
LRT-CATアルゴリズムの提案(前提)
ニューラルテスト理論による大問形式の英語読解問題のデータ分析 日本テスト学会第8回大会 LRT-CATアルゴリズムの提案(前提) LRTは順序尺度上にテストを標準化する理論 項目の特性は項目参照プロフィル(item reference profile, IRP)で表されるが、これはIRTの場合(項目特性曲線を描くこと)と似ているところが多い。 受験者の特性を、一義的に能力推定値をランクとしてとらえるだけでなく(LRTで受験者の潜在ランクを順序尺度上に推定することは、IRTで潜在能力を連続変数上の一つの値で推定することと同義である)、ランクメンバーシッププロファイル(rank membership profile, RMP)として多義的に表現できる。 ○木村哲夫・永岡慶三
12
LRTの項目特性のとらえ方 項目参照プロファイル(IRP) プレイスメントテストの分析:木村 (2009a)
13
LRTの受験者能力のとらえ方 ランク・メンバーシップ・プロファイル(RMP)
プレイスメントテストの分析:木村 (2009a) RMPは、受検者や先生にフィードバックすべき教育診断情報として活用することができる。(植野・荘島, 2010)
14
ニューラルテスト理論による大問形式の英語読解問題のデータ分析
日本テスト学会第8回大会 LRT-CATアルゴリズムの提案 中央のランクの項目を中心に各ランクに所属する項目を1つずつ5項目選び実施 初期暫定RMPの算出 推定ランク±1の範囲で 暫定RMPとIRPの差分ベクトルの積和平均が 最小となるものを選択し実施 暫定RMPの算出 終了条件を 満たす? YES NO 終了 ○木村哲夫・永岡慶三
15
ニューラルテスト理論による大問形式の英語読解問題のデータ分析
日本テスト学会第8回大会 LRT-CATアルゴリズムの提案 How to start 中央のランクの項目を中心に各ランクに所属する項目を1つずつ5項目選び実施 多様なランクに所属する項目をTestlet として実施 このTestlet の結果を受験者の初期RMPとする ○木村哲夫・永岡慶三
16
ニューラルテスト理論による大問形式の英語読解問題のデータ分析
日本テスト学会第8回大会 LRT-CATアルゴリズムの提案 How to select the next item 推定ランク±1の範囲で 暫定RMPとIRPの差分ベクトルの積和平均が 最小となるものを選択し実施 IRP ItemID R01 R02 R03 R04 R05 Item001 0.27 0.41 0.59 0.70 0.75 Item002 0.42 0.47 0.58 0.72 0.82 Item003 0.24 0.36 0.49 0.60 Item004 0.28 0.32 0.56 0.66 Item005 0.50 0.81 ・・・ Item200 0.73 0.89 0.94 0.95 ○木村哲夫・永岡慶三
17
ニューラルテスト理論による大問形式の英語読解問題のデータ分析
日本テスト学会第8回大会 LRT-CATアルゴリズムの提案 How to select the next item 推定ランク±1の範囲で 暫定RMPとIRPの差分ベクトルの積和平均が 最小となるものを選択し実施 IRP D01 D02 D03 D04 IRPの差分ベクトル ItemID R01 R02 R03 R04 R05 Item001 0.27 0.41 0.59 0.70 0.75 Item002 0.42 0.47 0.58 0.72 0.82 Item003 0.24 0.36 0.49 0.60 Item004 0.28 0.32 0.56 0.66 Item005 0.50 0.81 ・・・ Item200 0.73 0.89 0.94 0.95 ItemID D01 D02 D03 D04 Item001 0.14 0.18 0.11 0.04 Item002 0.05 0.10 Item003 0.09 0.13 Item004 Item005 0.06 ・・・ Item200 0.08 0.01 ○木村哲夫・永岡慶三
18
ニューラルテスト理論による大問形式の英語読解問題のデータ分析
日本テスト学会第8回大会 LRT-CATアルゴリズムの提案 How to select the next item 推定ランク±1の範囲で 暫定RMPとIRPの差分ベクトルの積和平均が 最小となるものを選択し実施 IRPの差分ベクトル ItemID D01 D02 D03 D04 Item001 0.14 0.18 0.11 0.04 Item002 0.05 0.10 Item003 0.09 0.13 Item004 Item005 0.06 ・・・ Item200 0.08 0.01 ① R01~ R04 と D01~D04 の積和 ② R02~ R05 と D01~D04 の積和 ①と②の平均が最小になるものを次の項目として選択 ○木村哲夫・永岡慶三
19
ニューラルテスト理論による大問形式の英語読解問題のデータ分析
日本テスト学会第8回大会 LRT-CATアルゴリズムの提案 How to select the next item 推定ランク±1の範囲で 暫定RMPとIRPの差分ベクトルの積和平均が 最小となるものを選択し実施 Van der Linden (1998)の中に出てくるMaximum Expected Posterior Weighted Information という方法に相当し、おそらく、CATの初期(RMPなだらか)には、全般に識別力が高いIRPを持つ項目が選択され、CAT終期(RMPがとがってくる)には、局所的に(受験者の暫定ランクの付近で)急峻なIRPを持つ項目が選択されると思われる(荘島, personal communication, May 9, 2010)。 ○木村哲夫・永岡慶三
20
ニューラルテスト理論による大問形式の英語読解問題のデータ分析
日本テスト学会第8回大会 LRT-CATアルゴリズムの提案 How to end ① 暫定RMPの変化が一定値以下になった場合 ② SEが一定以下の値になった場合 ③ 実施項目数が一定数に達した場合 これらの条件を組み合わせてどのような条件でCATを終了させるのが最適かは、シミュレーションによって確認することが可能である。 90~95%以上の受験者が終了条件に達する項目数を割り出し、またシミュレーションの結果、90~95%以上が真値とのずれが1ランク以内に収まる項目数を割り出し、全員にその項目数を受験させるというのが現実的であろう。 ○木村哲夫・永岡慶三
21
ニューラルテスト理論による大問形式の英語読解問題のデータ分析
日本テスト学会第8回大会 今後の研究の方向性 LRTに基づき分析した英語テストのアイテムバンク(木村・永岡, 2010)の一部を使い、LRT-CATを実施する場合に、何項目で終了させるかについて、シミュレーションデータから探る。 Moodle上でLRTに基づくCATを実行するモジュール(秋山・木村・荘島, 2011)により、実際にLRT-CATを実施し、終了時の測定誤差やRMPの変化がどの程度であったか確認する。 項目選択条件に改良を加え、時間短縮と測定精度の向上だけでなく、受験者の自己効力感をそがずに、学習に対するモチベーションを維持できる工夫をする。 ○木村哲夫・永岡慶三
22
ニューラルテスト理論による大問形式の英語読解問題のデータ分析
日本テスト学会第8回大会 今後の研究の方向性 項目選択方法については、シミュレーションによる検討が必要(今回の方法はIRTで言えば、bパラメータについては大まかに、aパラメータを詳細に吟味したものといえる)。 「暫定RMPとIRPの積和」から困難度および情報量を重視した選択方法、単純に推定ランクとIRP指標βを使う方法、これらを今回の方法と組み合わせた方法などと比較する。 今回の方法で、各項目の使用頻度はどうだったのか検討し、アイテムバンクをどのように拡充するか? ○木村哲夫・永岡慶三
23
ニューラルテスト理論による大問形式の英語読解問題のデータ分析
日本テスト学会第8回大会 引用文献 秋山實・木村哲夫・荘島宏二郎(2011) LRTモデルに基づくCATの開発とシミュレーションに よる特性解析.日本テスト学会 第9回大会 発表論文抄録集. Binet, A., & Simon, Th. A. (1905). Méthode nouvelle pour le diagnostic du niveau intellectuel des anormaux. L'Année Psychologique, 11, DeAyala, R. J. & Koch, W. R. (1986). A Computerized Implementation of a Flexilevel Test and Its Comparison with a Bayesian Computerized Adaptive Test. (ERIC, ED269437). Halkitis, P. N. (1993). A computer-adaptive testing algorithm. Rasch Measurement Transactions 6:4, 木村哲夫・永岡慶三(2010)Moodleによる小規模CAT構築に向けて1:アイテムバンクの 拡充.JSET26講演論文集, Kimura, T. & Ohnishi, A. (2011). Moodle UCAT beta version: a computer-adaptive test module based on Rasch model. JALTCALL Linacre, J. M. (1987). UCAT: a BASIC computer-adaptive testing program. MESA Psychometric Laboratory. (ERIC ED ). Lord, F. M. (1971). The self-scoring flexilevel test. Journal of Educational Measurement, 8, Shojima, K. (2007). Neural test theory. DNC Research Note, Shojima, K. (2008-). Exametrika Ver. 4.3 [Computer software]. Retrieved July 7, 2010, from Van der Linden, W. J. (1998). Bayesian item selection criteria for adaptive testing. Psychometrika, 63, ○木村哲夫・永岡慶三
24
ニューラルテスト理論による大問形式の英語読解問題のデータ分析
日本テスト学会第8回大会 ご静聴ありがとうございました。 謝辞: 本研究の一部は、科学研究費補助金基盤研究(C)(課題番号: )を利用して行われました。 データ分析に関して、大学入試センター研究開発部の荘島 宏二郎准教授より多くの助言をいただきました。ここに心 より感謝申し上げます。 ○木村哲夫・永岡慶三
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.