LRTモデルに基づくCATの開発と シミュレーションによる特性解析 ○秋山 實 東北大学大学院(院生) 木村 哲夫 新潟青陵大学 荘島 宏二郎 大学入試センター 「りんうぇい」が「データ数がエムシーエムシーほう」による「アイアールティ」パラメータ推定にあたえる影響」について はっぴょうします。 この研究は、東北大学大学院教育情報学教育部博士3年の課程の秋山と同じく研究生のりんうぇいの共同研究です。
研究の背景・目的 背景 ・潜在ランク理論(以降LRTと呼ぶ)が荘島によって提案 された(荘島,2007a;ニューラルテスト理論) ・しかし,これに基づくアダプティブテスト(以降CATと呼ぶ) が未だ存在しない ・項目応答理論に基づくCATよりも小規模利用に適して いるのではないか?(木村,2010) ・プレースメントテストにLRTに基づくCAT (以降LRT-CATと呼ぶ)を使うニーズが出てきた 目的 ・LRT-CATを開発する ・その特性を調べる 項目パラメータの推定は、アイテムバンクを「こうちく」するうえで欠かせないステップです。 パラメータ推定に必要なデータ数は、多いほど推定の誤差が少なくなる傾向があるといわれています。 しかし、受験者を集めてテストを受験させ、データを取得するにはコストがかかります。 小規模な教育機関では、受験者を多数確保できないばあいもあります。 パラメータ推定に必要なデータ数はどこまで少なくできるか?ということをあきらかにしたいと考えました。
LRTモデルとは テストの解像度は連続値で表示するほど高くな い(荘島,2007a) ・項目応答理論では,-∞から+∞の連続値で表現 5から20程度のランク数で能力を表わす ・受験者の能力は,Rank と Rank Membership Profile で表わす(以降RMPと呼ぶ) ・項目の特性は,Item Reference Profileで表わす (以降IRPと呼ぶ) データ数が少ない方がコストがかからなくて良いと考える一方で、データ数が少ないと分析のツールが使えない場合があります。 BILOG-MGで200人のデータを推定すると途中で止まってしまうことがあります。他のツールでも同じことが起きると思います。 少ないデータでもパラメータの推定が確実にできることが必要です。 エムシーエムシー法では、少ないデータでもパラメータ推定ができるのではないかと考え、シミュレーションをおこないました。
RMPの例 本研究の目的は、エムシーエムシー法で、二値のツーパラメータロジスティックモデルのパラメータの項目パラメータを推定するとき、 どの程度少ないデータまで推定が可能か、また、その時の測定誤差がどれくらいになるかを明らかにすることです。
IRPの例 本研究の目的は、エムシーエムシー法で、二値のツーパラメータロジスティックモデルのパラメータの項目パラメータを推定するとき、 どの程度少ないデータまで推定が可能か、また、その時の測定誤差がどれくらいになるかを明らかにすることです。
LRTモデルの正答確率 ・潜在ランクqjを与える場合 p(Uij=1) = IRPi[qj] ・RMPjを与える場合 Q p(Uij=1) = Σ(IRPi[qj] * RMPj[qj]) q=1 Q :ランク数 Uij :回答(正答=1,誤答=0) i :アイテム j :受験者 本研究の目的は、エムシーエムシー法で、二値のツーパラメータロジスティックモデルのパラメータの項目パラメータを推定するとき、 どの程度少ないデータまで推定が可能か、また、その時の測定誤差がどれくらいになるかを明らかにすることです。
方法 LRT-CATをMoodle1.9のモジュールとして開発 ・Moodleの「問題バンク」のアイテムを利用する ・ LRT-CATモジュールの関数を利用してシミュレータを 開発,シミュレーションを実施 ・受験者のRMPとアイテムバンク(IRP)を与える ・LRTモデルの正答確率と一様乱数を用いてモンテカルロ・ シミュレーションを行う ・受験者1人あたり100回繰り返し受験させる 研究方法は、次のとおりです。 まず、村木が開発したRESGEN4を使って、受験シミュレーションデータを作成します。 30人、50人、100人、150人、200人、400人、800人のデータをそれぞれ20セット作成します。 次にWinBUGS1.4.3を用いてエムシーエムシー法でパラメータを推定します。 WinBUGSは、ギブスサンプラーを使ってモデルからの乱数を発生しますが、それを非常に多くの回数行うことでモデルの分布に収れんして、モデルのパラメータを推定することができます。
LRT-CATの仕様 初期条件 ・β値で5アイテムを選択しテストレットとして出題 初期条件 ・β値で5アイテムを選択しテストレットとして出題 項目選択 ・Maximum Expectation Posterior Waited Information (van der Linden,1998)のLRT版(木村・永岡,2011) 能力推定 ・Muximum LikelihoodのLRT版(荘島,2007b) 終了条件 ・RMPの暫定推定値の変化分の平方和平方根 SQRT(Σ(RMPn-RMPn-1)2 )<0.01 (木村・永岡,2011) ・受験項目数>50アイテム RESGEN4でシミュレーションデータを作成しますが、テストの構成は、 困難度がマイナス2.5からプラス2.5まで0.5間隔で11種類、識別力は0.6から1.2まで0.2間隔で4種類、その組み合わせ11種類×4種類の44種類のテスト項目を使って44問で構成します。 回答は正答が1、誤答が0のデータを生成し、同時にその時の能力値の真値も出力されます。 シミュレーションデータを同じ条件で、乱数を発生するためのシードだけ変えて、20セット生成します。 この20セットは測定誤差を調べるため、二乗平均偏差を指標として使います。二乗平均偏差は、真値と推定値の差の二乗を試行数で割って平方根を取ったものです。
LRT-CAT:受験開始画面 RESGEN4でシミュレーションデータを作成しますが、テストの構成は、 RESGEN4でシミュレーションデータを作成しますが、テストの構成は、 困難度がマイナス2.5からプラス2.5まで0.5間隔で11種類、識別力は0.6から1.2まで0.2間隔で4種類、その組み合わせ11種類×4種類の44種類のテスト項目を使って44問で構成します。 回答は正答が1、誤答が0のデータを生成し、同時にその時の能力値の真値も出力されます。 シミュレーションデータを同じ条件で、乱数を発生するためのシードだけ変えて、20セット生成します。 この20セットは測定誤差を調べるため、二乗平均偏差を指標として使います。二乗平均偏差は、真値と推定値の差の二乗を試行数で割って平方根を取ったものです。
LRT-CAT:受験画面 RESGEN4でシミュレーションデータを作成しますが、テストの構成は、 RESGEN4でシミュレーションデータを作成しますが、テストの構成は、 困難度がマイナス2.5からプラス2.5まで0.5間隔で11種類、識別力は0.6から1.2まで0.2間隔で4種類、その組み合わせ11種類×4種類の44種類のテスト項目を使って44問で構成します。 回答は正答が1、誤答が0のデータを生成し、同時にその時の能力値の真値も出力されます。 シミュレーションデータを同じ条件で、乱数を発生するためのシードだけ変えて、20セット生成します。 この20セットは測定誤差を調べるため、二乗平均偏差を指標として使います。二乗平均偏差は、真値と推定値の差の二乗を試行数で割って平方根を取ったものです。
LRT-CAT:受験結果画面 RESGEN4でシミュレーションデータを作成しますが、テストの構成は、 RESGEN4でシミュレーションデータを作成しますが、テストの構成は、 困難度がマイナス2.5からプラス2.5まで0.5間隔で11種類、識別力は0.6から1.2まで0.2間隔で4種類、その組み合わせ11種類×4種類の44種類のテスト項目を使って44問で構成します。 回答は正答が1、誤答が0のデータを生成し、同時にその時の能力値の真値も出力されます。 シミュレーションデータを同じ条件で、乱数を発生するためのシードだけ変えて、20セット生成します。 この20セットは測定誤差を調べるため、二乗平均偏差を指標として使います。二乗平均偏差は、真値と推定値の差の二乗を試行数で割って平方根を取ったものです。
CATの評価基準 推定誤差 ・測定の性能 ・ばらつきも重要 推定誤差 ・測定の性能 ・ばらつきも重要 受験アイテム数 ・テストの実施可否を決定付ける場合もある ・同じ推定精度なら少ない方がよい RESGEN4でシミュレーションデータを作成しますが、テストの構成は、 困難度がマイナス2.5からプラス2.5まで0.5間隔で11種類、識別力は0.6から1.2まで0.2間隔で4種類、その組み合わせ11種類×4種類の44種類のテスト項目を使って44問で構成します。 回答は正答が1、誤答が0のデータを生成し、同時にその時の能力値の真値も出力されます。 シミュレーションデータを同じ条件で、乱数を発生するためのシードだけ変えて、20セット生成します。 この20セットは測定誤差を調べるため、二乗平均偏差を指標として使います。二乗平均偏差は、真値と推定値の差の二乗を試行数で割って平方根を取ったものです。
シミュレーション(1) テスト ・英語(語彙・文法) 受験者 ・117名 アイテム ・104アイテム テスト ・英語(語彙・文法) 受験者 ・117名 アイテム ・104アイテム シミュレーション条件 ・実際のテストの回答データ ・1受験者あたり100回繰り返し RESGEN4でシミュレーションデータを作成しますが、テストの構成は、 困難度がマイナス2.5からプラス2.5まで0.5間隔で11種類、識別力は0.6から1.2まで0.2間隔で4種類、その組み合わせ11種類×4種類の44種類のテスト項目を使って44問で構成します。 回答は正答が1、誤答が0のデータを生成し、同時にその時の能力値の真値も出力されます。 シミュレーションデータを同じ条件で、乱数を発生するためのシードだけ変えて、20セット生成します。 この20セットは測定誤差を調べるため、二乗平均偏差を指標として使います。二乗平均偏差は、真値と推定値の差の二乗を試行数で割って平方根を取ったものです。
受験者のRMP(1) 本研究の目的は、エムシーエムシー法で、二値のツーパラメータロジスティックモデルのパラメータの項目パラメータを推定するとき、 どの程度少ないデータまで推定が可能か、また、その時の測定誤差がどれくらいになるかを明らかにすることです。
アイテムバンクの特性(1) 本研究の目的は、エムシーエムシー法で、二値のツーパラメータロジスティックモデルのパラメータの項目パラメータを推定するとき、 どの程度少ないデータまで推定が可能か、また、その時の測定誤差がどれくらいになるかを明らかにすることです。
シミュレーション(1)の結果 RESGEN4でシミュレーションデータを作成しますが、テストの構成は、 困難度がマイナス2.5からプラス2.5まで0.5間隔で11種類、識別力は0.6から1.2まで0.2間隔で4種類、その組み合わせ11種類×4種類の44種類のテスト項目を使って44問で構成します。 回答は正答が1、誤答が0のデータを生成し、同時にその時の能力値の真値も出力されます。 シミュレーションデータを同じ条件で、乱数を発生するためのシードだけ変えて、20セット生成します。 この20セットは測定誤差を調べるため、二乗平均偏差を指標として使います。二乗平均偏差は、真値と推定値の差の二乗を試行数で割って平方根を取ったものです。
シミュレーション(2) シミュレーション条件 ・人工的なデータを使用 受験者 ・受験者のランクを中心に正規分布となるRMPを与える シミュレーション条件 ・人工的なデータを使用 受験者 ・受験者のランクを中心に正規分布となるRMPを与える アイテムバンク ・項目応答理論の識別力0.5,1.0,1.5,2.0に相当する 項目特性曲線に近いIRPを持つアイテム ・beta毎に10アイテム ・ランク5 X 識別力4 X 10アイテム = 200アイテム RESGEN4でシミュレーションデータを作成しますが、テストの構成は、 困難度がマイナス2.5からプラス2.5まで0.5間隔で11種類、識別力は0.6から1.2まで0.2間隔で4種類、その組み合わせ11種類×4種類の44種類のテスト項目を使って44問で構成します。 回答は正答が1、誤答が0のデータを生成し、同時にその時の能力値の真値も出力されます。 シミュレーションデータを同じ条件で、乱数を発生するためのシードだけ変えて、20セット生成します。 この20セットは測定誤差を調べるため、二乗平均偏差を指標として使います。二乗平均偏差は、真値と推定値の差の二乗を試行数で割って平方根を取ったものです。
受験者のRMP(2) 本研究の目的は、エムシーエムシー法で、二値のツーパラメータロジスティックモデルのパラメータの項目パラメータを推定するとき、 どの程度少ないデータまで推定が可能か、また、その時の測定誤差がどれくらいになるかを明らかにすることです。
アイテムバンクの特性(2) 本研究の目的は、エムシーエムシー法で、二値のツーパラメータロジスティックモデルのパラメータの項目パラメータを推定するとき、 どの程度少ないデータまで推定が可能か、また、その時の測定誤差がどれくらいになるかを明らかにすることです。
シミュレーション(2)の結果(測定誤差) RESGEN4でシミュレーションデータを作成しますが、テストの構成は、 RESGEN4でシミュレーションデータを作成しますが、テストの構成は、 困難度がマイナス2.5からプラス2.5まで0.5間隔で11種類、識別力は0.6から1.2まで0.2間隔で4種類、その組み合わせ11種類×4種類の44種類のテスト項目を使って44問で構成します。 回答は正答が1、誤答が0のデータを生成し、同時にその時の能力値の真値も出力されます。 シミュレーションデータを同じ条件で、乱数を発生するためのシードだけ変えて、20セット生成します。 この20セットは測定誤差を調べるため、二乗平均偏差を指標として使います。二乗平均偏差は、真値と推定値の差の二乗を試行数で割って平方根を取ったものです。
シミュレーション(2)の結果(受験項目数) RESGEN4でシミュレーションデータを作成しますが、テストの構成は、 困難度がマイナス2.5からプラス2.5まで0.5間隔で11種類、識別力は0.6から1.2まで0.2間隔で4種類、その組み合わせ11種類×4種類の44種類のテスト項目を使って44問で構成します。 回答は正答が1、誤答が0のデータを生成し、同時にその時の能力値の真値も出力されます。 シミュレーションデータを同じ条件で、乱数を発生するためのシードだけ変えて、20セット生成します。 この20セットは測定誤差を調べるため、二乗平均偏差を指標として使います。二乗平均偏差は、真値と推定値の差の二乗を試行数で割って平方根を取ったものです。 RMPを使用した場合 ランクを使用した場合
まとめ LRT-CATの特性 ・受験項目数 ・ 結果のまとめです。 WinBUGSを使ってエムシーエムシー法により、二値のツーパラメータロジスティックモデルの項目パラメータを推定するとき、以下のことが分かりました。 項目パラメータの推定誤差はデータ数が少なくなるにつれて大きくなる それは、次の式で表すことができる。 RMSDa=0.80-0.23*log(N) N:データ数 RMSDb=0.87-0.25*log(N) データ数は、項目パラメータの推定だけを目的とする場合、用途にもよりますが、150から200程度でも可能であり、推定自体は30でも可能であるということが分かりました。
今後の課題 LRT-CATの特性を網羅的に明らかにする ・同じランクであってRMPの形状が異なる受験者に対する LRT-CATの挙動をあきらかにする 最適なアルゴリズムはどれか?を明らかにする ・項目選択:MFI,KL,MEI ・能力推定:Bayes IRTに基づくCATと比較する ・構成要素毎に相当するアルゴリズムを用意 実地のテストへ適用・評価する ・設定機能,テスト結果のエクスポート機能を付加する 最後に、今後の課題です。 他の試行結果では、推定誤差が0.01から0.04というものもあります。 今回のシミュレーション実験では、それよりも推定誤差が一桁程度大きかったので、この原因を明らかにする必要があります。 初期値の与え方、モデルの記述方法などについて、様々なケースを試しましたが、まだ原因は分かっていません。 プログラムの問題かもしれませんが、WinBUGSのソースコードは公開されていないため、独自にプログラムを作成して、推定精度をあげるようチャレンジするつもりです。
参考文献 秋山實(2010)シミュレーションに基づくインハウスCATシステ ムの設計ツール.日本テスト学会第8回大会発表論文抄録集, 148-149. 木村哲夫・永岡慶三(2011) 潜在ランク理論に基づくコンピュー タアダプティブテスト.日本テスト学会第9回大会発表論文抄録 集. Shojima, K. (2007a). Neural test theory. DNC Reasearch Note, 07-02. Shojima, K. (2007b). Maximum Likelihood Estimation of Latent Rank under Neural Test Model. DNC Reasearch Note, 07-04. Van der Linden, W. J. (1998). Baysian item selection criteria for adaptive testing. Psychometrika, 63, 201-216. 以上で発表を終わります。