LRTモデルに基づくCATの開発とシミュレーションによる特性解析

LRTモデルに基づくCATの開発とシミュレーションによる特性解析
○秋山　實　　　東北大学大学院（院生）　　　　　　　木村　哲夫　　新潟青陵大学　荘島　宏二郎　大学入試センター「りんうぇい」が「データ数がエムシーエムシーほう」による「アイアールティ」パラメータ推定にあたえる影響」についてはっぴょうします。この研究は、東北大学大学院教育情報学教育部博士3年の課程の秋山と同じく研究生のりんうぇいの共同研究です。

研究の背景・目的背景・潜在ランク理論（以降LRTと呼ぶ）が荘島によって提案　された（荘島，２００７a；ニューラルテスト理論）・しかし，これに基づくアダプティブテスト（以降CATと呼ぶ）　が未だ存在しない・項目応答理論に基づくCATよりも小規模利用に適して　いるのではないか？（木村，２０１０）・プレースメントテストにLRTに基づくCAT 　（以降LRT-CATと呼ぶ）を使うニーズが出てきた目的・LRT-CATを開発する・その特性を調べる項目パラメータの推定は、アイテムバンクを「こうちく」するうえで欠かせないステップです。パラメータ推定に必要なデータ数は、多いほど推定の誤差が少なくなる傾向があるといわれています。しかし、受験者を集めてテストを受験させ、データを取得するにはコストがかかります。小規模な教育機関では、受験者を多数確保できないばあいもあります。パラメータ推定に必要なデータ数はどこまで少なくできるか？ということをあきらかにしたいと考えました。

LRTモデルとはテストの解像度は連続値で表示するほど高くない（荘島，２００７a）・項目応答理論では，-∞から+∞の連続値で表現
５から２０程度のランク数で能力を表わす・受験者の能力は，Rank と Rank Membership Profile 　で表わす（以降RMPと呼ぶ）・項目の特性は，Item Reference Profileで表わす　（以降IRPと呼ぶ）データ数が少ない方がコストがかからなくて良いと考える一方で、データ数が少ないと分析のツールが使えない場合があります。 BILOG-MGで200人のデータを推定すると途中で止まってしまうことがあります。他のツールでも同じことが起きると思います。少ないデータでもパラメータの推定が確実にできることが必要です。エムシーエムシー法では、少ないデータでもパラメータ推定ができるのではないかと考え、シミュレーションをおこないました。

RMPの例本研究の目的は、エムシーエムシー法で、二値のツーパラメータロジスティックモデルのパラメータの項目パラメータを推定するとき、
どの程度少ないデータまで推定が可能か、また、その時の測定誤差がどれくらいになるかを明らかにすることです。

IRPの例本研究の目的は、エムシーエムシー法で、二値のツーパラメータロジスティックモデルのパラメータの項目パラメータを推定するとき、
どの程度少ないデータまで推定が可能か、また、その時の測定誤差がどれくらいになるかを明らかにすることです。

LRTモデルの正答確率・潜在ランクqjを与える場合 p(Uij=1) = IRPi[qj] ・RMPjを与える場合 Q
　　　p(Uij=1)　= Σ（IRPi[qj] * RMPj[qj]）　　　　　　　　　　　　 q=1 Q ：ランク数 Uij ：回答（正答=1，誤答=0）ｉ　:アイテム　　　　　 j ：受験者本研究の目的は、エムシーエムシー法で、二値のツーパラメータロジスティックモデルのパラメータの項目パラメータを推定するとき、どの程度少ないデータまで推定が可能か、また、その時の測定誤差がどれくらいになるかを明らかにすることです。

方法 LRT-CATをMoodle1.9のモジュールとして開発・Moodleの「問題バンク」のアイテムを利用する・
LRT-CATモジュールの関数を利用してシミュレータを開発，シミュレーションを実施・受験者のRMPとアイテムバンク（ＩＲＰ）を与える・LRTモデルの正答確率と一様乱数を用いてモンテカルロ・　シミュレーションを行う・受験者1人あたり１００回繰り返し受験させる研究方法は、次のとおりです。まず、村木が開発したRESGEN4を使って、受験シミュレーションデータを作成します。３０人、５０人、１００人、１５０人、２００人、４００人、８００人のデータをそれぞれ20セット作成します。次にWinBUGS1.4.3を用いてエムシーエムシー法でパラメータを推定します。 WinBUGSは、ギブスサンプラーを使ってモデルからの乱数を発生しますが、それを非常に多くの回数行うことでモデルの分布に収れんして、モデルのパラメータを推定することができます。

LRT-CATの仕様初期条件・β値で5アイテムを選択しテストレットとして出題
初期条件・β値で5アイテムを選択しテストレットとして出題項目選択・Maximum Expectation Posterior Waited Information （van der Linden,1998）のLRT版（木村・永岡，２０１１）能力推定・Muximum LikelihoodのLRT版（荘島，２００７b）終了条件・RMPの暫定推定値の変化分の平方和平方根　SQRT（Σ（RMPn-RMPn-1）2 ）＜０．０１　（木村・永岡，２０１１）・受験項目数＞５０アイテム　 RESGEN4でシミュレーションデータを作成しますが、テストの構成は、困難度がマイナス2.5からプラス2.5まで0.5間隔で11種類、識別力は0.6から1.2まで0.2間隔で4種類、その組み合わせ11種類×4種類の44種類のテスト項目を使って44問で構成します。回答は正答が１、誤答が０のデータを生成し、同時にその時の能力値の真値も出力されます。シミュレーションデータを同じ条件で、乱数を発生するためのシードだけ変えて、20セット生成します。この20セットは測定誤差を調べるため、二乗平均偏差を指標として使います。二乗平均偏差は、真値と推定値の差の二乗を試行数で割って平方根を取ったものです。

LRT-CAT：受験開始画面 RESGEN4でシミュレーションデータを作成しますが、テストの構成は、
　 RESGEN4でシミュレーションデータを作成しますが、テストの構成は、困難度がマイナス2.5からプラス2.5まで0.5間隔で11種類、識別力は0.6から1.2まで0.2間隔で4種類、その組み合わせ11種類×4種類の44種類のテスト項目を使って44問で構成します。回答は正答が１、誤答が０のデータを生成し、同時にその時の能力値の真値も出力されます。シミュレーションデータを同じ条件で、乱数を発生するためのシードだけ変えて、20セット生成します。この20セットは測定誤差を調べるため、二乗平均偏差を指標として使います。二乗平均偏差は、真値と推定値の差の二乗を試行数で割って平方根を取ったものです。

LRT-CAT：受験画面 RESGEN4でシミュレーションデータを作成しますが、テストの構成は、

LRT-CAT：受験結果画面 RESGEN4でシミュレーションデータを作成しますが、テストの構成は、

CATの評価基準推定誤差・測定の性能・ばらつきも重要
推定誤差・測定の性能・ばらつきも重要受験アイテム数・テストの実施可否を決定付ける場合もある・同じ推定精度なら少ない方がよい　 RESGEN4でシミュレーションデータを作成しますが、テストの構成は、困難度がマイナス2.5からプラス2.5まで0.5間隔で11種類、識別力は0.6から1.2まで0.2間隔で4種類、その組み合わせ11種類×4種類の44種類のテスト項目を使って44問で構成します。回答は正答が１、誤答が０のデータを生成し、同時にその時の能力値の真値も出力されます。シミュレーションデータを同じ条件で、乱数を発生するためのシードだけ変えて、20セット生成します。この20セットは測定誤差を調べるため、二乗平均偏差を指標として使います。二乗平均偏差は、真値と推定値の差の二乗を試行数で割って平方根を取ったものです。

シミュレーション（１）テスト・英語（語彙・文法）受験者・１１７名アイテム・１０４アイテム
テスト・英語（語彙・文法）受験者・１１７名アイテム・１０４アイテムシミュレーション条件・実際のテストの回答データ・1受験者あたり100回繰り返し　 RESGEN4でシミュレーションデータを作成しますが、テストの構成は、困難度がマイナス2.5からプラス2.5まで0.5間隔で11種類、識別力は0.6から1.2まで0.2間隔で4種類、その組み合わせ11種類×4種類の44種類のテスト項目を使って44問で構成します。回答は正答が１、誤答が０のデータを生成し、同時にその時の能力値の真値も出力されます。シミュレーションデータを同じ条件で、乱数を発生するためのシードだけ変えて、20セット生成します。この20セットは測定誤差を調べるため、二乗平均偏差を指標として使います。二乗平均偏差は、真値と推定値の差の二乗を試行数で割って平方根を取ったものです。

受験者のRMP（１）本研究の目的は、エムシーエムシー法で、二値のツーパラメータロジスティックモデルのパラメータの項目パラメータを推定するとき、どの程度少ないデータまで推定が可能か、また、その時の測定誤差がどれくらいになるかを明らかにすることです。

アイテムバンクの特性（１）本研究の目的は、エムシーエムシー法で、二値のツーパラメータロジスティックモデルのパラメータの項目パラメータを推定するとき、どの程度少ないデータまで推定が可能か、また、その時の測定誤差がどれくらいになるかを明らかにすることです。

シミュレーション（１）の結果 RESGEN4でシミュレーションデータを作成しますが、テストの構成は、
困難度がマイナス2.5からプラス2.5まで0.5間隔で11種類、識別力は0.6から1.2まで0.2間隔で4種類、その組み合わせ11種類×4種類の44種類のテスト項目を使って44問で構成します。回答は正答が１、誤答が０のデータを生成し、同時にその時の能力値の真値も出力されます。シミュレーションデータを同じ条件で、乱数を発生するためのシードだけ変えて、20セット生成します。この20セットは測定誤差を調べるため、二乗平均偏差を指標として使います。二乗平均偏差は、真値と推定値の差の二乗を試行数で割って平方根を取ったものです。

シミュレーション（２）シミュレーション条件・人工的なデータを使用受験者・受験者のランクを中心に正規分布となるRMPを与える
シミュレーション条件・人工的なデータを使用受験者・受験者のランクを中心に正規分布となるRMPを与えるアイテムバンク・項目応答理論の識別力0.5，1.0，1.5，2.0に相当する　項目特性曲線に近いＩＲＰを持つアイテム・beta毎に10アイテム・ランク5 X 識別力4 X 10アイテム＝ 200アイテム　 RESGEN4でシミュレーションデータを作成しますが、テストの構成は、困難度がマイナス2.5からプラス2.5まで0.5間隔で11種類、識別力は0.6から1.2まで0.2間隔で4種類、その組み合わせ11種類×4種類の44種類のテスト項目を使って44問で構成します。回答は正答が１、誤答が０のデータを生成し、同時にその時の能力値の真値も出力されます。シミュレーションデータを同じ条件で、乱数を発生するためのシードだけ変えて、20セット生成します。この20セットは測定誤差を調べるため、二乗平均偏差を指標として使います。二乗平均偏差は、真値と推定値の差の二乗を試行数で割って平方根を取ったものです。

受験者のRMP（２）本研究の目的は、エムシーエムシー法で、二値のツーパラメータロジスティックモデルのパラメータの項目パラメータを推定するとき、どの程度少ないデータまで推定が可能か、また、その時の測定誤差がどれくらいになるかを明らかにすることです。

アイテムバンクの特性（２）本研究の目的は、エムシーエムシー法で、二値のツーパラメータロジスティックモデルのパラメータの項目パラメータを推定するとき、どの程度少ないデータまで推定が可能か、また、その時の測定誤差がどれくらいになるかを明らかにすることです。

シミュレーション（２）の結果（測定誤差） RESGEN4でシミュレーションデータを作成しますが、テストの構成は、

シミュレーション（２）の結果（受験項目数）
　 RESGEN4でシミュレーションデータを作成しますが、テストの構成は、困難度がマイナス2.5からプラス2.5まで0.5間隔で11種類、識別力は0.6から1.2まで0.2間隔で4種類、その組み合わせ11種類×4種類の44種類のテスト項目を使って44問で構成します。回答は正答が１、誤答が０のデータを生成し、同時にその時の能力値の真値も出力されます。シミュレーションデータを同じ条件で、乱数を発生するためのシードだけ変えて、20セット生成します。この20セットは測定誤差を調べるため、二乗平均偏差を指標として使います。二乗平均偏差は、真値と推定値の差の二乗を試行数で割って平方根を取ったものです。 RMPを使用した場合ランクを使用した場合

まとめ LRT-CATの特性・受験項目数・結果のまとめです。
WinBUGSを使ってエムシーエムシー法により、二値のツーパラメータロジスティックモデルの項目パラメータを推定するとき、以下のことが分かりました。項目パラメータの推定誤差はデータ数が少なくなるにつれて大きくなるそれは、次の式で表すことができる。 RMSDa＝0.80－0.23＊log(N) N:データ数 RMSDb＝0.87－0.25＊log(N) データ数は、項目パラメータの推定だけを目的とする場合、用途にもよりますが、150から200程度でも可能であり、推定自体は30でも可能であるということが分かりました。

今後の課題 LRT-CATの特性を網羅的に明らかにする・同じランクであってRMPの形状が異なる受験者に対する　　LRT-CATの挙動をあきらかにする最適なアルゴリズムはどれか？を明らかにする・項目選択：MFI，KL，MEI ・能力推定：Bayes IRTに基づくCATと比較する・構成要素毎に相当するアルゴリズムを用意実地のテストへ適用・評価する・設定機能，テスト結果のエクスポート機能を付加する最後に、今後の課題です。他の試行結果では、推定誤差が0.01から0.04というものもあります。今回のシミュレーション実験では、それよりも推定誤差が一桁程度大きかったので、この原因を明らかにする必要があります。初期値の与え方、モデルの記述方法などについて、様々なケースを試しましたが、まだ原因は分かっていません。プログラムの問題かもしれませんが、WinBUGSのソースコードは公開されていないため、独自にプログラムを作成して、推定精度をあげるようチャレンジするつもりです。

参考文献秋山實（2010）シミュレーションに基づくインハウスCATシステムの設計ツール．日本テスト学会第8回大会発表論文抄録集，．木村哲夫・永岡慶三(2011) 潜在ランク理論に基づくコンピュータアダプティブテスト．日本テスト学会第9回大会発表論文抄録集． Shojima, K. (2007a). Neural test theory. DNC Reasearch Note, Shojima, K. (2007b). Maximum Likelihood Estimation of Latent Rank under Neural Test Model. DNC Reasearch Note, Van der Linden, W. J. (1998). Baysian item selection criteria for adaptive testing. Psychometrika, 63, 以上で発表を終わります。

LRTモデルに基づくCATの開発とシミュレーションによる特性解析

Similar presentations

Presentation on theme: "LRTモデルに基づくCATの開発とシミュレーションによる特性解析"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

LRTモデルに基づくCATの開発と シミュレーションによる特性解析

Similar presentations

Presentation on theme: "LRTモデルに基づくCATの開発と シミュレーションによる特性解析"— Presentation transcript:

Similar presentations

About project

フィードバック

LRTモデルに基づくCATの開発とシミュレーションによる特性解析

Presentation on theme: "LRTモデルに基づくCATの開発とシミュレーションによる特性解析"— Presentation transcript: