潜在ランク理論に基づく コンピュータアダプティブテスト

Slides:



Advertisements
Similar presentations
Maxent model への挑戦 - 驚きとドキドキ感の理論 - 大野ゆかり Phillips et al. (2006) Maximum entropy modeling of species geographic distributions. Ecological Modeling 190:
Advertisements

「CBT 技法研究会」(柳本武美先生の研究会) 「CBT 技法研究会」 コメント 林 篤裕 (大学入試センター研究開発部)
測定の標準誤差: 1点の差には意味があるか Rie Koizumi 小泉 利恵.
点対応の外れ値除去の最適化によるカメラの動的校正手法の精度向上
HOG特徴に基づく 単眼画像からの人体3次元姿勢推定
表計算ソフトで動作するNEMUROの開発
コメント 「ファセット・アプローチの 魅力とパワー」
レポートの作成 効果的な発表の仕方.
周育佳 東京外国語大学地域文化研究科博士後期課程
JavaによるCAI学習ソフトウェアの開発
分布の非正規性を利用した行動遺伝モデル開発
多数の疑似システムを用いた システム同定の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
ソシオン理論における 三者関係のシミュレーション
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
モード付き並列機械における オンラインスケジューリング
1中垣 啓○ ・ 2伊藤 朋子 1早稲田大学 ・ 2早稲田大学大学院 教育学研究科
マイクロシミュレーションにおける 可変属性セル問題と解法
ワークショップ ユーザーとメーカーの公開相談会
ニューラルテスト理論を利用した 教科テストの Can-do table 作成
小標本検査データを元にした 疲労破損率のベイズ推定
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
正規分布における ベーテ近似の解析解と数値解 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
Peace psychology in Japan from critical psychology perspective Takehiko Ito (Wako University) CS27-12 Theoretical Frameworks of Psychology in ICP2016.
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
Songzhu Gao, Tetsuya Takiguchi, Yasuo Ariki (Kobe University) 
指標の数と信頼性・ 内容的妥当性 指標の数は多いほうがよい.
アンテナ最適化技術と電波伝搬シミュレーション技術の高速化と高精度化
専門英語III 2012.
TIME SIGNAL: 集合知を利用した赤信号点灯時間の取得手法
遺伝的交叉を用いた 並列シミュレーテッドアニーリング 同志社大学工学部/大学院 廣安知之,三木光範,○小掠真貴
Data Clustering: A Review
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
プログラミングコンテストシステムへの 提出履歴データとその分析
統計学の入門講義における 達成動機,自己効力感,およびテスト成績の関連
Nightmare at Test Time: Robust Learning by Feature Deletion
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
ベイズ・アプローチによる グラフィカル・テスト理論
東京大学 大学院工学系研究科 産業機械工学専攻 村上 存
適応的近傍を持つ シミュレーテッドアニーリングの性能
第3章補足2 多変量データの記述 統計学基礎 2010年度.
日本語タイトル(point 28) 第4回DSANJ Bio Conference’19 Open
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
ベイズ最適化 Bayesian Optimization BO
Stepwise (ステップワイズ) 法による 説明変数 (入力変数・記述子・ 特徴量) の選択
B03 量子論理回路の 最適化に関する研究 西野哲朗,垂井淳,太田和夫,國廣昇 電気通信大学 情報通信工学科.
福岡工業大学 情報工学部 情報工学科 種田研究室 于 聡
依存関係の局所性を利用した プログラム依存グラフの 効率的な構築法
ニューラルテスト理論分析ソフト「neutet」の特徴と使い方
荘島宏二郎 大学入試センター研究開発部 The batch-type neural test model : A latent rank model with the mechanism of generative topographic mapping 荘島宏二郎.
北大MMCセミナー 第68回 附属社会創造数学センター主催 Date: 2017年6月15日(木) 16:30~18:00
統計力学と情報処理 ---自由エネルギーの生み出す新しい情報処理技術--- 2003年8月14日前半
日本語タイトル(point 28) 第4回DSANJ Bio Conference’19 Open
LRTモデルに基づくCATの開発と シミュレーションによる特性解析
情報工学科 05A2301 樽美 澄香 (Tarumi Sumika)
荘島宏二郎 大学入試センター研究開発部 ニューラルテスト理論 荘島宏二郎 大学入試センター研究開発部
森 裕一(岡山理科大学) 山本義郎(岡山大学自然科学研究科) 渡谷真吾,尾高好政(倉敷芸術科学大学) 垂水共之,田中 豊(岡山大学)
習熟度別クラス編成のための 英語基礎力判定標準化テスト 作成の試み
BSPモデルを用いた 最小スパニング木 情報論理工学研究室 02-1-47-134 小林洋亮.
弱電離気体プラズマの解析(LXXVI) スプラインとHigher Order Samplingを用いた 電子エネルギー分布のサンプリング
回帰テストにおける実行系列の差分の効率的な検出手法
AAMと回帰分析による視線、顔方向同時推定
FSE/ASE勉強会 A10:Software Maintenance II
実都市を対象とした初期マイクロデータの 推定手法の適用と検証
混合ガウスモデル Gaussian Mixture Model GMM
北大MMCセミナー 第100回 附属社会創造数学センター主催 Date: 2019年7月11日(木) 16:30~18:00
素子のばらつきが特性に与える影響を調べます。 ここでは,RCフィルタ回路の 抵抗の誤差1%,コンデンサの誤差5% とします。
教師がコミティマシンの場合のアンサンブル学習 三好 誠司(神戸高専) 原 一之(都立高専) 岡田 真人(東大,理研,さきがけ)
ニューラルテスト理論: 資格試験のためのテスト理論
Presentation transcript:

潜在ランク理論に基づく コンピュータアダプティブテスト ニューラルテスト理論による大問形式の英語読解問題のデータ分析 日本テスト学会第8回大会 2010.08.31 潜在ランク理論に基づく コンピュータアダプティブテスト ○木村 哲夫*,**, 永岡慶三** *新潟青陵大学看護福祉心理学部, **早稲田大学大学院人間科学研究科 日本テスト学会第9回大会 2011年9月11日 ○木村哲夫・永岡慶三

CAT for Everyone MOTTO & Happy CAT

ニューラルテスト理論による大問形式の英語読解問題のデータ分析 日本テスト学会第8回大会 2010.08.31 Outline 本研究の目的 CATの根源? CATアルゴリズム LRT-CATアルゴリズムの提案 今後の研究の方向性 ○木村哲夫・永岡慶三

ニューラルテスト理論による大問形式の英語読解問題のデータ分析 日本テスト学会第8回大会 2010.08.31 本研究の目的 潜在ランク理論(latent rank theory, LRT)に基づくCATアルゴリズムの提案 今後の研究の方向性を示す 本研究において、LRTはニューラルテスト理論(neural test theory, NTT: Shojima, 2007)のことをさす。 ○木村哲夫・永岡慶三

ニューラルテスト理論による大問形式の英語読解問題のデータ分析 日本テスト学会第8回大会 2010.08.31 CATの根源 Paper-Pencil Test Computer Assisted Test Computer Adaptive Test コンピュータを利用したテスト実施の個別化と効率化 ① 受験者の能力に合った問題の出題 ② 時間短縮と測定精度の向上 Adaptive Test Self-scoring flexilevel test (Lord, 1971) Binet’s IQ test (Binet’s & Simon, 1905) ○木村哲夫・永岡慶三

Flexilevel Test (Lord,1971) The middle difficulty item, number 11 in difficulty-order ① ② ③ ④ 1. A slightly easier item, number 10 in difficulty-order   ① ② ③ ④ 1. A slightly harder item, number 12 in difficulty-order 2. A slightly easier item, number 9 in difficulty-order 2. A slightly harder item, number 13 in difficulty-order 3. ・ 10. The easiest item, number 1 in difficulty-order 10. The hardest item, number 21 in difficulty-order ① ② ③ ④ ① ② ③ ④ ① ② ③ ④ ① ② ③ ④ ① ② ③ ④ ① ② ③ ④ ① ② ③ ④ ① ② ③ ④ ① ② ③ ④ ① ② ③ ④ ① ② ③ ④

Computerized Implementation of a Flexilevel Test and Its Comparison with a Bayesian Computerized Adaptive Test (DeAyala & Koch,1986) シミュレーションデータにより、flexilevel CATが、ベイズ推定法に基づくIRT-CATの結果と比較して遜色ないことを示す。 IRTに基づき項目特性を求められたアイテムバンクを用意しなくてもflexilevel CATは実行可能であり、教室環境で有効な方法であることを示唆。

Binet’s IQ test (Binet’s & Simon,1905) The First Adaptive Test

Stratified adaptive test (Weiss,1973)

CAT-Pharmacology (Halktis,1993)

LRT-CATアルゴリズムの提案(前提) ニューラルテスト理論による大問形式の英語読解問題のデータ分析 日本テスト学会第8回大会 2010.08.31 LRT-CATアルゴリズムの提案(前提) LRTは順序尺度上にテストを標準化する理論 項目の特性は項目参照プロフィル(item reference profile, IRP)で表されるが、これはIRTの場合(項目特性曲線を描くこと)と似ているところが多い。 受験者の特性を、一義的に能力推定値をランクとしてとらえるだけでなく(LRTで受験者の潜在ランクを順序尺度上に推定することは、IRTで潜在能力を連続変数上の一つの値で推定することと同義である)、ランクメンバーシッププロファイル(rank membership profile, RMP)として多義的に表現できる。 ○木村哲夫・永岡慶三

LRTの項目特性のとらえ方 項目参照プロファイル(IRP) プレイスメントテストの分析:木村 (2009a)

LRTの受験者能力のとらえ方 ランク・メンバーシップ・プロファイル(RMP) プレイスメントテストの分析:木村 (2009a) RMPは、受検者や先生にフィードバックすべき教育診断情報として活用することができる。(植野・荘島, 2010)

ニューラルテスト理論による大問形式の英語読解問題のデータ分析 日本テスト学会第8回大会 2010.08.31 LRT-CATアルゴリズムの提案 中央のランクの項目を中心に各ランクに所属する項目を1つずつ5項目選び実施 初期暫定RMPの算出 推定ランク±1の範囲で 暫定RMPとIRPの差分ベクトルの積和平均が 最小となるものを選択し実施 暫定RMPの算出 終了条件を 満たす? YES NO 終了 ○木村哲夫・永岡慶三

ニューラルテスト理論による大問形式の英語読解問題のデータ分析 日本テスト学会第8回大会 2010.08.31 LRT-CATアルゴリズムの提案 How to start 中央のランクの項目を中心に各ランクに所属する項目を1つずつ5項目選び実施 多様なランクに所属する項目をTestlet として実施 このTestlet の結果を受験者の初期RMPとする ○木村哲夫・永岡慶三

ニューラルテスト理論による大問形式の英語読解問題のデータ分析 日本テスト学会第8回大会 2010.08.31 LRT-CATアルゴリズムの提案 How to select the next item 推定ランク±1の範囲で 暫定RMPとIRPの差分ベクトルの積和平均が 最小となるものを選択し実施 IRP ItemID R01 R02 R03 R04 R05 Item001 0.27 0.41 0.59 0.70 0.75 Item002 0.42 0.47 0.58 0.72 0.82 Item003 0.24 0.36 0.49 0.60 Item004 0.28 0.32 0.56 0.66 Item005 0.50 0.81 ・・・ Item200 0.73 0.89 0.94 0.95 ○木村哲夫・永岡慶三

ニューラルテスト理論による大問形式の英語読解問題のデータ分析 日本テスト学会第8回大会 2010.08.31 LRT-CATアルゴリズムの提案 How to select the next item 推定ランク±1の範囲で 暫定RMPとIRPの差分ベクトルの積和平均が 最小となるものを選択し実施 IRP D01 D02 D03 D04 IRPの差分ベクトル ItemID R01 R02 R03 R04 R05 Item001 0.27 0.41 0.59 0.70 0.75 Item002 0.42 0.47 0.58 0.72 0.82 Item003 0.24 0.36 0.49 0.60 Item004 0.28 0.32 0.56 0.66 Item005 0.50 0.81 ・・・ Item200 0.73 0.89 0.94 0.95 ItemID D01 D02 D03 D04 Item001 0.14 0.18 0.11 0.04 Item002 0.05 0.10 Item003 0.09 0.13 Item004 Item005 0.06 ・・・ Item200 0.08 0.01 ○木村哲夫・永岡慶三

ニューラルテスト理論による大問形式の英語読解問題のデータ分析 日本テスト学会第8回大会 2010.08.31 LRT-CATアルゴリズムの提案 How to select the next item 推定ランク±1の範囲で 暫定RMPとIRPの差分ベクトルの積和平均が 最小となるものを選択し実施 IRPの差分ベクトル ItemID D01 D02 D03 D04 Item001 0.14 0.18 0.11 0.04 Item002 0.05 0.10 Item003 0.09 0.13 Item004 Item005 0.06 ・・・ Item200 0.08 0.01 ① R01~ R04 と D01~D04 の積和 ② R02~ R05 と D01~D04 の積和 ①と②の平均が最小になるものを次の項目として選択 ○木村哲夫・永岡慶三

ニューラルテスト理論による大問形式の英語読解問題のデータ分析 日本テスト学会第8回大会 2010.08.31 LRT-CATアルゴリズムの提案 How to select the next item 推定ランク±1の範囲で 暫定RMPとIRPの差分ベクトルの積和平均が 最小となるものを選択し実施 Van der Linden (1998)の中に出てくるMaximum Expected Posterior Weighted Information という方法に相当し、おそらく、CATの初期(RMPなだらか)には、全般に識別力が高いIRPを持つ項目が選択され、CAT終期(RMPがとがってくる)には、局所的に(受験者の暫定ランクの付近で)急峻なIRPを持つ項目が選択されると思われる(荘島, personal communication, May 9, 2010)。 ○木村哲夫・永岡慶三

ニューラルテスト理論による大問形式の英語読解問題のデータ分析 日本テスト学会第8回大会 2010.08.31 LRT-CATアルゴリズムの提案 How to end ① 暫定RMPの変化が一定値以下になった場合 ② SEが一定以下の値になった場合 ③ 実施項目数が一定数に達した場合 これらの条件を組み合わせてどのような条件でCATを終了させるのが最適かは、シミュレーションによって確認することが可能である。 90~95%以上の受験者が終了条件に達する項目数を割り出し、またシミュレーションの結果、90~95%以上が真値とのずれが1ランク以内に収まる項目数を割り出し、全員にその項目数を受験させるというのが現実的であろう。 ○木村哲夫・永岡慶三

ニューラルテスト理論による大問形式の英語読解問題のデータ分析 日本テスト学会第8回大会 2010.08.31 今後の研究の方向性 LRTに基づき分析した英語テストのアイテムバンク(木村・永岡, 2010)の一部を使い、LRT-CATを実施する場合に、何項目で終了させるかについて、シミュレーションデータから探る。 Moodle上でLRTに基づくCATを実行するモジュール(秋山・木村・荘島, 2011)により、実際にLRT-CATを実施し、終了時の測定誤差やRMPの変化がどの程度であったか確認する。 項目選択条件に改良を加え、時間短縮と測定精度の向上だけでなく、受験者の自己効力感をそがずに、学習に対するモチベーションを維持できる工夫をする。 ○木村哲夫・永岡慶三

ニューラルテスト理論による大問形式の英語読解問題のデータ分析 日本テスト学会第8回大会 2010.08.31 今後の研究の方向性 項目選択方法については、シミュレーションによる検討が必要(今回の方法はIRTで言えば、bパラメータについては大まかに、aパラメータを詳細に吟味したものといえる)。 「暫定RMPとIRPの積和」から困難度および情報量を重視した選択方法、単純に推定ランクとIRP指標βを使う方法、これらを今回の方法と組み合わせた方法などと比較する。 今回の方法で、各項目の使用頻度はどうだったのか検討し、アイテムバンクをどのように拡充するか? ○木村哲夫・永岡慶三

ニューラルテスト理論による大問形式の英語読解問題のデータ分析 日本テスト学会第8回大会 2010.08.31 引用文献 秋山實・木村哲夫・荘島宏二郎(2011) LRTモデルに基づくCATの開発とシミュレーションに よる特性解析.日本テスト学会 第9回大会 発表論文抄録集. Binet, A., & Simon, Th. A. (1905). Méthode nouvelle pour le diagnostic du niveau intellectuel des anormaux. L'Année Psychologique, 11, 191-244. DeAyala, R. J. & Koch, W. R. (1986). A Computerized Implementation of a Flexilevel Test and Its Comparison with a Bayesian Computerized Adaptive Test. (ERIC, ED269437). Halkitis, P. N. (1993). A computer-adaptive testing algorithm. Rasch Measurement Transactions 6:4, 245-5. 木村哲夫・永岡慶三(2010)Moodleによる小規模CAT構築に向けて1:アイテムバンクの 拡充.JSET26講演論文集, 343-344. Kimura, T. & Ohnishi, A. (2011). Moodle UCAT beta version: a computer-adaptive test module based on Rasch model. JALTCALL 2011. Linacre, J. M. (1987). UCAT: a BASIC computer-adaptive testing program. MESA Psychometric Laboratory. (ERIC ED 280 895). Lord, F. M. (1971). The self-scoring flexilevel test. Journal of Educational Measurement, 8, 147-151. Shojima, K. (2007). Neural test theory. DNC Research Note, 07-02. Shojima, K. (2008-). Exametrika Ver. 4.3 [Computer software]. Retrieved July 7, 2010, from http://www.rd.dnc.ac.jp/~shojima/exmk/index.htm Van der Linden, W. J. (1998). Bayesian item selection criteria for adaptive testing. Psychometrika, 63, 201-216. ○木村哲夫・永岡慶三

ニューラルテスト理論による大問形式の英語読解問題のデータ分析 日本テスト学会第8回大会 2010.08.31 ご静聴ありがとうございました。 謝辞: 本研究の一部は、科学研究費補助金基盤研究(C)(課題番号: 22520590)を利用して行われました。 データ分析に関して、大学入試センター研究開発部の荘島 宏二郎准教授より多くの助言をいただきました。ここに心 より感謝申し上げます。 木村哲夫(kimura@n-seiryo.ac.jp) ○木村哲夫・永岡慶三