LRTモデルに基づくCATの開発と シミュレーションによる特性解析

Slides:



Advertisements
Similar presentations
Maxent model への挑戦 - 驚きとドキドキ感の理論 - 大野ゆかり Phillips et al. (2006) Maximum entropy modeling of species geographic distributions. Ecological Modeling 190:
Advertisements

の範囲に、 “ 真の値 ” が入っている可能性が約 60% 以上ある事を意味する。 (測定回数 n が増せばこの可能性は増 す。) 平均値 偶然誤差によ るばらつき v i は 測定値と平均値の差 で残差、 また、 σ は、標準誤差( Standard Error, SE ) もしくは、平均値の標準偏差、平均値の平均二乗.
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
三木 光範 (同志社大学工学部) 廣安 知之 (同志社大学工学部) 花田 良子 (同志社大学工学部学部 生) 水田 伯典 (同志社大学大学院) ジョブショップスケジューリング問 題への 分散遺伝的アルゴリズムの適用 Distributed Genetic Algorithm for Job-shop.
1 項目反応理論によるテストの作成 東京工業大学 大学院社会理工学研究科 前川 眞一.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
点対応の外れ値除去の最適化によるカメラの動的校正手法の精度向上
推定の精度 例: 宍道湖に生育するある魚が今回の大水害でどのような影響を 受けたかを明らかにするために,魚を捕獲して調査しようとした.
国内線で新千歳空港を利用している航空会社はどこですか?
周育佳 東京外国語大学地域文化研究科博士後期課程
ISDASインターネット分散観測: ワームの平均寿命はいくらか?
分布の非正規性を利用した行動遺伝モデル開発
統計解析 第9回 第9章 正規分布、第11章 理論分布.
Bassモデルにおける 最尤法を用いたパラメータ推定
多数の疑似システムを用いた システム同定の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
神奈川大学大学院工学研究科 電気電子情報工学専攻
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
潜在ランク理論に基づく コンピュータアダプティブテスト
時空間データからのオブジェクトベース知識発見
放射線の計算や測定における統計誤差 「平均の誤差」とその応用(1H) 2項分布、ポアソン分布、ガウス分布(1H) 最小二乗法(1H)
プログラムの動作を理解するための技術として
シミュレーション物理7 乱数.
統計学 第3回 10/11 担当:鈴木智也.
計測工学 -測定の誤差と精度2- 計測工学 2009年5月17日 Ⅰ限目.
リファクタリングのための 変更波及解析を利用した テスト支援ツールの提案
ニューラルテスト理論を利用した 教科テストの Can-do table 作成
小標本検査データを元にした 疲労破損率のベイズ推定
練習問題アイテムバンクの開発研究 ~再生形式~
ソースコードの変更履歴における メトリクス値の変化を用いた ソフトウェアの特性分析
Fuzzy c-Means法による クラスター分析に関する研究
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
正規分布における ベーテ近似の解析解と数値解 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
モデルの逆解析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
社会シミュレーションのための モデル作成環境
遺伝的アルゴリズムを用いた 構造物の最適形状探索の プログラムの作成
計測工学 -誤差、演習問題 計測工学(第6回) 2009年5月26日 Ⅱ限目.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
Data Clustering: A Review
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
誤 差 誤差 = 測定値 - 真値 ・真値は神様だけが知っている。 ・ばらつきの程度を表す意味が薄い。
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
ベイズ最適化 Bayesian Optimization BO
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
オブジェクトの協調動作を用いた オブジェクト指向プログラム実行履歴分割手法
プログラミング入門2 第13回、14回 総合演習 情報工学科 篠埜 功.
ニューラルテスト理論分析ソフト「neutet」の特徴と使い方
JNNS-DEX-SMI-玉川 公開講座 「交換モンテカルロ法とその応用」
ガウス分布における ベーテ近似の理論解析 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
小標本に関する平均の推定と検定 標本が小さい場合,標本分散から母分散を推定するときの不確実さを加味したt分布を用いて,推定や検定を行う
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
荘島宏二郎 大学入試センター研究開発部 ニューラルテスト理論 荘島宏二郎 大学入試センター研究開発部
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年8月1日 3.2 競合学習
Webページタイプによるクラスタ リングを用いた検索支援システム
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
統計現象 高嶋 隆一 6/26/2019.
CSP係数の識別に基づく話者の 頭部方向の推定
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
実都市を対象とした初期マイクロデータの 推定手法の適用と検証
混合ガウスモデル Gaussian Mixture Model GMM
素子のばらつきが特性に与える影響を調べます。 ここでは,RCフィルタ回路の 抵抗の誤差1%,コンデンサの誤差5% とします。
Presentation transcript:

LRTモデルに基づくCATの開発と シミュレーションによる特性解析 ○秋山 實    東北大学大学院(院生)          木村 哲夫   新潟青陵大学   荘島 宏二郎 大学入試センター 「りんうぇい」が「データ数がエムシーエムシーほう」による「アイアールティ」パラメータ推定にあたえる影響」について はっぴょうします。 この研究は、東北大学大学院教育情報学教育部博士3年の課程の秋山と同じく研究生のりんうぇいの共同研究です。

研究の背景・目的 背景 ・潜在ランク理論(以降LRTと呼ぶ)が荘島によって提案  された(荘島,2007a;ニューラルテスト理論) ・しかし,これに基づくアダプティブテスト(以降CATと呼ぶ)  が未だ存在しない ・項目応答理論に基づくCATよりも小規模利用に適して  いるのではないか?(木村,2010) ・プレースメントテストにLRTに基づくCAT  (以降LRT-CATと呼ぶ)を使うニーズが出てきた 目的 ・LRT-CATを開発する ・その特性を調べる 項目パラメータの推定は、アイテムバンクを「こうちく」するうえで欠かせないステップです。 パラメータ推定に必要なデータ数は、多いほど推定の誤差が少なくなる傾向があるといわれています。 しかし、受験者を集めてテストを受験させ、データを取得するにはコストがかかります。 小規模な教育機関では、受験者を多数確保できないばあいもあります。 パラメータ推定に必要なデータ数はどこまで少なくできるか?ということをあきらかにしたいと考えました。

LRTモデルとは テストの解像度は連続値で表示するほど高くな い(荘島,2007a) ・項目応答理論では,-∞から+∞の連続値で表現 5から20程度のランク数で能力を表わす ・受験者の能力は,Rank と Rank Membership Profile  で表わす(以降RMPと呼ぶ) ・項目の特性は,Item Reference Profileで表わす  (以降IRPと呼ぶ) データ数が少ない方がコストがかからなくて良いと考える一方で、データ数が少ないと分析のツールが使えない場合があります。 BILOG-MGで200人のデータを推定すると途中で止まってしまうことがあります。他のツールでも同じことが起きると思います。 少ないデータでもパラメータの推定が確実にできることが必要です。 エムシーエムシー法では、少ないデータでもパラメータ推定ができるのではないかと考え、シミュレーションをおこないました。

RMPの例 本研究の目的は、エムシーエムシー法で、二値のツーパラメータロジスティックモデルのパラメータの項目パラメータを推定するとき、 どの程度少ないデータまで推定が可能か、また、その時の測定誤差がどれくらいになるかを明らかにすることです。

IRPの例 本研究の目的は、エムシーエムシー法で、二値のツーパラメータロジスティックモデルのパラメータの項目パラメータを推定するとき、 どの程度少ないデータまで推定が可能か、また、その時の測定誤差がどれくらいになるかを明らかにすることです。

LRTモデルの正答確率 ・潜在ランクqjを与える場合 p(Uij=1) = IRPi[qj] ・RMPjを与える場合 Q    p(Uij=1) = Σ(IRPi[qj] * RMPj[qj])               q=1 Q :ランク数 Uij :回答(正答=1,誤答=0) i  :アイテム       j :受験者 本研究の目的は、エムシーエムシー法で、二値のツーパラメータロジスティックモデルのパラメータの項目パラメータを推定するとき、 どの程度少ないデータまで推定が可能か、また、その時の測定誤差がどれくらいになるかを明らかにすることです。

方法 LRT-CATをMoodle1.9のモジュールとして開発 ・Moodleの「問題バンク」のアイテムを利用する ・ LRT-CATモジュールの関数を利用してシミュレータを 開発,シミュレーションを実施 ・受験者のRMPとアイテムバンク(IRP)を与える ・LRTモデルの正答確率と一様乱数を用いてモンテカルロ・  シミュレーションを行う ・受験者1人あたり100回繰り返し受験させる 研究方法は、次のとおりです。 まず、村木が開発したRESGEN4を使って、受験シミュレーションデータを作成します。 30人、50人、100人、150人、200人、400人、800人のデータをそれぞれ20セット作成します。 次にWinBUGS1.4.3を用いてエムシーエムシー法でパラメータを推定します。 WinBUGSは、ギブスサンプラーを使ってモデルからの乱数を発生しますが、それを非常に多くの回数行うことでモデルの分布に収れんして、モデルのパラメータを推定することができます。

LRT-CATの仕様 初期条件 ・β値で5アイテムを選択しテストレットとして出題 初期条件 ・β値で5アイテムを選択しテストレットとして出題 項目選択 ・Maximum Expectation Posterior Waited Information (van der Linden,1998)のLRT版(木村・永岡,2011) 能力推定 ・Muximum LikelihoodのLRT版(荘島,2007b) 終了条件 ・RMPの暫定推定値の変化分の平方和平方根  SQRT(Σ(RMPn-RMPn-1)2 )<0.01  (木村・永岡,2011) ・受験項目数>50アイテム   RESGEN4でシミュレーションデータを作成しますが、テストの構成は、 困難度がマイナス2.5からプラス2.5まで0.5間隔で11種類、識別力は0.6から1.2まで0.2間隔で4種類、その組み合わせ11種類×4種類の44種類のテスト項目を使って44問で構成します。 回答は正答が1、誤答が0のデータを生成し、同時にその時の能力値の真値も出力されます。 シミュレーションデータを同じ条件で、乱数を発生するためのシードだけ変えて、20セット生成します。 この20セットは測定誤差を調べるため、二乗平均偏差を指標として使います。二乗平均偏差は、真値と推定値の差の二乗を試行数で割って平方根を取ったものです。

LRT-CAT:受験開始画面 RESGEN4でシミュレーションデータを作成しますが、テストの構成は、   RESGEN4でシミュレーションデータを作成しますが、テストの構成は、 困難度がマイナス2.5からプラス2.5まで0.5間隔で11種類、識別力は0.6から1.2まで0.2間隔で4種類、その組み合わせ11種類×4種類の44種類のテスト項目を使って44問で構成します。 回答は正答が1、誤答が0のデータを生成し、同時にその時の能力値の真値も出力されます。 シミュレーションデータを同じ条件で、乱数を発生するためのシードだけ変えて、20セット生成します。 この20セットは測定誤差を調べるため、二乗平均偏差を指標として使います。二乗平均偏差は、真値と推定値の差の二乗を試行数で割って平方根を取ったものです。

LRT-CAT:受験画面 RESGEN4でシミュレーションデータを作成しますが、テストの構成は、   RESGEN4でシミュレーションデータを作成しますが、テストの構成は、 困難度がマイナス2.5からプラス2.5まで0.5間隔で11種類、識別力は0.6から1.2まで0.2間隔で4種類、その組み合わせ11種類×4種類の44種類のテスト項目を使って44問で構成します。 回答は正答が1、誤答が0のデータを生成し、同時にその時の能力値の真値も出力されます。 シミュレーションデータを同じ条件で、乱数を発生するためのシードだけ変えて、20セット生成します。 この20セットは測定誤差を調べるため、二乗平均偏差を指標として使います。二乗平均偏差は、真値と推定値の差の二乗を試行数で割って平方根を取ったものです。

LRT-CAT:受験結果画面 RESGEN4でシミュレーションデータを作成しますが、テストの構成は、   RESGEN4でシミュレーションデータを作成しますが、テストの構成は、 困難度がマイナス2.5からプラス2.5まで0.5間隔で11種類、識別力は0.6から1.2まで0.2間隔で4種類、その組み合わせ11種類×4種類の44種類のテスト項目を使って44問で構成します。 回答は正答が1、誤答が0のデータを生成し、同時にその時の能力値の真値も出力されます。 シミュレーションデータを同じ条件で、乱数を発生するためのシードだけ変えて、20セット生成します。 この20セットは測定誤差を調べるため、二乗平均偏差を指標として使います。二乗平均偏差は、真値と推定値の差の二乗を試行数で割って平方根を取ったものです。

CATの評価基準 推定誤差 ・測定の性能 ・ばらつきも重要 推定誤差 ・測定の性能 ・ばらつきも重要 受験アイテム数 ・テストの実施可否を決定付ける場合もある ・同じ推定精度なら少ない方がよい   RESGEN4でシミュレーションデータを作成しますが、テストの構成は、 困難度がマイナス2.5からプラス2.5まで0.5間隔で11種類、識別力は0.6から1.2まで0.2間隔で4種類、その組み合わせ11種類×4種類の44種類のテスト項目を使って44問で構成します。 回答は正答が1、誤答が0のデータを生成し、同時にその時の能力値の真値も出力されます。 シミュレーションデータを同じ条件で、乱数を発生するためのシードだけ変えて、20セット生成します。 この20セットは測定誤差を調べるため、二乗平均偏差を指標として使います。二乗平均偏差は、真値と推定値の差の二乗を試行数で割って平方根を取ったものです。

シミュレーション(1) テスト ・英語(語彙・文法) 受験者 ・117名 アイテム ・104アイテム テスト ・英語(語彙・文法) 受験者 ・117名 アイテム ・104アイテム シミュレーション条件 ・実際のテストの回答データ ・1受験者あたり100回繰り返し   RESGEN4でシミュレーションデータを作成しますが、テストの構成は、 困難度がマイナス2.5からプラス2.5まで0.5間隔で11種類、識別力は0.6から1.2まで0.2間隔で4種類、その組み合わせ11種類×4種類の44種類のテスト項目を使って44問で構成します。 回答は正答が1、誤答が0のデータを生成し、同時にその時の能力値の真値も出力されます。 シミュレーションデータを同じ条件で、乱数を発生するためのシードだけ変えて、20セット生成します。 この20セットは測定誤差を調べるため、二乗平均偏差を指標として使います。二乗平均偏差は、真値と推定値の差の二乗を試行数で割って平方根を取ったものです。

受験者のRMP(1) 本研究の目的は、エムシーエムシー法で、二値のツーパラメータロジスティックモデルのパラメータの項目パラメータを推定するとき、 どの程度少ないデータまで推定が可能か、また、その時の測定誤差がどれくらいになるかを明らかにすることです。

アイテムバンクの特性(1) 本研究の目的は、エムシーエムシー法で、二値のツーパラメータロジスティックモデルのパラメータの項目パラメータを推定するとき、 どの程度少ないデータまで推定が可能か、また、その時の測定誤差がどれくらいになるかを明らかにすることです。

シミュレーション(1)の結果 RESGEN4でシミュレーションデータを作成しますが、テストの構成は、 困難度がマイナス2.5からプラス2.5まで0.5間隔で11種類、識別力は0.6から1.2まで0.2間隔で4種類、その組み合わせ11種類×4種類の44種類のテスト項目を使って44問で構成します。 回答は正答が1、誤答が0のデータを生成し、同時にその時の能力値の真値も出力されます。 シミュレーションデータを同じ条件で、乱数を発生するためのシードだけ変えて、20セット生成します。 この20セットは測定誤差を調べるため、二乗平均偏差を指標として使います。二乗平均偏差は、真値と推定値の差の二乗を試行数で割って平方根を取ったものです。

シミュレーション(2) シミュレーション条件 ・人工的なデータを使用 受験者 ・受験者のランクを中心に正規分布となるRMPを与える シミュレーション条件 ・人工的なデータを使用 受験者 ・受験者のランクを中心に正規分布となるRMPを与える アイテムバンク ・項目応答理論の識別力0.5,1.0,1.5,2.0に相当する  項目特性曲線に近いIRPを持つアイテム ・beta毎に10アイテム ・ランク5 X 識別力4 X 10アイテム = 200アイテム   RESGEN4でシミュレーションデータを作成しますが、テストの構成は、 困難度がマイナス2.5からプラス2.5まで0.5間隔で11種類、識別力は0.6から1.2まで0.2間隔で4種類、その組み合わせ11種類×4種類の44種類のテスト項目を使って44問で構成します。 回答は正答が1、誤答が0のデータを生成し、同時にその時の能力値の真値も出力されます。 シミュレーションデータを同じ条件で、乱数を発生するためのシードだけ変えて、20セット生成します。 この20セットは測定誤差を調べるため、二乗平均偏差を指標として使います。二乗平均偏差は、真値と推定値の差の二乗を試行数で割って平方根を取ったものです。

受験者のRMP(2) 本研究の目的は、エムシーエムシー法で、二値のツーパラメータロジスティックモデルのパラメータの項目パラメータを推定するとき、 どの程度少ないデータまで推定が可能か、また、その時の測定誤差がどれくらいになるかを明らかにすることです。

アイテムバンクの特性(2) 本研究の目的は、エムシーエムシー法で、二値のツーパラメータロジスティックモデルのパラメータの項目パラメータを推定するとき、 どの程度少ないデータまで推定が可能か、また、その時の測定誤差がどれくらいになるかを明らかにすることです。

シミュレーション(2)の結果(測定誤差) RESGEN4でシミュレーションデータを作成しますが、テストの構成は、   RESGEN4でシミュレーションデータを作成しますが、テストの構成は、 困難度がマイナス2.5からプラス2.5まで0.5間隔で11種類、識別力は0.6から1.2まで0.2間隔で4種類、その組み合わせ11種類×4種類の44種類のテスト項目を使って44問で構成します。 回答は正答が1、誤答が0のデータを生成し、同時にその時の能力値の真値も出力されます。 シミュレーションデータを同じ条件で、乱数を発生するためのシードだけ変えて、20セット生成します。 この20セットは測定誤差を調べるため、二乗平均偏差を指標として使います。二乗平均偏差は、真値と推定値の差の二乗を試行数で割って平方根を取ったものです。

シミュレーション(2)の結果(受験項目数)   RESGEN4でシミュレーションデータを作成しますが、テストの構成は、 困難度がマイナス2.5からプラス2.5まで0.5間隔で11種類、識別力は0.6から1.2まで0.2間隔で4種類、その組み合わせ11種類×4種類の44種類のテスト項目を使って44問で構成します。 回答は正答が1、誤答が0のデータを生成し、同時にその時の能力値の真値も出力されます。 シミュレーションデータを同じ条件で、乱数を発生するためのシードだけ変えて、20セット生成します。 この20セットは測定誤差を調べるため、二乗平均偏差を指標として使います。二乗平均偏差は、真値と推定値の差の二乗を試行数で割って平方根を取ったものです。 RMPを使用した場合 ランクを使用した場合

まとめ LRT-CATの特性 ・受験項目数 ・ 結果のまとめです。 WinBUGSを使ってエムシーエムシー法により、二値のツーパラメータロジスティックモデルの項目パラメータを推定するとき、以下のことが分かりました。 項目パラメータの推定誤差はデータ数が少なくなるにつれて大きくなる それは、次の式で表すことができる。 RMSDa=0.80-0.23*log(N) N:データ数 RMSDb=0.87-0.25*log(N) データ数は、項目パラメータの推定だけを目的とする場合、用途にもよりますが、150から200程度でも可能であり、推定自体は30でも可能であるということが分かりました。

今後の課題 LRT-CATの特性を網羅的に明らかにする ・同じランクであってRMPの形状が異なる受験者に対する    LRT-CATの挙動をあきらかにする 最適なアルゴリズムはどれか?を明らかにする ・項目選択:MFI,KL,MEI ・能力推定:Bayes IRTに基づくCATと比較する ・構成要素毎に相当するアルゴリズムを用意 実地のテストへ適用・評価する ・設定機能,テスト結果のエクスポート機能を付加する 最後に、今後の課題です。 他の試行結果では、推定誤差が0.01から0.04というものもあります。 今回のシミュレーション実験では、それよりも推定誤差が一桁程度大きかったので、この原因を明らかにする必要があります。 初期値の与え方、モデルの記述方法などについて、様々なケースを試しましたが、まだ原因は分かっていません。 プログラムの問題かもしれませんが、WinBUGSのソースコードは公開されていないため、独自にプログラムを作成して、推定精度をあげるようチャレンジするつもりです。

参考文献 秋山實(2010)シミュレーションに基づくインハウスCATシステ ムの設計ツール.日本テスト学会第8回大会発表論文抄録集, 148-149. 木村哲夫・永岡慶三(2011) 潜在ランク理論に基づくコンピュー タアダプティブテスト.日本テスト学会第9回大会発表論文抄録 集. Shojima, K. (2007a). Neural test theory. DNC Reasearch Note, 07-02. Shojima, K. (2007b). Maximum Likelihood Estimation of Latent Rank under Neural Test Model. DNC Reasearch Note, 07-04. Van der Linden, W. J. (1998). Baysian item selection criteria for adaptive testing. Psychometrika, 63, 201-216. 以上で発表を終わります。