1 項目反応理論によるテストの作成 東京工業大学 大学院社会理工学研究科 前川 眞一
2 なぜ IRT か コアカリの進展具合は大学により異なる。 終了判定の時期が異なる。 同じ問題を使うことが出来ない。 異なる問題の間の比較を可能にする。 テスト理論の利用
3 複数のフォーム(版、問題冊子) 大規模試験 には複数のテストフォーム (form) が存在する。 セキュリティのため。 問題漏洩、緊急事態への対応 それぞれの form は異なる問題 で構成されている。 異なる form の得点は比較可能なのか?
4 異なるフォームの比較 一般的に、テストフォームに含まれる 問題が 異なる場合、テスト得点の比較は出来ない。 易しいテストの 50 点をとった人と、 難しいテストの 40 点をとった人は どちらが良くできる人なのか? テスト問題の難易度と、受験生の能力を分離し て考える必要がある。
5 異なるフォームの比較 比較可能にするためには フォーム間に共通な問題(項目)を入れる。 統計的性質の分かっている問題を入れる。 能力の等しいと考えられる集団に実施する。 大規模試験 ではフォームの間に共通の問題と 統計的性質の分かっている問題が入っている。
6 複数のフォーム 大規模試験 のフォームは、以下の 2 種類の問題 から構成されている。 統計的性質の分かっている問題 新作問題 これらの項目に含まれる情報を利用して異なる フォーム間の得点を比較可能に なるようにしている。
7 日本の伝統的なテスト文化 年に一度、同一問題での試験の一斉実施 新作問題のみでの試験の実施 (プリテスト無し) 試験問題の公開 大問形式の利用 ( 小さな項目の寄せ集めではない ) 問題作成とテスト編集の融合 ( 権威主義 ) 素点・配点の利用(0点と満点) 科挙の影響が大きい?
8 日本的テスト文化(理由) 年に一度、同一問題での試験の斉一実施 (同一問題でないと不公平) 新作問題のみでの試験の実施 (プリテスト無し) (たまたまプリテストを覚えていると得) 試験問題の公開 (情報公開?規制緩和?) 大問形式の利用 ( 多肢選択式で思考力を測る努力、細かいスペックの欠如? ) 問題作成とテスト編集の融合 (権威主義、測定学への無関心) 素点・配点の利用(0点と満点) (権威主義、測定学への無関心、尺度得点への不信感) 危機管理体制の不備 (資金的問題?)
9 世界標準? 独立項目 + 大問 比較可能な尺度得点を受験生へ 年に複数回、異なる問題での分散実施 コンピュータ化 何時でも何処でも 自由記述
10 テストの等化と尺度化 異なるテストフォームの得点を比較可能とする 作業を等化 (equating) と呼ぶ。 テスト理論 (test theory) と呼ばれる 統計的方法を用いる。 特に大規模試験 では、項目反応理論 (Item Response Theory, IRT) と呼ばれるテスト理論が用いられている。
11 テスト理論 テスト理論は 20 世紀初頭から発達 古典的テスト理論 (classical test theory) X = T + E 観測される得点 = 真の得点 + 誤差 この部分だけほしい
12 項目反応理論(項目応答理論) 項目反応理論は 1950 年代から発達 テストを構成する項目の統計的性質に着目 主にアメリカ、オランダ、イスラエル アジア諸国ではあまり利用されていない。
13 項目反応理論 項目の難易度と、受験生の能力の分離 全ての項目が共通にはかっている 1 次元の 能力値を θ で表す。 項目の特性を項目パラメタ a, b で表す。 能力値が θ の人が、項目パラメタ を持つ項目 j に正答する確率を と表し項目特性曲線と呼ぶ ICC or IRF 。 Item Characteristic Curve, Item Response Function
14 原点と単位の不定性 θ の原点と単位は決まっていない。 どのように1次変換をしても良い。 ふつうは全受験生の θ の平均を 0 、 標準偏差を 1 とする。
15
16
17 項目特性曲線
18 古典的項目統計量との関係 a b 項目合計点相関 項目通過率
19 正答数得点と θ の関係の例 正答数 θ
20 多値項目
21
22
23 項目パラメタが既知の場合
24 テスト特性曲線 能力値が θ の人が p 個の項目からなるテストで取れると 考えられる得点(期待値)をテスト特性曲線 TCC と呼ぶ。 項目パラメタが分かっている項目でテストを作ると 何が出来るか。 項目特性曲線を足し合わせたもの。
25 3 項目からなるテストのテスト特性曲線
26 プール問題の項目特性曲線 ( 例)
27 テスト ( フォーム)特性曲線 ( 例) 各フォームに 含まれる 項目特性曲線 の平均
28 θ フォーム間の比較(等化) True Score テスト A の 3 点は テスト B の 2 点。 3 点でも 2 点でも θ は -2.0 。 テスト A の 8 点は テスト B の 5 点。 8 点でも 5 点でも θ は 1.0 。
29
30 複数のテスト
31 θ フォーム間の比較(等化) True Score テスト A の 3 点は テスト B の 2 点。 3 点でも 2 点でも θ は -2.0 。 テスト A の 8 点は テスト B の 5 点。 8 点でも 5 点でも θ は 1.0 。
32 難易度の異なる複数のテスト
33 原点と単位の不定性 θ の原点と単位は決まっていない。 どのように1次変換をしても良い。 ふつうは全受験生の θ の平均を 0 、 標準偏差を 1 とする。 異なるフォームごとに項目パラメタを推定する と比較が出来ない。
34 項目バンク(項目プール) item bank, item pool 統計的性質の分かっている項目の集合 良い問題を作るのは非常にむつかしい。 したがって、それらは公開せずに 蓄積し、再利用すべき。
35 項目バンクの作成 一度に全ての項目を同じ受験生に受けさせるこ とは困難。 共通項目を含む小テストを複数作り、 共通項目の情報を利用して各フォームを繋いで いく。 しかし、先ほどの不定性の問題が残る。 適切なデザインが必要。
36 テストのデザイン
37 アンカー項目の線形性
38 テストのデザイン 1
39 テストのデザイン 2
40 テストのデザイン 3
41 項目バンクの作成
42 項目バンクの作成
43 項目バンクの作成
44 項目バンクの作成
45 項目バンクの作成
46 尺度化の手順
47 尺度化の手順 項目パラメタの推定と等化 共通項目を用いて全ての項目パラメタを 比較可能とすること。 尺度得点の算出 計算される個人の得点に意味を持たせること。 この尺度得点なら、規準集団でどのくらいの位 置か?
48 尺度化:得点の意味 基準集団内の位置(順位)に基づく方法 点数を見れば、その人が基準集団の中で どの位置にいるかが分かる。 偏差値の考え方。 特定の問題セットの正答率に基づく方法 点数を見れば、その人が、ある問題セットで 何点を取れるかが分かる。
49 正規偏差値 基準集団において θ が正規分布するように変換する。 θ z =t(θ) これを線形に変換して平均と標準偏差を決める。 x = s θ z + m = u(θ) この変換を常に施す。
50 IRTに基づく段階評価
51 正規化変換の例
52 項目パラメタの推定と等化 ◎ 一次元性の確認をする。 ① 両テストフォームの受験者の 項目反応データ(正解 =1 、不正解 =0 )から、 一括して項目パラメタ値を推定する。この際、 両テストフォームの尺度は、両フォームに共通 する項目に基づいて等化される。 ② ①で推定した両フォームの項目パラメタ推 定値を、アンカー項目に基づいて基準集団の尺 度に等化する。
53 尺度得点の算出 ③ ②で基準集団に尺度等化された項目パラメ タ推定値と項目反応データを用いて、フォーム ごとに能力推定値 (θ) を推定する。 ④ ③で推定された能力推定値 (θ) を、 得点換算表 θz に換算する。 ⑤ ④で換算された θz を、次式により尺度得点 に換算する。 尺度得点= 400 + 100θz
54 パラメタの推定
55 基本仮定 1
56 基本仮定 2
57 ICC or IRF
58 基本仮定 3
59 基本仮定 4
60 能力値パラメタ θ の推定 特定の項目反応パタンの同時確率(局所独立) 最尤解(最大尤度法、 Maximum Likelihood Method ) 尤度関数を最大とする θ を求める。
61 能力値パラメタ θ の推定 (ICC) 項目パラメタ
62 能力値パラメタ θ の推定(尤度) 尤度関数 対数尤度関数
63 能力値パラメタ θ の推定(最尤解 ) 対数尤度関数の最大値(関数の最適化) 対数尤度の一次微分が 0 の点
64 能力値パラメタ θ の推定(最尤解) 対数尤度関数の一次微分が 0 の点 ICC の微分 対数尤度 の微分
65 能力値パラメタ θ の推定( Bayes 解) Bayes 推定法 事後分布 は 尤度関数 と 事前分布 の積に比例する 。 事前分布
66 事前分布 N(0,1) 尤度関数 事後分布 積 能力値パラメタ θ の推定 (Bayes 解 )
67 能力値パラメタ θ の推定( Bayes 解)
68 能力値パラメタ θ の推定(別の例)
69 能力値パラメタ θ の推定(尤度) 尤度関数 対数尤度関数
70 能力値パラメタ θ の推定(最尤解 ) 対数尤度関数の最大値(関数の最適化) 対数尤度の一次微分が 0 の点
71 能力値パラメタ θ の推定(最尤解) 対数尤度関数の一次微分が 0 の点 ICC の微分 対数尤度 の微分
72 事前分布 N(0,1) 尤度関数 事後分布 積 能力値パラメタ θ の推定 (Bayes 解 )
73 能力値パラメタ θ の推定( Bayes 解)
74 項目パラメタの推定(同時)
75 項目パラメタの推定(周辺)
76 項目パラメタの推定(周辺)
77 EM アルゴリズム
78 項目1のパラメタに関する 期待対数完全データ尤度関数
79 項目1のパラメタに関する 期待対数完全データ尤度関数の等高線
80 項目 2 のパラメタに関する 期待対数完全データ尤度関数
81 項目 2 のパラメタに関する 期待対数完全データ尤度関数の等高線
82
83 おわり