1 項目反応理論によるテストの作成 2009 07 30 東京工業大学 大学院社会理工学研究科 前川 眞一.

Slides:



Advertisements
Similar presentations
1 小暮研究会2 第1章ベイジアンアルゴリズ ム 2値選択 ベルヌーイ試行 尤度原理 同一性 交換可能性 尤度についてのまとめ 環境情報学部3年 渡邊洋一.
Advertisements

1標本のt検定 3 年 地理生態学研究室 脇海道 卓. t検定とは ・帰無仮説が正しいと仮定した場合に、統 計量が t 分布に従うことを利用する統計学的 検定法の総称である。
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
Lesson 9. 頻度と分布 §D. 正規分布. 正規分布 Normal Distribution 最もよく使われる連続確率分布 釣り鐘形の曲線 -∽から+ ∽までの値を取る 平均 mean =中央値 median =最頻値 mode 曲線より下の面積は1に等しい.
1 変量データの記述 (度数分布表とヒストグラム) 経済データ解析 2009 年度後 期. あるクラスのテストの点数が次のように なっていたとする。 このように出席番号と点数が並んでいるものだけでは、 このクラスの特徴がわかりづらい。 → このクラスの特徴がわかるような工夫が必要 → このクラスの特徴がわかるような工夫が必要.
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
4. 統計的検定 ( ダイジェスト版 ) 保健統計 2014 年度. Ⅰ 仮説検定の考え方 次のような問題を考える。 2014 年のセンター試験、英語の平均点は 119 点であった。 T 高校では 3 年生全員がセンター試験を受験したが、受験生の中から 25 人を選んで調査したところ、その平均点は.
1 統計学 第2週 10/01 (月) 担当:鈴木智也. 2 前回のポイント 「記述統計」と「推測統計」。 データ自体の規則性を記述するのが 「記述統計」、データを生み出した背 景を推測するのが「推測統計」である。 推測統計は記述統計に基づくので、ま ずは記述統計から学ぶ。 以下、データの観測値をX.
生体情報論演習 - 統計法の実践 第 1 回 京都大学 情報学研究科 杉山麿人.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
ベイズの定理と ベイズ統計学 東京工業大学大学院 社会理工学研究科 前川眞一. 2 Coffe or Tea 珈琲と紅茶のどちらが好きかと聞いた場合、 Star Trek のファンの 60% が紅茶を好む。 Star Wars のファンの 95% が珈琲を好む。 ある人が紅茶を好むと分かったとき、その人が.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
第4章 統計的検定 統計学 2007年度.
看護学部 中澤 港 統計学第5回 看護学部 中澤 港
様々な仮説検定の場面 ① 1標本の検定 ② 2標本の検定 ③ 3標本以上の検定 ④ 2変数間の関連の強さに関する検定
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
周育佳 東京外国語大学地域文化研究科博士後期課程
Pattern Recognition and Machine Learning 1.5 決定理論
第1回 担当: 西山 統計学.
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
統計解析 第9回 第9章 正規分布、第11章 理論分布.
Bassモデルにおける 最尤法を用いたパラメータ推定
統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える
疫学概論 母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.
Effect sizeの計算方法 標準偏差が正確に求められるほど症例数が十分ないときは、測定しえた症例の中で、最大値と最小値の値の差を4で割り算した値を代用することが出来る。この場合には正規分布に従うことを仮定することになる。
Bias2 - Variance - Noise 分解
Bias2 - Variance - Noise 分解
ベイズ的ロジスティックモデル に関する研究
「データ学習アルゴリズム」 第2章 学習と統計的推測 報告者 佐々木 稔 2003年5月21日 2.1 データと学習
統計学 第3回 10/11 担当:鈴木智也.
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
統計学 11/08(木) 鈴木智也.
正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定
最尤推定によるロジスティック回帰 対数尤度関数の最大化.
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
地理情報システム論演習 地理情報システム論演習
ガウス過程による回帰 Gaussian Process Regression GPR
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
第9章 混合モデルとEM 修士2年 北川直樹.
応用統計学の内容 推測統計学(inferential statistics)   連続型の確率分布   標本分布   統計推定   統計的検定.
第14章 モデルの結合 修士2年 山川佳洋.
第5章 特徴の評価とベイズ誤り確率 5.5 ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限
第6章 特徴空間の変換 6.1 特徴選択と特徴空間の変換 6.2 特徴量の正規化 平成15年5月23日(金) 発表者 藤井 丈明
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
分子生物情報学(3) 確率モデル(隠れマルコフモデル)に 基づく配列解析
ベイズ・アプローチによる グラフィカル・テスト理論
早稲田大学大学院商学研究科 2014年12月10日 大塚忠義
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
第4章 統計的検定 (その2) 統計学 2006年度.
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
経営学研究科 M1年 学籍番号 speedster
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
回帰分析(Regression Analysis)
HMM音声合成における 変分ベイズ法に基づく線形回帰
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
ニューラルテスト理論分析ソフト「neutet」の特徴と使い方
ベイズ音声合成における 事前分布とモデル構造の話者間共有
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
LRTモデルに基づくCATの開発と シミュレーションによる特性解析
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
データ分布の特徴 基準化変量 歪度 尖度.
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
混合ガウスモデル Gaussian Mixture Model GMM
Presentation transcript:

1 項目反応理論によるテストの作成 東京工業大学 大学院社会理工学研究科 前川 眞一

2 なぜ IRT か コアカリの進展具合は大学により異なる。 終了判定の時期が異なる。 同じ問題を使うことが出来ない。 異なる問題の間の比較を可能にする。 テスト理論の利用

3 複数のフォーム(版、問題冊子) 大規模試験 には複数のテストフォーム (form) が存在する。  セキュリティのため。  問題漏洩、緊急事態への対応 それぞれの form は異なる問題 で構成されている。 異なる form の得点は比較可能なのか?

4 異なるフォームの比較 一般的に、テストフォームに含まれる 問題が 異なる場合、テスト得点の比較は出来ない。 易しいテストの 50 点をとった人と、 難しいテストの 40 点をとった人は どちらが良くできる人なのか? テスト問題の難易度と、受験生の能力を分離し て考える必要がある。

5 異なるフォームの比較 比較可能にするためには  フォーム間に共通な問題(項目)を入れる。  統計的性質の分かっている問題を入れる。  能力の等しいと考えられる集団に実施する。  大規模試験 ではフォームの間に共通の問題と 統計的性質の分かっている問題が入っている。

6 複数のフォーム 大規模試験 のフォームは、以下の 2 種類の問題 から構成されている。  統計的性質の分かっている問題  新作問題 これらの項目に含まれる情報を利用して異なる フォーム間の得点を比較可能に なるようにしている。

7 日本の伝統的なテスト文化 年に一度、同一問題での試験の一斉実施 新作問題のみでの試験の実施 (プリテスト無し) 試験問題の公開 大問形式の利用 ( 小さな項目の寄せ集めではない ) 問題作成とテスト編集の融合 ( 権威主義 ) 素点・配点の利用(0点と満点) 科挙の影響が大きい?

8 日本的テスト文化(理由) 年に一度、同一問題での試験の斉一実施 (同一問題でないと不公平) 新作問題のみでの試験の実施 (プリテスト無し) (たまたまプリテストを覚えていると得) 試験問題の公開 (情報公開?規制緩和?) 大問形式の利用 ( 多肢選択式で思考力を測る努力、細かいスペックの欠如? ) 問題作成とテスト編集の融合 (権威主義、測定学への無関心) 素点・配点の利用(0点と満点) (権威主義、測定学への無関心、尺度得点への不信感) 危機管理体制の不備 (資金的問題?)

9 世界標準? 独立項目 + 大問 比較可能な尺度得点を受験生へ 年に複数回、異なる問題での分散実施 コンピュータ化  何時でも何処でも  自由記述

10 テストの等化と尺度化 異なるテストフォームの得点を比較可能とする 作業を等化 (equating) と呼ぶ。 テスト理論 (test theory) と呼ばれる 統計的方法を用いる。 特に大規模試験 では、項目反応理論 (Item Response Theory, IRT) と呼ばれるテスト理論が用いられている。

11 テスト理論 テスト理論は 20 世紀初頭から発達 古典的テスト理論 (classical test theory) X = T + E 観測される得点 = 真の得点 + 誤差 この部分だけほしい

12 項目反応理論(項目応答理論) 項目反応理論は 1950 年代から発達 テストを構成する項目の統計的性質に着目 主にアメリカ、オランダ、イスラエル アジア諸国ではあまり利用されていない。

13 項目反応理論 項目の難易度と、受験生の能力の分離 全ての項目が共通にはかっている 1 次元の 能力値を θ で表す。 項目の特性を項目パラメタ a, b で表す。 能力値が θ の人が、項目パラメタ を持つ項目 j に正答する確率を と表し項目特性曲線と呼ぶ ICC or IRF 。 Item Characteristic Curve, Item Response Function

14 原点と単位の不定性 θ の原点と単位は決まっていない。 どのように1次変換をしても良い。 ふつうは全受験生の θ の平均を 0 、 標準偏差を 1 とする。

15

16

17 項目特性曲線

18 古典的項目統計量との関係 a b 項目合計点相関 項目通過率

19 正答数得点と θ の関係の例 正答数 θ

20 多値項目

21

22

23 項目パラメタが既知の場合

24 テスト特性曲線 能力値が θ の人が p 個の項目からなるテストで取れると 考えられる得点(期待値)をテスト特性曲線 TCC と呼ぶ。 項目パラメタが分かっている項目でテストを作ると 何が出来るか。 項目特性曲線を足し合わせたもの。

25 3 項目からなるテストのテスト特性曲線

26 プール問題の項目特性曲線 ( 例)

27 テスト ( フォーム)特性曲線 ( 例) 各フォームに 含まれる 項目特性曲線 の平均

28 θ フォーム間の比較(等化) True Score テスト A の 3 点は テスト B の 2 点。 3 点でも 2 点でも θ は -2.0 。 テスト A の 8 点は テスト B の 5 点。 8 点でも 5 点でも θ は 1.0 。

29

30 複数のテスト

31 θ フォーム間の比較(等化) True Score テスト A の 3 点は テスト B の 2 点。 3 点でも 2 点でも θ は -2.0 。 テスト A の 8 点は テスト B の 5 点。 8 点でも 5 点でも θ は 1.0 。

32 難易度の異なる複数のテスト

33 原点と単位の不定性 θ の原点と単位は決まっていない。 どのように1次変換をしても良い。 ふつうは全受験生の θ の平均を 0 、 標準偏差を 1 とする。 異なるフォームごとに項目パラメタを推定する と比較が出来ない。

34 項目バンク(項目プール) item bank, item pool 統計的性質の分かっている項目の集合 良い問題を作るのは非常にむつかしい。 したがって、それらは公開せずに 蓄積し、再利用すべき。

35 項目バンクの作成 一度に全ての項目を同じ受験生に受けさせるこ とは困難。 共通項目を含む小テストを複数作り、 共通項目の情報を利用して各フォームを繋いで いく。 しかし、先ほどの不定性の問題が残る。 適切なデザインが必要。

36 テストのデザイン

37 アンカー項目の線形性

38 テストのデザイン 1

39 テストのデザイン 2

40 テストのデザイン 3

41 項目バンクの作成

42 項目バンクの作成

43 項目バンクの作成

44 項目バンクの作成

45 項目バンクの作成

46 尺度化の手順

47 尺度化の手順 項目パラメタの推定と等化 共通項目を用いて全ての項目パラメタを 比較可能とすること。 尺度得点の算出 計算される個人の得点に意味を持たせること。 この尺度得点なら、規準集団でどのくらいの位 置か?

48 尺度化:得点の意味 基準集団内の位置(順位)に基づく方法 点数を見れば、その人が基準集団の中で どの位置にいるかが分かる。 偏差値の考え方。 特定の問題セットの正答率に基づく方法 点数を見れば、その人が、ある問題セットで 何点を取れるかが分かる。

49 正規偏差値 基準集団において θ が正規分布するように変換する。 θ z =t(θ) これを線形に変換して平均と標準偏差を決める。 x = s θ z + m = u(θ) この変換を常に施す。

50 IRTに基づく段階評価

51 正規化変換の例

52 項目パラメタの推定と等化 ◎ 一次元性の確認をする。 ① 両テストフォームの受験者の 項目反応データ(正解 =1 、不正解 =0 )から、 一括して項目パラメタ値を推定する。この際、 両テストフォームの尺度は、両フォームに共通 する項目に基づいて等化される。 ② ①で推定した両フォームの項目パラメタ推 定値を、アンカー項目に基づいて基準集団の尺 度に等化する。

53 尺度得点の算出 ③ ②で基準集団に尺度等化された項目パラメ タ推定値と項目反応データを用いて、フォーム ごとに能力推定値 (θ) を推定する。 ④ ③で推定された能力推定値 (θ) を、 得点換算表 θz に換算する。 ⑤ ④で換算された θz を、次式により尺度得点 に換算する。 尺度得点= 400 + 100θz

54 パラメタの推定

55 基本仮定 1

56 基本仮定 2

57 ICC or IRF

58 基本仮定 3

59 基本仮定 4

60 能力値パラメタ θ の推定 特定の項目反応パタンの同時確率(局所独立) 最尤解(最大尤度法、 Maximum Likelihood Method ) 尤度関数を最大とする θ を求める。

61 能力値パラメタ θ の推定 (ICC) 項目パラメタ

62 能力値パラメタ θ の推定(尤度) 尤度関数 対数尤度関数

63 能力値パラメタ θ の推定(最尤解 ) 対数尤度関数の最大値(関数の最適化) 対数尤度の一次微分が 0 の点

64 能力値パラメタ θ の推定(最尤解) 対数尤度関数の一次微分が 0 の点 ICC の微分 対数尤度 の微分

65 能力値パラメタ θ の推定( Bayes 解) Bayes 推定法 事後分布 は 尤度関数 と 事前分布 の積に比例する 。 事前分布

66 事前分布 N(0,1) 尤度関数 事後分布 積 能力値パラメタ θ の推定 (Bayes 解 )

67 能力値パラメタ θ の推定( Bayes 解)

68 能力値パラメタ θ の推定(別の例)

69 能力値パラメタ θ の推定(尤度) 尤度関数 対数尤度関数

70 能力値パラメタ θ の推定(最尤解 ) 対数尤度関数の最大値(関数の最適化) 対数尤度の一次微分が 0 の点

71 能力値パラメタ θ の推定(最尤解) 対数尤度関数の一次微分が 0 の点 ICC の微分 対数尤度 の微分

72 事前分布 N(0,1) 尤度関数 事後分布 積 能力値パラメタ θ の推定 (Bayes 解 )

73 能力値パラメタ θ の推定( Bayes 解)

74 項目パラメタの推定(同時)

75 項目パラメタの推定(周辺)

76 項目パラメタの推定(周辺)

77 EM アルゴリズム

78 項目1のパラメタに関する 期待対数完全データ尤度関数

79 項目1のパラメタに関する 期待対数完全データ尤度関数の等高線

80 項目 2 のパラメタに関する 期待対数完全データ尤度関数

81 項目 2 のパラメタに関する 期待対数完全データ尤度関数の等高線

82

83 おわり