1 項目反応理論によるテストの作成 2009 07 30 東京工業大学大学院社会理工学研究科前川眞一.

Slides:

Advertisements

Similar presentations

1 小暮研究会２第１章ベイジアンアルゴリズム２値選択ベルヌーイ試行尤度原理同一性交換可能性尤度についてのまとめ環境情報学部３年渡邊洋一.

Advertisements

１標本のｔ検定 3 年地理生態学研究室脇海道卓. ｔ検定とは・帰無仮説が正しいと仮定した場合に、統計量が t 分布に従うことを利用する統計学的検定法の総称である。

『わかりやすいパターン認識』第 5 章特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則発表日： 5 月 23 日（金）発表者：時田陽一.

Lesson 9. 頻度と分布 §D. 正規分布. 正規分布 Normal Distribution 最もよく使われる連続確率分布釣り鐘形の曲線－∽から＋ ∽までの値を取る平均 mean ＝中央値 median ＝最頻値 mode 曲線より下の面積は１に等しい.

1 変量データの記述（度数分布表とヒストグラム）経済データ解析 2009 年度後期. あるクラスのテストの点数が次のようになっていたとする。このように出席番号と点数が並んでいるものだけでは、このクラスの特徴がわかりづらい。 → このクラスの特徴がわかるような工夫が必要 → このクラスの特徴がわかるような工夫が必要.

土木計画学第３回：１０月１９日調査データの統計処理と分析２担当：榊原弘之. 標本調査において，母集団の平均や分散などを直接知ることはできない．母集団の平均値（母平均）母集団の分散（母分散）母集団中のある値の比率（母比率） p Sample 標本平均標本分散（不偏分散）標本中の比率.

４．統計的検定 ( ダイジェスト版 ) 保健統計 2014 年度. Ⅰ 仮説検定の考え方次のような問題を考える。 2014 年のセンター試験、英語の平均点は 119 点であった。 T 高校では 3 年生全員がセンター試験を受験したが、受験生の中から 25 人を選んで調査したところ、その平均点は.

1 統計学第２週 10/01 （月）担当：鈴木智也. 2 前回のポイント「記述統計」と「推測統計」。データ自体の規則性を記述するのが「記述統計」、データを生み出した背景を推測するのが「推測統計」である。推測統計は記述統計に基づくので、まずは記述統計から学ぶ。以下、データの観測値をＸ.

生体情報論演習 - 統計法の実践第 1 回京都大学情報学研究科杉山麿人.

放射線の計算や測定における統計誤差「平均の誤差」とその応用（ 1H) 2 項分布、ポアソン分布、ガウス分布（ 1H ）最小二乗法（ 1H ）

ベイズの定理とベイズ統計学東京工業大学大学院社会理工学研究科前川眞一. 2 Coffe or Tea 珈琲と紅茶のどちらが好きかと聞いた場合、 Star Trek のファンの 60% が紅茶を好む。 Star Wars のファンの 95% が珈琲を好む。ある人が紅茶を好むと分かったとき、その人が.

●母集団と標本母集団標本母数母平均、母分散無作為抽出標本データの分析（記述統計学）母集団における状態の推測（推測統計学）

第4章統計的検定統計学　2007年度.

看護学部中澤港統計学第５回看護学部　中澤　港

様々な仮説検定の場面 ① １標本の検定 ② ２標本の検定 ③ ３標本以上の検定 ④ ２変数間の関連の強さに関する検定

確率･統計Ⅰ 第12回統計学の基礎1 ここです！確率論とは確率変数、確率分布確率変数の独立性／確率変数の平均

周育佳東京外国語大学地域文化研究科博士後期課程

Pattern Recognition and Machine Learning 1.5 決定理論

第１回担当：　西山統計学.

土木計画学第５回（１１月２日）調査データの統計処理と分析３担当：榊原　弘之.

統計解析第9回第9章正規分布、第11章理論分布.

Bassモデルにおける最尤法を用いたパラメータ推定

統計的仮説検定の考え方 (1)母集団におけるパラメータに仮説を設定する → 帰無仮説 (2)仮説を前提とした時の、標本統計量の分布を考える

疫学概論母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.

Effect　sizeの計算方法標準偏差が正確に求められるほど症例数が十分ないときは､測定しえた症例の中で､最大値と最小値の値の差を4で割り算した値を代用することが出来る｡この場合には正規分布に従うことを仮定することになる｡

Bias2 - Variance - Noise 分解

Bias2 - Variance - Noise 分解

ベイズ的ロジスティックモデルに関する研究

「データ学習アルゴリズム」第2章学習と統計的推測報告者佐々木稔 2003年5月21日 2.1 データと学習

統計学第３回　10/11 担当：鈴木智也.

確率･統計輪講資料 6-5　適合度と独立性の検定 6-6　最小2乗法と相関係数の推定・検定 M1　西澤.

応用統計学の内容推測統計学(inferential statistics) 　　連続型の確率分布　　標本分布　　統計推定　　統計的検定.

統計学 11/08（木）鈴木智也.

正規性の検定 ● χ2分布を用いる適合度検定 ●コルモゴロフ‐スミノルフ検定

最尤推定によるロジスティック回帰対数尤度関数の最大化.

ベイズ基準によるHSMM音声合成の評価 ◎橋本佳，南角吉彦，徳田恵一（名工大）.

地理情報システム論演習地理情報システム論演習

ガウス過程による回帰 Gaussian Process Regression GPR

7. 音声の認識：高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.

第9章　混合モデルとEM 修士２年北川直樹.

応用統計学の内容推測統計学(inferential statistics) 　　連続型の確率分布　　標本分布　　統計推定　　統計的検定.

第14章　モデルの結合修士２年山川佳洋.

第５章特徴の評価とベイズ誤り確率５．５ベイズ誤り確率の推定法 [1] 誤識別率の偏りと分散 [2] ベイズ誤り確率の上限および下限

第６章特徴空間の変換６．１特徴選択と特徴空間の変換６．２特徴量の正規化平成１５年５月２３日（金）発表者藤井丈明

藤田保健衛生大学医学部公衆衛生学柿崎真沙子

市場調査の手順問題の設定調査方法の決定データ収集方法の決定データ収集の実行データ分析と解釈報告書の作成標本デザイン、データ収集

東北大学大学院情報科学研究科応用情報科学専攻田中和之(Kazuyuki Tanaka)

分子生物情報学(3) 確率モデル（隠れマルコフモデル）に基づく配列解析

ベイズ･アプローチによるグラフィカル･テスト理論

早稲田大学大学院商学研究科２０１４年１２月１０日大塚忠義

データの型量的データ質的データ数字で表現されるデータ身長、年収、得点カテゴリで表現されるデータ性別、職種、学歴

「データ学習アルゴリズム」第3章複雑な学習モデル報告者佐々木稔 2003年6月25日 3.1 関数近似モデル

第4章統計的検定（その2）統計学　2006年度.

わかりやすいパターン認識第７章：部分空間法　7.1　部分空間法の基本　7.2　ＣＬＡＦＩＣ法　　　　　　　　　　　　　　　　　６月13日（金）　　　　　　　　　　　　　　　　　大城　亜里沙.

第3章　線形回帰モデル修士1年山田　孝太郎.

経営学研究科 M1年学籍番号 speedster

最尤推定・最尤法明治大学理工学部応用化学科データ化学工学研究室金子弘昌.

回帰分析（Regression Analysis)

HMM音声合成における変分ベイズ法に基づく線形回帰

パターン認識ークラスタリングとEMアルゴリズムー担当：和田俊和部屋 A513

パターン認識ークラスタリングとEMアルゴリズムー担当：和田俊和部屋 A513

ニューラルテスト理論分析ソフト「neutet」の特徴と使い方

ベイズ音声合成における事前分布とモデル構造の話者間共有

藤田保健衛生大学医学部公衆衛生学柿崎真沙子

LRTモデルに基づくCATの開発とシミュレーションによる特性解析

東北大学大学院情報科学研究科応用情報科学専攻田中和之(Kazuyuki Tanaka)

データ分布の特徴基準化変量歪度尖度.

確率的フィルタリングを用いたアンサンブル学習の統計力学三好誠司岡田真人神戸高専東大，理研

確率的フィルタリングを用いたアンサンブル学習の統計力学三好誠司岡田真人神戸高専東大，理研

混合ガウスモデル Gaussian Mixture Model GMM

Presentation transcript:

1 項目反応理論によるテストの作成東京工業大学大学院社会理工学研究科前川眞一

2 なぜ IRT かコアカリの進展具合は大学により異なる。終了判定の時期が異なる。同じ問題を使うことが出来ない。異なる問題の間の比較を可能にする。テスト理論の利用

3 複数のフォーム（版、問題冊子）大規模試験には複数のテストフォーム (form) が存在する。  セキュリティのため。  問題漏洩、緊急事態への対応それぞれの form は異なる問題で構成されている。異なる form の得点は比較可能なのか？

4 異なるフォームの比較一般的に、テストフォームに含まれる問題が異なる場合、テスト得点の比較は出来ない。易しいテストの 50 点をとった人と、難しいテストの 40 点をとった人はどちらが良くできる人なのか？テスト問題の難易度と、受験生の能力を分離して考える必要がある。

5 異なるフォームの比較比較可能にするためには  フォーム間に共通な問題（項目）を入れる。  統計的性質の分かっている問題を入れる。  能力の等しいと考えられる集団に実施する。  大規模試験ではフォームの間に共通の問題と統計的性質の分かっている問題が入っている。

6 複数のフォーム大規模試験のフォームは、以下の 2 種類の問題から構成されている。  統計的性質の分かっている問題  新作問題これらの項目に含まれる情報を利用して異なるフォーム間の得点を比較可能になるようにしている。

7 日本の伝統的なテスト文化年に一度、同一問題での試験の一斉実施新作問題のみでの試験の実施（プリテスト無し）試験問題の公開大問形式の利用 ( 小さな項目の寄せ集めではない ) 問題作成とテスト編集の融合 ( 権威主義 ) 素点・配点の利用（０点と満点）科挙の影響が大きい？

8 日本的テスト文化（理由）年に一度、同一問題での試験の斉一実施（同一問題でないと不公平）新作問題のみでの試験の実施（プリテスト無し）（たまたまプリテストを覚えていると得）試験問題の公開（情報公開？規制緩和？）大問形式の利用（多肢選択式で思考力を測る努力、細かいスペックの欠如？）問題作成とテスト編集の融合（権威主義、測定学への無関心）素点・配点の利用（０点と満点）（権威主義、測定学への無関心、尺度得点への不信感）危機管理体制の不備（資金的問題？）

9 世界標準？独立項目 + 大問比較可能な尺度得点を受験生へ年に複数回、異なる問題での分散実施コンピュータ化  何時でも何処でも  自由記述

10 テストの等化と尺度化異なるテストフォームの得点を比較可能とする作業を等化 (equating) と呼ぶ。テスト理論 (test theory) と呼ばれる統計的方法を用いる。特に大規模試験では、項目反応理論 (Item Response Theory, IRT) と呼ばれるテスト理論が用いられている。

11 テスト理論テスト理論は 20 世紀初頭から発達古典的テスト理論 (classical test theory) X = T + E 観測される得点 = 真の得点 + 誤差この部分だけほしい

12 項目反応理論（項目応答理論）項目反応理論は 1950 年代から発達テストを構成する項目の統計的性質に着目主にアメリカ、オランダ、イスラエルアジア諸国ではあまり利用されていない。

13 項目反応理論項目の難易度と、受験生の能力の分離全ての項目が共通にはかっている 1 次元の能力値を θ で表す。項目の特性を項目パラメタ a, b で表す。能力値が θ の人が、項目パラメタを持つ項目 j に正答する確率をと表し項目特性曲線と呼ぶ ICC or IRF 。 Item Characteristic Curve, Item Response Function

14 原点と単位の不定性 θ の原点と単位は決まっていない。どのように１次変換をしても良い。ふつうは全受験生の θ の平均を 0 、標準偏差を 1 とする。

15

16

17 項目特性曲線

18 古典的項目統計量との関係 a b 項目合計点相関項目通過率

19 正答数得点と θ の関係の例正答数 θ

20 多値項目

21

22

23 項目パラメタが既知の場合

24 テスト特性曲線能力値が θ の人が p 個の項目からなるテストで取れると考えられる得点（期待値）をテスト特性曲線 TCC と呼ぶ。項目パラメタが分かっている項目でテストを作ると何が出来るか。項目特性曲線を足し合わせたもの。

25 3 項目からなるテストのテスト特性曲線

26 プール問題の項目特性曲線 ( 例）

27 テスト ( フォーム）特性曲線 ( 例）各フォームに含まれる項目特性曲線の平均

28 θ フォーム間の比較（等化） True Score テスト A の 3 点はテスト B の 2 点。 3 点でも 2 点でも θ は -2.0 。テスト A の 8 点はテスト B の 5 点。 8 点でも 5 点でも θ は 1.0 。

29

30 複数のテスト

31 θ フォーム間の比較（等化） True Score テスト A の 3 点はテスト B の 2 点。 3 点でも 2 点でも θ は -2.0 。テスト A の 8 点はテスト B の 5 点。 8 点でも 5 点でも θ は 1.0 。

32 難易度の異なる複数のテスト

33 原点と単位の不定性 θ の原点と単位は決まっていない。どのように１次変換をしても良い。ふつうは全受験生の θ の平均を 0 、標準偏差を 1 とする。異なるフォームごとに項目パラメタを推定すると比較が出来ない。

34 項目バンク（項目プール） item bank, item pool 統計的性質の分かっている項目の集合良い問題を作るのは非常にむつかしい。したがって、それらは公開せずに蓄積し、再利用すべき。

35 項目バンクの作成一度に全ての項目を同じ受験生に受けさせることは困難。共通項目を含む小テストを複数作り、共通項目の情報を利用して各フォームを繋いでいく。しかし、先ほどの不定性の問題が残る。適切なデザインが必要。

36 テストのデザイン

37 アンカー項目の線形性

38 テストのデザイン 1

39 テストのデザイン 2

40 テストのデザイン 3

41 項目バンクの作成

42 項目バンクの作成

43 項目バンクの作成

44 項目バンクの作成

45 項目バンクの作成

46 尺度化の手順

47 尺度化の手順項目パラメタの推定と等化共通項目を用いて全ての項目パラメタを比較可能とすること。尺度得点の算出計算される個人の得点に意味を持たせること。この尺度得点なら、規準集団でどのくらいの位置か？

48 尺度化：得点の意味基準集団内の位置（順位）に基づく方法点数を見れば、その人が基準集団の中でどの位置にいるかが分かる。偏差値の考え方。特定の問題セットの正答率に基づく方法点数を見れば、その人が、ある問題セットで何点を取れるかが分かる。

49 正規偏差値基準集団において θ が正規分布するように変換する。 θ ｚ =t(θ) これを線形に変換して平均と標準偏差を決める。 x = s θ ｚ + m = u(θ) この変換を常に施す。

50 ＩＲＴに基づく段階評価

51 正規化変換の例

52 項目パラメタの推定と等化 ◎ 一次元性の確認をする。 ① 両テストフォームの受験者の項目反応データ（正解 =1 、不正解 =0 ）から、一括して項目パラメタ値を推定する。この際、両テストフォームの尺度は、両フォームに共通する項目に基づいて等化される。 ② ①で推定した両フォームの項目パラメタ推定値を、アンカー項目に基づいて基準集団の尺度に等化する。

53 尺度得点の算出 ③ ②で基準集団に尺度等化された項目パラメタ推定値と項目反応データを用いて、フォームごとに能力推定値 (θ) を推定する。 ④ ③で推定された能力推定値 (θ) を、得点換算表 θz に換算する。 ⑤ ④で換算された θz を、次式により尺度得点に換算する。尺度得点＝ 400 ＋ 100θz

54 パラメタの推定

55 基本仮定 1

56 基本仮定 2

57 ICC or IRF

58 基本仮定 3

59 基本仮定 4

60 能力値パラメタ θ の推定特定の項目反応パタンの同時確率（局所独立）最尤解（最大尤度法、 Maximum Likelihood Method ）尤度関数を最大とする θ を求める。

61 能力値パラメタ θ の推定 (ICC) 項目パラメタ

62 能力値パラメタ θ の推定（尤度）尤度関数対数尤度関数

63 能力値パラメタ θ の推定（最尤解）対数尤度関数の最大値（関数の最適化）対数尤度の一次微分が 0 の点

64 能力値パラメタ θ の推定（最尤解）対数尤度関数の一次微分が 0 の点 ICC の微分対数尤度の微分

65 能力値パラメタ θ の推定（ Bayes 解） Bayes 推定法事後分布は尤度関数と事前分布の積に比例する。事前分布

66 事前分布 N(0,1) 尤度関数事後分布積能力値パラメタ θ の推定 (Bayes 解 )

67 能力値パラメタ θ の推定（ Bayes 解）

68 能力値パラメタ θ の推定（別の例）

69 能力値パラメタ θ の推定（尤度）尤度関数対数尤度関数

70 能力値パラメタ θ の推定（最尤解）対数尤度関数の最大値（関数の最適化）対数尤度の一次微分が 0 の点

71 能力値パラメタ θ の推定（最尤解）対数尤度関数の一次微分が 0 の点 ICC の微分対数尤度の微分

72 事前分布 N(0,1) 尤度関数事後分布積能力値パラメタ θ の推定 (Bayes 解 )

73 能力値パラメタ θ の推定（ Bayes 解）

74 項目パラメタの推定（同時）

75 項目パラメタの推定（周辺）

76 項目パラメタの推定（周辺）

77 EM アルゴリズム

78 項目１のパラメタに関する期待対数完全データ尤度関数

79 項目１のパラメタに関する期待対数完全データ尤度関数の等高線

80 項目 2 のパラメタに関する期待対数完全データ尤度関数

81 項目 2 のパラメタに関する期待対数完全データ尤度関数の等高線

82

83 おわり