ニューラルテスト理論: 資格試験のためのテスト理論

Slides:



Advertisements
Similar presentations
Maxent model への挑戦 - 驚きとドキドキ感の理論 - 大野ゆかり Phillips et al. (2006) Maximum entropy modeling of species geographic distributions. Ecological Modeling 190:
Advertisements

潜在クラス分析入門 山口和範. 内容 条件付独立 シンプソンのパラドックス 対数線形モデルにおける表現 局所独立 潜在変数モデル Lem 入門.
統計学入門2 関係を探る方法 講義のまとめ. 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士.
ベイズの定理と ベイズ統計学 東京工業大学大学院 社会理工学研究科 前川眞一. 2 Coffe or Tea 珈琲と紅茶のどちらが好きかと聞いた場合、 Star Trek のファンの 60% が紅茶を好む。 Star Wars のファンの 95% が珈琲を好む。 ある人が紅茶を好むと分かったとき、その人が.
第 5 章 2 次元モデル Chapter 5 2-dimensional model. Contents 1.2 次元モデル 2-dimensional model 2. 弱形式 Weak form 3.FEM 近似 FEM approximation 4. まとめ Summary.
1 項目反応理論によるテストの作成 東京工業大学 大学院社会理工学研究科 前川 眞一.
VE 01 え form What is え form? え? You can do that many things with え form?
グラフィカル多変量解析 ----目で見る共分散構造分析----
白井ゼミ 豊田秀樹(2008)『データマイニング入門』 (東京図書)。4章
因子分析,共分散構造分析 Factor Analysis Structural Equations Model
先端論文ゼミ -タイトル- Identification of homogeneous regions for regional frequency analysis using the self organizing map (自己組織化マップを使っている地域の頻度分析のための均一な地 方の識別)
コメント 「ファセット・アプローチの 魅力とパワー」
周育佳 東京外国語大学地域文化研究科博士後期課程
THE CONTINUOUS IMPROVEMENT MODEL called ADEC
AP/5 2013年2月7日.
コメント 狩野 裕 大阪大学人間科学部 日本心理学会ワークショップ 「探索的因子分析における変数の選択(3)」
2010年7月9日 統計数理研究所 オープンハウス 確率モデル推定パラメータ値を用いた市場木材価格の期間構造変化の探求 Searching for Structural Change in Market-Based Log Price with Regard to the Estimated Parameters.
「Self-Organizing Map 自己組織化マップ」 を説明するスライド
Bassモデルにおける 最尤法を用いたパラメータ推定
多数の疑似システムを用いた システム同定の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
潜在ランク理論に基づく コンピュータアダプティブテスト
What did you do, mate? Plain-Past
第6章 2つの平均値を比較する 2つの平均値を比較する方法の説明    独立な2群の平均値差の検定   対応のある2群の平均値差の検定.
Object Group ANalizer Graduate School of Information Science and Technology, Osaka University OGAN visualizes representative interactions between a pair.
初歩的情報リテラシーと アンケート集計のためのExcel・SPSS講座
Paper from PVLDB vol.7 (To appear in VLDB 2014)
SP0 check.
ワークショップ ユーザーとメーカーの公開相談会
ニューラルテスト理論を利用した 教科テストの Can-do table 作成
Licensing information
CRLA Project Assisting the Project of
13.1 パス解析 (1) 標準偏回帰係数 変数の標準化.
第4日目第3時限の学習目標 検査の信頼性(続き)を学ぶ。 妥当性について学ぶ。 (1)構成概念妥当性とは? (2)内容妥当性とは?
PCAからICAへ? 狩野裕+清水昌平 (大阪大学人間科学部) 日本行動計量学会:東京大学 平成12年10月.
混合ガウスモデルによる回帰分析および 逆解析 Gaussian Mixture Regression GMR
Traits 形質.
T2統計量・Q統計量 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
情報源:MARA/ARMA 加 工:成田空港検疫所 菊池
訓練データとテストデータが 異なる分布に従う場合の学習
指標の数と信頼性・ 内容的妥当性 指標の数は多いほうがよい.
Where is Wumpus Propositional logic (cont…) Reasoning where is wumpus
大規模なこと Large scale.
逐次プログラムの正当性(2) 帰納的アサーション法(フロイド法)
Michael Jeffrey Jordan
クイズやゲーム形式で紹介した実例です。いずれも過去のインターン作です。
2019年4月8日星期一 I. EPL 84, (2008) 2019年4月8日星期一.
Data Clustering: A Review
再討論 狩野裕 (大阪大学人間科学部).
日本の高校における英語の授業は英語でがベストか?
2019/4/22 Warm-up ※Warm-up 1~3には、小学校外国語活動「アルファベットを探そう」(H26年度、神埼小学校におけるSTの授業実践)で、5年生が撮影した写真を使用しています(授業者より使用許諾済)。
Good morning distinguished guests, ladies and gentlemen
1.因子分析とは 2.因子分析を行う前に確認すべきこと 3.因子分析の手順 4.因子分析後の分析 5.参考文献 6.課題11
自己組織化マップ Self-Organizing Map SOM
確率的画像処理アルゴリズム入門 東北大学 大学院情報科学研究科 田中 和之
Created by L. Whittingham
東北大 情報科学 田中和之,吉池紀子 山口大 工 庄野逸 理化学研究所 岡田真人
疫学概論 頻度と分布 Lesson 9. 頻度と分布 §A. 頻度または度数 S.Harano,MD,PhD,MPH.
ニューラルテスト理論分析ソフト「neutet」の特徴と使い方
荘島宏二郎 大学入試センター研究開発部 The batch-type neural test model : A latent rank model with the mechanism of generative topographic mapping 荘島宏二郎.
ポッツスピン型隠れ変数による画像領域分割
せつぞくし 接続詞 Conjunctions.
LRTモデルに基づくCATの開発と シミュレーションによる特性解析
荘島宏二郎 大学入試センター研究開発部 ニューラルテスト理論 荘島宏二郎 大学入試センター研究開発部
荘島宏二郎 大学入試センター研究開発部 Asymmetric von Mises Scaling 荘島宏二郎 大学入試センター研究開発部
心理学研究の自己点検(6): 心理学研究における 探索的因子分析の基本問題 企画・講演:堀 啓造氏
習熟度別クラス編成のための 英語基礎力判定標準化テスト 作成の試み
自己縮小画像と混合ガウス分布モデルを用いた超解像
ガウシアングラフィカルモデルにおける一般化された確率伝搬法
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
転移学習 Transfer learning
Presentation transcript:

ニューラルテスト理論: 資格試験のためのテスト理論 荘島宏二郎 大学入試センター研究開発部 shojima@rd.dnc.ac.jp

テスト 社会の公具(public tool;荘島,2007) テストの果たすべき3つの文脈(荘島,2007) 人的資源の社会的配置問題に密接に関係 テストの果たすべき3つの文脈(荘島,2007) 測定の文脈 どうしてその能力を測るの? 説明の文脈 なぜその能力が重要なの? 存在の文脈 在り方(way of presence)が重要

テスト理論 テストを経年的に運用するための方法論 標準化(standardization) の技術を提供 古典的テスト理論 項目反応理論 潜在尺度(能力の次元)が連続 標準化(standardization) の技術を提供 尺度化(scaling) 等化(equating)

ニューラルテスト理論 (neural test theory, NTT) Shojima (2008) IMPS2007 CV, in press. 自己組織化マップ(SOM; Kohonen, 1995)のメカニズムを利用したテスト理論 尺度化 潜在尺度が順序尺度 潜在ランク(ランク数は3~20) 項目参照プロファイル テスト参照プロファイル ランク・メンバーシップ・プロファイル 等化 共時等化法(concurrent calibration) 4 4

なぜ順序尺度? 2つの主な理由 方法論的理由 教育社会学的理由 5 5

方法論的理由 心理変数は連続である可能性 心理変数を連続尺度上で測定する道具は高解像度ではない 推論,読解力,能力・・・ 不安,うつ,劣等感・・・ 心理変数を連続尺度上で測定する道具は高解像度ではない テスト 心理質問紙 社会調査票 6 6

体重と体重計 現象(連続) 測定(高解像度) 3 4 1 2 7 Weight 7

能力とテスト 現象(連続?) 測定(低信頼性・低解像度) 4 3 2 1 8 Ability 8

解像度(Resolution) 2つ以上のモノの差異を検出する力 体重計 テスト ほとんど同じ体重をもつ2人の違いを見抜くことが可能 ほぼ間違いなくキログラム尺度上で人々を並び替えることが可能 テスト 大体同じ能力を持つ2人の違いを見抜くことができない 人々を正確に並び替えることが不可能 テストは,受検者をいくつかのレベルに段階付けるくらいがせいぜい 9 9

教育社会学的理由 連続尺度の負の側面 順序尺度の正の側面 生徒たちは,日々,一点でも高い得点をとるよう動機付けられている 不安定な連続尺度の乱高下に一喜一憂させるべきではない 順序尺度の正の側面 段階評価は,連続尺度上での評価よりも頑健 継続して努力しないと上位ランクに進めない 10 10

NTT 潜在ランク理論 SOM GTM Binary RN08-02 RN07-03 RN07-21 Continuous Shojima (in press) RN08-02 Polytomous (ordinal) RN07-03 In preparation (nominal) RN07-21 Continuous NTT ML (RN07-04) Fitness (RN07-05) Missing (RN07-06) Equating (RN07-9) Bayes (RN07-15) 11 11

NTTにおける統計的学習 ・For (t=1; t ≤ T; t = t + 1) ・U(t)←Randomly sort row vectors of U   ・For (h=1; h ≤ N; h = h + 1)   ・Obtain zh(t) from uh(t)   ・Select winner rank for uh(t)   ・Obtain V(t,h) by updating V(t,h−1) ・V(t,N)←V(t+1,0) Point 1 Point 2 Slide 10 This is the framework for estimating the NTT model. Skipping the details, there are two main procedures: selecting the winner rank (point 1) and updating the reference matrix (point 2). 12 12

NTTのメカニズム Latent rank scale Number of items Response Point 2 Point 1 1 1 Number of items Slide 11 The NTT mechanism is graphically explained in this slide. To begin with, a one-dimensional lattice or chain is prepared. This is the latent rank scale of the NTT. In the figure, the number of latent ranks is seven. Each latent rank has its own reference vector whose size is equal to the number of items. Each element is a number from 0 to 1. This matrix composed of the number of items times the number of latent ranks elements is the rank reference matrix. If this data vector is input, the rank whose vector is closest to the input data is the winner rank. This process is Point 1. Then, the reference vector of the winner rank is changed so that it becomes closer to the input data. In addition, the reference vectors of neighboring ranks are updated according to their geographic closeness to the winner. This process is Point 2. Statistical learning continues repeatedly in this manner. Latent rank scale 13 13

Point 1: 勝者ランク選択 The least squares method is also available. Likelihood ML Bayes Slide 12 Mathematically, the winner rank is determined by distance based on likelihood. The maximum likelihood method or Bayesian method is useful for determining the winner rank. The least squares method is also available. 14 14

Point 2: ランク参照行列の更新 The nodes of the ranks nearer to the winner are updated to become closer to the input data h: tension α: size of tension σ: region size of learning propagation Slide 13 Then, this is the method for updating the reference matrix. It is very simple. My colleague developed software for the NTT in one day. 15 15

分析例 地理テスト N 5000 n 35 Median 17 Max Min 2 Range 33 Mean 16.911 Sd 4.976 Skew 0.313 Kurt -0.074 Alpha 0.704 16 16

項目参照プロファイルの例 17 単純増加制約を課すことも可能 17

IRP指標 (1) 項目困難度 Beta B Rank stepping over 0.5 Its value 熊谷 (2007) 18 Slide 18 Professor Kumagai proposed some IRP indices. Skipping the details, this index is the item difficulty. 熊谷 (2007) 18 18

IRP指標 (2) 項目識別度 Alpha Smaller rank of the neighboring pair with the biggest change A Its value Slide 19 This is the item discriminancy. 19 19

IRP指標 (3) 項目単調度 Gamma Proportion of neighboring pairs with negative changes. C Their sum Slide 20 And this is the item monotonicity. 20 20

項目参照プロファイルの推定値 IRP指標 ・・・ ITEM R1 R2 R3 R8 R9 R10 A α B β C γ 1 0.262 0.257 0.255 0.416 0.460 0.497 0.044 8 10 -0.007 0.222 2 0.271 0.240 0.319 0.320 0.317 0.025 5 -0.033 0.333 3 0.597 0.624 0.669 0.856 0.867 0.880 0.057 4 0.000 0.210 0.204 0.202 0.539 0.592 0.084 7 9 -0.009 0.227 0.219 0.214 0.390 0.445 0.071 -0.013 6 0.747 0.784 0.836 0.914 0.921 0.928 0.052 0.111 0.352 0.326 0.296 0.439 0.440 0.436 0.051 -0.066 0.444 0.229 0.234 0.238 0.490 0.593 0.667 0.104 0.491 0.562 0.778 0.802 0.816 0.287 0.254 0.548 0.648 0.719 0.112 -0.094 32 0.189 0.170 0.157 0.302 0.332 0.360 0.042 -0.032 33 0.168 0.188 0.221 0.376 0.414 34 0.407 0.413 0.424 0.566 0.585 0.036 0.535 35 0.481 0.522 0.569 0.765 0.794 21 21

Can-Do Table (例) 到達度評価表 Ability category and item content IRP estimates IRP indices 22 22

テスト参照プロファイル (test reference profile, TRP) IRPの重み付き和 各潜在ランクの期待値 弱順序配置条件(Weakly ordinal alignment condition) TRPが単調増加だけど,全てのIRPが単調であるわけではない 強順序配置条件(Strongly ordinal alignment condition) 全てのIRPが単調増加  TRPも単調増加 潜在尺度が順序尺度であるためには,少なくともWOACを満たす必要 23 23

適合度指標 ML, Q=10 ML, Q=5 潜在ランク数を決定するのに便利 24 24

潜在ランクの推定 Likelihood ML Bayes 25 25

潜在ランク分布 (latent rank distribution, LRD) いつも必ず平坦ではない 反応パタンの類似性によってランク分けされる 最小2乗法と最尤推定法は,両端のランクに人がたまる傾向がある ベイズ推定法を用いれば解消できる 26 26

層別化LRD LRD stratified by sex LRD stratified by establishment 27 27

潜在ランクと得点の関係 NTT尺度の妥当性を傍証 R-S散布図 R-Q散布図 Spearman’s R=0.929 28 28

ランク・メンバーシップ・プロファイル (rank membership profile, RMP) 各受検者がどの潜在ランクに所属するかについての事後分布 RMP Slide 29 Rank membership profile is the posterior distribution of latent rank, and it is useful for reviewing the probabilities that each examinee belongs to the respective latent ranks. 29 29

RMPの例 30 30

ウェブサイト ソフトウェア http://www.rd.dnc.ac.jp/~shojima/ntt/index.htm EasyNTT 開発者:熊谷先生(新潟大学) Neutet 開発者:橋本先生(大学入試センター) 31 31

拡張モデル Graded Neural Test Model (RN07-03) NTT model for ordinal polytomous data Nominal Neural Test Model (RN07-21) NTT model for nominal polytomous data Batch-type NTT Model (RN08-03) Continuous Neural Test Model Multidimensional Neural Test Model 32 32

段階ニューラルテストモデル 境界カテゴリ参照プロファイル of Items 1-9 破線は,観測率プロファイル (ORP)

段階ニューラルテストモデル 項目カテゴリ参照プロファイル of Items 1-9 破線は観測率プロファイル

名義ニューラルテストモデル 項目カテゴリ参照プロファイル of Items 1-16 名義ニューラルテストモデル 項目カテゴリ参照プロファイル of Items 1-16 * 正答選択肢, x 10%未満のカテゴリをマージしたカテゴリ

議論 潜在尺度が順序であるテスト標準化理論 項目バンクを作成してテスト編集ができる 等化も可能 潜在尺度が順序尺度 モデルの非線形性と柔軟性 難しいIRPをもつ項目のみを選抜してテストを編集すれば高学力層向きのテストが編集できる 等化も可能 共時等化法(concurrent calibration) 学力の経年変化などに運用できる

NTTの拡張(2) Structural Neurofield Mapping: 構造神経場マッピング Latent rank model for Multivariate Data 多変量データのための潜在ランク理論 37 37

SEMのパス図:因子のパス解析

SEMのパス図(2):階層因子モデル

問題意識 1つの潜在変数を2~5の観測変数が測定 多くても観測変数は10くらい 潜在変数は連続変数 潜在的な名義変数(潜在クラス)も一般的

測定論の立場から 1つの潜在変数を5つくらいの観測変数で連続尺度上で評価することは難しい たとえば,テストでいえば,50くらいの項目でようやく能力を10~20段階に評価するくらいがせいぜい 解像度(ものの違いを見抜く力)が小さいから 潜在的な順序尺度の必要性

NTTからSNMへ 実は,NTTは1因子の因子分析みたいなもの NTTをSEMっぽく拡張することが可能 ただし,因子が順序変数 NTTをSEMっぽく拡張することが可能 Structural Neurofield Mapping (SNM) 構造神経場マッピング 確認的高次元SOM 多次元NTT

Higher-Order Multidimensional NTT Model SNMの下位モデル 全ての因子は順序尺度 テストが複数の下位テストからなる 下位テストごとに潜在ランクを推定 高次潜在ランクも推定

HOMDNTTモデルにおける統計的学習 44 Slide 10 This is the framework for estimating the NTT model. Skipping the details, there are two main procedures: selecting the winner rank (point 1) and updating the reference matrix (point 2). 44 44

図的説明 x x f f f f

英語テストの分析

問題構成 下位テスト 問題内容 項目数 1 発音 6 2 文法穴埋め 16 3 文章並び替え 7 4 図表読解 5 会話文読解 長文読解 8

分析モデル 1D-NTT Confirmatory 6-Dimensional Neural Test Model or High-Dimensional Self-Organizing Map 1D-NTT 3 5 10

分析モデル 10 Graded Neural Test Model 3 5 10 Graded Neural Test Model 1D-NTT for Categorical-Ordered Response Data

Item Reference Profiles of Ability 1 (n=6, Q=3)

IRPs of Ability 2 (n=16, Q=5)

IRPs of Ability 3 (n=7, Q=3)

IRPs of Ability 4 (n=5, Q=3)

IRPs of Ability 5 (n=5, Q=3)

IRPs of Ability 6 (n=8, Q=3)

Test Reference Profiles of 6 Abilities

Latent Rank Distributions of 6 Abilities

Spearman’s R Matrix Ability 1 2 3 4 5 6 0.354 0.280 0.603 0.223 0.525 0.453 0.241 0.455 0.384 0.378 0.545 0.449 0.437 0.431

Rank Membership Profiles of Examinees 1, 7 and 9 for 6 Abilities

Boundary Category Reference Profiles of 6 Abilities on General Ability

Item Category Reference Profiles of 6 Abilities on General Ability

Marginal Output Ability 1 2 3 4 5 6 G Factor 0.436 0.882 0.767 0.697 Test Reference Profile Latent Rank Distribution Rank-Score Scatter Plot Spearman’s R of 6 Abilities with General Ability Ability 1 2 3 4 5 6 G Factor 0.436 0.882 0.767 0.697 0.628 0.730

Rank Membership Profiles of Examinees 1-15 on General Ability Rank Scale

まとめ ニューラルテスト理論の拡張を行った 潜在変数が順序変数の多変量解析モデル いずれはSEMの中で統合したほうがよい 高次因子分析モデルで例示 下位テストが含まれるテストにおいて,下位ランクと高次ランクを出力できるので便利 他にもさまざまなモデルを表現可能 統計学は視覚的要約の時代に入っている中で,出力が煩雑なので工夫が必要

理論・応用・ソフトウェア開発なんでも大歓迎 ご清聴ありがとうございました 理論・応用・ソフトウェア開発なんでも大歓迎 一緒に研究しましょう