荘島宏二郎 大学入試センター研究開発部 shojima@rd.dnc.ac.jp ニューラルテスト理論 荘島宏二郎 大学入試センター研究開発部 shojima@rd.dnc.ac.jp.

Slides:



Advertisements
Similar presentations
はじめてのパターン認識 第1章 第4グループ 平田翔暉. パターン認識 パターン認識 o 観測されたパターンを、あらかじめ定められ たクラスに分類すること クラス o 硬貨: 1 円玉、 5 円玉、 10 円玉、 50 円玉、 100 円玉、 500 円玉 o アルファベット: 26 種類 o 数字:
Advertisements

1 章 データの整理 1.1 データの代表値. ■ 母集団と標本 観測個数 n ( または 標本の大きさ、標本サイズ、 Sample Size) n が母集団サイズに等しい時 … 全標本 または 全数調査 (census) 母集団 (population) 知りたい全体 標本 (sample) 入手した情報.
1 項目反応理論によるテストの作成 東京工業大学 大学院社会理工学研究科 前川 眞一.
白井ゼミ 豊田秀樹(2008)『データマイニング入門』 (東京図書)。4章
SPSS操作入門 よい卒業研究をめざして 橋本明浩.
寺尾 敦 青山学院大学社会情報学部 Fisher の直接確率法 寺尾 敦 青山学院大学社会情報学部
「わかりやすいパターン認識」 第1章:パターン認識とは
先端論文ゼミ -タイトル- Identification of homogeneous regions for regional frequency analysis using the self organizing map (自己組織化マップを使っている地域の頻度分析のための均一な地 方の識別)
周育佳 東京外国語大学地域文化研究科博士後期課程
英語勉強会.
多数の疑似システムを用いた システム同定の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
疫学概論 母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.
Effect sizeの計算方法 標準偏差が正確に求められるほど症例数が十分ないときは、測定しえた症例の中で、最大値と最小値の値の差を4で割り算した値を代用することが出来る。この場合には正規分布に従うことを仮定することになる。
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
潜在ランク理論に基づく コンピュータアダプティブテスト
第6章 2つの平均値を比較する 2つの平均値を比較する方法の説明    独立な2群の平均値差の検定   対応のある2群の平均値差の検定.
データ分析入門(13) 第13章 主成分分析 廣野元久.
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
CSP記述によるモデル設計と ツールによる検証
Windows Summit /8/2017 © 2010 Microsoft Corporation. All rights reserved. Microsoft, Windows, Windows Vista and other product names are or may be.
リファクタリングのための 変更波及解析を利用した テスト支援ツールの提案
ニューラルテスト理論を利用した 教科テストの Can-do table 作成
Licensing information
CRLA Project Assisting the Project of
高次元データの解析 -平均ベクトルに関する検定統計量の 漸近分布に対する共分散構造の影響-
コードクローンに含まれるメソッド呼び出しの 変更度合の分析
コードクローンに含まれるメソッド呼び出しの 変更度合の調査
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
新入生の事前知識の違いによる コンピュータリテラシ学習効果の分析
Term paper, Report (1st, first)
第14章 モデルの結合 修士2年 山川佳洋.
訓練データとテストデータが 異なる分布に従う場合の学習
MIX 09 2/23/2019 1:22 PM © 2009 Microsoft Corporation. All rights reserved. Microsoft, Windows, Windows Vista and other product names are or may be registered.
WELCOME TO THE WORLD OF DRAGON BALL
中澤 港 統計学第4回 中澤 港
Windows Summit /24/2019 © 2010 Microsoft Corporation. All rights reserved. Microsoft, Windows, Windows Vista and other product names are or may be.
予測に用いる数学 2004/05/07 ide.
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
Data Clustering: A Review
再討論 狩野裕 (大阪大学人間科学部).
プログラミングコンテストシステムへの 提出履歴データとその分析
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
非負値行列因子分解に基づく唇動画像からの音声生成
analysis of survey data 堀 啓造
論文紹介: “Joint Embedding of Words and Labels for Text Classification”
Good morning distinguished guests, ladies and gentlemen
クロス表分析補遺 。堀 啓造(香川大学経済学部) 2003年5月.
Created by L. Whittingham
東北大 情報科学 田中和之,吉池紀子 山口大 工 庄野逸 理化学研究所 岡田真人
HMM音声合成における 変分ベイズ法に基づく線形回帰
疫学概論 頻度と分布 Lesson 9. 頻度と分布 §A. 頻度または度数 S.Harano,MD,PhD,MPH.
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
第3日目第4時限の学習目標 第1日目第3時限のスライドによる、名義尺度2変数間の連関のカイ2乗統計量についての復習
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
藤本翔太1, 狩野裕1, Muni.S.Srivastava2 1大阪大学基礎工学研究科
187回地震予知連絡会「CSEP日本の取り組みについて」東京大学地震研究所
ニューラルテスト理論分析ソフト「neutet」の特徴と使い方
荘島宏二郎 大学入試センター研究開発部 The batch-type neural test model : A latent rank model with the mechanism of generative topographic mapping 荘島宏二郎.
ベイズ音声合成における 事前分布とモデル構造の話者間共有
小標本に関する平均の推定と検定 標本が小さい場合,標本分散から母分散を推定するときの不確実さを加味したt分布を用いて,推定や検定を行う
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
パターン認識特論 ADA Boosting.
LRTモデルに基づくCATの開発と シミュレーションによる特性解析
荘島宏二郎 大学入試センター研究開発部 Asymmetric von Mises Scaling 荘島宏二郎 大学入試センター研究開発部
パターン認識特論 ADA Boosting.
習熟度別クラス編成のための 英語基礎力判定標準化テスト 作成の試み
~国際比較にみる達成目標と評価のガイドライン~
ガウシアングラフィカルモデルにおける一般化された確率伝搬法
AAMと回帰分析による視線、顔方向同時推定
ニューラルテスト理論: 資格試験のためのテスト理論
Presentation transcript:

荘島宏二郎 大学入試センター研究開発部 shojima@rd.dnc.ac.jp ニューラルテスト理論 荘島宏二郎 大学入試センター研究開発部 shojima@rd.dnc.ac.jp

テストの精度(accuracy) 体重計で測定しました fW (A1)≠74 fW (A1)≠72 テストで測定しました A1君は73kgでした fW(A1)=73 fW (A1)≠74 fW (A1)≠72 テストで測定しました B1君は73点でした fT(B1)=73 fT(B1)≠74 ? fT(B1)≠72 ?

テストの識別力(discrimination) 体重計で測定しました A1君は73kgでした A2君は75kgでした fW(A1)<fW (A2) テストで測定しました B1君は73点でした B2君は75点でした fT(B1)<fT (B2) ?

テストの解像度(resolution) 体重計で測定しました テストで測定しました A1君は73kgでした A2君は75kgでした B1君は73点でした B2君は75点でした B3君は・・・ kg T

Neural Test Theory (NTT) テストは大事な社会の公具(public tool) 高い精度の測定は困難 測定内容の10%は誤差 テストは,学力を5~20レベルに段階評価するくらいがせいぜい Neural test theory (NTT) Shojima, K. (2009) Neural test theory. K. Shigemasu et al. (Eds.) New Trends in Psychometrics, Universal Academy Press, Inc., pp.417-426. 自己組織化マップ(SOM)あるいは,生成トポグラフィックマッピング(GTM)のメカニズムを利用したテスト理論 潜在尺度が順序尺度 5 5

For Qualifying Tests Ordinal academic ability evaluation scale based on Neural Test Theory Continuous academic ability evaluation scale based on IRT or CTT It is difficult to explain the relationship between scores and abilities because individual abilities also change continuously Because the individual abilities also change in stages, it is easy to explain the relationship between scores and abilities. This increases the test’s accountability. 段階評価 ↓ アカウンタビリティ 資格試験

NTTにおける統計的学習 SOMメカニズム GTMメカニズム 逐次学習型 標本サイズ10000以下 滑らかさ大 一括学習型 滑らかさ小 標本サイズ10000以上 潜在クラス分析byEMアルゴリズム スムージング 7 7

NTTのメカニズム(SOMの場合) Latent rank scale Number of items Response Point 2 1 1 Number of items Latent rank scale 8 8

Point 1: 勝者ランク選択 Likelihood ML Bayes 9 9

Point 2: ランク参照行列の更新 The nodes of the ranks nearer to the winner are updated to become closer to the input data h: tension α: size of tension σ: region size of learning propagation 10 10

分析例 地理テスト N 5000 n 35 Median 17 Max Min 2 Range 33 Mean 16.911 Sd 4.976 Skew 0.313 Kurt -0.074 Alpha 0.704 11 11

適合度指標 ML, Q=10 ML, Q=5 潜在ランク数を決定するのに便利 12 12

単純増加制約(monotonic increasing constraint)を課すことも可能 項目参照プロファイル 13 単純増加制約(monotonic increasing constraint)を課すことも可能 13

テスト参照プロファイル(TRP) IRPの重み付き和 各潜在ランクの期待値 弱順序配置条件(Weakly ordinal alignment condition) TRPが単調増加だけど,全てのIRPが単調であるわけではない 強順序配置条件(Strongly ordinal alignment condition) 全てのIRPが単調増加  TRPも単調増加 潜在尺度が順序尺度であるためには,少なくともWOACを満たす必要 14 14

ランク・メンバーシップ・プロファイル(RMP) 各受検者がどの潜在ランクに所属するかについての事後分布 RMP 15 15

RMPの例 16 16

拡張モデル 段階NTTモデル(RN07-03) 名義NTTモデル(RN07-21) 連続NTTモデル 多次元NTTモデル 17 17

段階NTTモデル 境界カテゴリ参照プロファイル

段階NTTモデル 項目カテゴリ参照プロファイル

名義NTTモデル 項目カテゴリ参照プロファイル * 正答選択肢, x 10%未満のカテゴリをマージしたカテゴリ

ウェブサイト ソフトウェア http://www.rd.dnc.ac.jp/~shojima/ntt/index.htm EasyNTT 熊谷先生(新潟大学) Neutet 橋本先生(大学入試センター) Exametrika 荘島(大学入試センター) 21 21

Can-Do Chart (例) さて,最後にしますが,NTTでテストデータを分析することの最終目的は,このようなcan-do chartを作ることです. このチャートでは,ここに,各項目の具体的な問題内容が書かれています. ただし,いまは,黒く塗りつぶしてあります. 各項目は,測定領域,項目タイプ,問われている学力内容,基本的な統計情報などについて記述されています. 小さな項目バンクと言ってもいいです. この項目バンクに,NTTの分析結果を追加します. ここには,項目参照プロファイルと,今回は説明しませんでしたが,IRP指標(IRP indices)が掲載されています. IRP指標は,IRPの形状を要約している統計量(statistics)です. すると,各潜在ランクに所属する受験者が,どのような項目群に正答できて,どのような項目群に誤答しているかが見えてきます. すると,各潜在ランクのタイトルやcan-do statementを記述することができます. このように,各段階に応じた学力内容を説明し,テストのアカウンタビリティを高めることが,テストが社会的責任を果たす上で重要だと考えています. 実は,Can-do chartを作るのが本当の目的であり,NTTは,単なるcan-do chartの作成支援ツールだと思っています. 実際に,TOEFLでは,IRTを用いていますが,連続尺度を適当な区分に区切って段階評価ができるようなcan-do chartを作成しています. しかし,連続尺度をどこで分割するかについては難しい問題があり,また,最終的に段階評価を行うのに,連続尺度を仮定するのは,方法論上あまり美しいことではありません. また,そもそもテストは連続尺度上で評価できるほどの解像度がありません. したがって,順序尺度を仮定したNTTを用いてテストを標準化する意義が出てくると思います. 僕の発表は終わります. ご清聴ありがとうございました. 22 22