習熟度別クラス編成のための 英語基礎力判定標準化テスト 作成の試み

Slides:



Advertisements
Similar presentations
小学校英語教育の長期的効果について The Long-term Effectiveness of English Instruction at Elementary Schools 植松茂男 ( 京都産業大学) 年 JACET.
Advertisements

生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
計量的手法入門 人材開発コース・ワークショップ (IV) 2000 年 6 月 29 日、 7 月 6 ・ 13 日 奥西 好夫
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
摂南大学理工学部における 数学教育と EMaT への取組み 東武大、小林俊公、中津了勇、島田伸一、寺本惠昭、友枝 恭子 ( 摂南大学理工学部 基礎理工学機構 ) 日本工学教育協会 第 63 回年次大会 2015 年 9 月 4 日 ( 金 ) 9:30-9:45.
マルチレベル共分散構造分析 清水裕士 大阪大学大学院人間科学研究科日本学術振興会. 本発表の概要・目的 個人 - 集団データの階層性 個人 - 集団データの階層性 階層的データは従来の方法では十分な分析が できない 階層的データは従来の方法では十分な分析が できない 従来の方法は何が不十分なのか?
1 項目反応理論によるテストの作成 東京工業大学 大学院社会理工学研究科 前川 眞一.
1 徹底討論「主成分分析 vs 因子分析」 主成分分析は因子分析ではない ! 狩野裕 (大阪大学) 日本行動計量学会第 30 回大会 於:多摩大学.
「バリアフリーの心理学」(望月) 配布資料(10/ )
グラフィカル多変量解析 ----目で見る共分散構造分析----
測定の標準誤差: 1点の差には意味があるか Rie Koizumi 小泉 利恵.
入門 計量経済学 第02回 ―本日の講義― ・マクロ経済理論(消費関数を中心として) ・経済データの取得(分析準備) ・消費関数の推定
自己回帰モデルへの橋渡し 高崎経済大学 宮田庸一
周育佳 東京外国語大学地域文化研究科博士後期課程
Toshihiko SHIOTSU 塩津敏彦
第1日目第2時限の学習目標 基本的な1変量統計量(その2)について学ぶ。 尺度水準と適切な統計量との関連を整理する。
土木計画学 第5回(11月2日) 調査データの統計処理と分析3 担当:榊原 弘之.
Features (概要).
潜在ランク理論に基づく コンピュータアダプティブテスト
このPowerPointファイルは、 情報処理演習用に作った フィクションです。
因子分析や3相因子分析による分析の問題点を整理する 狩野裕+原田章(行動工学講座)
情報数理Ⅱ 平成27年9月30日 森田 彦.
臨床統計入門(3) 箕面市立病院小児科  山本威久 平成23年12月13日.
マーケティング・リサーチ.
3章 Analysing averages and frequencies (前半 p )
中山ゼミ 経済学部 中山惠子 2012年4月3日 2012 中山惠子.
ワークショップ ユーザーとメーカーの公開相談会
ニューラルテスト理論を利用した 教科テストの Can-do table 作成
技術者英語 対象: 電気電子システム工学科 2年生 時限: 前期 水曜日 Ⅳ限 担当: 武藤 真三、本間 聡
春の統計学・計量経済学勉強会 第1回:2017年2月21日(火) 市野泰和
統計学の基礎と応用 張 南   今日の話:序   論          履修の注意事項.
小標本検査データを元にした 疲労破損率のベイズ推定
シミュレーション論 Ⅱ 第15回 まとめ.
4章までのまとめ ー 計量経済学 ー.
第4日目第3時限の学習目標 検査の信頼性(続き)を学ぶ。 妥当性について学ぶ。 (1)構成概念妥当性とは? (2)内容妥当性とは?
正規分布における ベーテ近似の解析解と数値解 東京工業大学総合理工学研究科 知能システム科学専攻 渡辺研究室    西山 悠, 渡辺澄夫.
タップ長が一般化された 適応フィルタの統計力学
海氷が南極周辺の大気循環に与える影響 地球環境気候学研究室  緒方 香都 指導教員:立花 義裕教授.
データ構造とアルゴリズム論 第3章 ファイルを用いたデータ入出力2
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
指標の数と信頼性・ 内容的妥当性 指標の数は多いほうがよい.
数量分析 第2回 データ解析技法とソフトウェア
予測に用いる数学 2004/05/07 ide.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
プログラミングコンテストシステムへの 提出履歴データとその分析
統計学の入門講義における 達成動機,自己効力感,およびテスト成績の関連
対応のある共分散分散行列の同時分析 ーー 震災ストレスデータの同時分析 ーー
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
Good morning distinguished guests, ladies and gentlemen
1.因子分析とは 2.因子分析を行う前に確認すべきこと 3.因子分析の手順 4.因子分析後の分析 5.参考文献 6.課題11
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
シミュレーション論 Ⅱ 第1回.
統計学  第9回 西 山.
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
松山大学学生意識調査 ~一般基礎演習と経済基礎演習は必要なのか~
ニューラルテスト理論分析ソフト「neutet」の特徴と使い方
荘島宏二郎 大学入試センター研究開発部 The batch-type neural test model : A latent rank model with the mechanism of generative topographic mapping 荘島宏二郎.
明示的文法知識が 正確な言語使用に結びつかないケース 浦野 研(北海学園大学)
LRTモデルに基づくCATの開発と シミュレーションによる特性解析
荘島宏二郎 大学入試センター研究開発部 ニューラルテスト理論 荘島宏二郎 大学入試センター研究開発部
情報数理Ⅱ 平成28年9月21日 森田 彦.
荘島宏二郎 大学入試センター研究開発部 Asymmetric von Mises Scaling 荘島宏二郎 大学入試センター研究開発部
東北大学 大学院情報科学研究科 応用情報科学専攻 田中 和之(Kazuyuki Tanaka)
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
CSP係数の識別に基づく話者の 頭部方向の推定
AAMと回帰分析による視線、顔方向同時推定
一問一答式クイズAQuAsにおける学習支援の方法
第1日目第2時限の学習目標 基本的な1変量統計量(その2)について学ぶ。 尺度水準と適切な統計量との関連を整理する。
ニューラルテスト理論: 資格試験のためのテスト理論
Presentation transcript:

習熟度別クラス編成のための 英語基礎力判定標準化テスト 作成の試み LET関東支部第120回(2008年度)研究大会 2008/6/7 習熟度別クラス編成のための 英語基礎力判定標準化テスト 作成の試み 木 村 哲 夫(新潟青陵大学) 日本言語テスト学会 第12回 全国研究大会

発表の流れ 研究経過と背景 習熟度別クラス分けテストの理想像 Research Questions 研究方法・分析手順 分析結果 考察 項目温存 Fit重視 考察 疑似クラス分けテスト 他のテストスコアとの相関分析 まとめと今後の課題

研究経過概略 LMSの中からMoodleを選択(木村, 2006) Moodleによるテスト実施とデータ収集・分析の 実際(木村, 2008a) TOEIC模擬問題による2PLM項目分析 通過率と識別力が低いものが多い Moodleを利用したテスト項目分析とアダプティ ブ・テスト開発の可能性(木村, 2008b) 英検の過去問40問による1PLMと2PLM項目分析

習熟度別クラス分けのためのテスト 英検の過去問題 正当数に基づくスコア TOEIC 模擬問題 オリジナル問題 オリジナル問題 標準化されたスコア TOEIC IP CASEC

熟度別クラス分けのためのテストの理想像 問題数 少 テスト時間 短 実施形態 多数一斉・少数個別 採点時間 信頼性 高 妥当性 標準化されたCATが理想

Research Questions 条件を満たすテストを個人レベルで作成可能か? Yes どのようなモデルで分析するのがよいか? 作成したテストでうまくクラス分けできるか? Yes 1PLM 2PLM NTT 確信度テスト

方法 項 目:文法語彙問題 ・・・・・・80問(英検3~準1級) リスニング会話問題 ・・・47問(英検3~準1級) 項 目:文法語彙問題 ・・・・・・80問(英検3~準1級)    リスニング会話問題 ・・・47問(英検3~準1級)      リスニング説明文問題 ・・35問(英検3~2級) 被験者:N大学およびS大学1年生268名 電子化:PDF→OCR→TXT→Excel→      Multiple Choice Maker→ GIFT→Moodle 実 施: Moodleでチャレンジ・クイズ4回分として設定      毎回3パート各10分で実施(6~7月) 1回目は授業内に全員で実施 2回目~4回目は隔週で任意の課題として実施 その他:4月 CASEC :S大学全員    7月 TOEIC/TOEIC Bridge:希望者    8月 CASEC: S大学ほぼ全員

データ数一覧 受験者数 項目数 準1級 2級 準2級 3級 文法語彙問題(vg) 222 80 25 20 15 会話問題(dlg) 157 47 12 10 説明文問題(mlg) 119 35 --- 受験者数 TOEIC 5 TOEIC Bridge 70 CASEC 4月 212 CASEC 8月 182 予想よりデータ数が少ないため2PLMによる分析は断念 ●受験者数は各区分で全項目に解答した人数

基準を超えるMisfitがなくなった段階で分析終了 分析手順(その1:項目温存) Moodle 小テスト 詳細結果 Excelで 01データ 1PLM (周辺最尤法) 除去 除去 Misfit Person ? Misfit除去の基準 Misfit Person:ZL <-1.96 Misfit Item:P.BIS<0.25 Misfit Item? 基準を超えるMisfitがなくなった段階で分析終了

基準を超えるMisfitがなくなった段階で分析終了 Moodle 小テスト 詳細結果 Excelで 01データ 1PLM (周辺最尤法) 除去 Misfit除去の基準 Misfit Person:ZL <-1.96 Misfit Item:P.BIS<0.25 Misfit Person or Item ? 基準を超えるMisfitがなくなった段階で分析終了

分析手順(その3: NTTによる分析) テスト区分ごとに、以下のデータについて、 Neural Test Theory (Shojima, 2008 ) により、 ノード数10とノード数5に設定し2回分析。 Misfit除去前のデータ 分析手順(その1)でMisfit除去後のデータ 分析手順(その2)でMisfit除去後のデータ 本来NTTの枠組み内で考えられているmisfitの指標を使うべきだが、そのための計算プログラムがまだないので、今回はこの手順とした。

使用したプログラム Multiple Choice Maker: GIFTファイル作成マクロ MoodleResources(株)eラーニングサービス https://e-learning.ac/moodle-resources/ Easy Estimation (Ver.0.4.2):項目パラメタ推定プログラム 周辺最尤推定法・EMアルゴリズムによる1~3PLMに対応 Easy EstTheta (Ver0.1.1):特性値推定プログラム PersonFitの指標は、Drasgow, Levine, & Williamas(1985) およびDrasgow, Levine , & McLaughlin(1987)のZL統計量 EasyNTT (Ver.0.2.3): NTT計算プログラム    「ニューラルテスト理論」荘島(2007)によるItem Reference Profileおよび各受験者の潜在ランクを計算 新潟大学 熊谷 龍一 http://itranalysis.main.jp

項目数・受験者数(その1:項目温存) 222 80 25 20 15 157 47 12 10 119 35 --- 170 31 3 11 準1級 2級 準2級 3級 文法語彙問題(vg) 222 80 25 20 15 会話問題(dlg) 157 47 12 10 説明文問題(mlg) 119 35 --- 受験者数 項目数 準1級 2級 準2級 3級 文法語彙問題(vg) 170 31 3 11 10 7 会話問題(dlg) 142 13 2 4 説明文問題(mlg) 108 16 --- 5 6

項目数・受験者数(その2:FIT重視) 222 80 25 20 15 157 47 12 10 119 35 --- 193 36 2 準1級 2級 準2級 3級 文法語彙問題(vg) 222 80 25 20 15 会話問題(dlg) 157 47 12 10 説明文問題(mlg) 119 35 --- 受験者数 項目数 準1級 2級 準2級 3級 文法語彙問題(vg) 193 36 2 10 14 会話問題(dlg) --- 説明文問題(mlg) 112 19 7 5

文法語彙問題(vg)の項目分析推移

リスニング会話問題(dlg)の項目分析推移

リスニング説明文問題(mlg)の項目分析推移

Misfit除去前後の通過率 文法語彙問題(vg) I Ave SD Max Min 準1級 25 0.27 0.11 0.57 0.12 2級 20 0.43 0.13 0.62 0.18 準2級 0.63 0.16 0.83 0.29 3級 15 0.79 0.95 0.48 (n=222) I Ave SD Max Min 準1級 3 0.30 0.13 0.45 0.21 2級 11 0.53 0.16 0.70 0.18 準2級 10 0.66 0.20 0.91 0.31 3級 7 0.78 0.14 0.94 I Ave SD Max Min 準1級 2 0.30 0.16 0.42 0.19 2級 10 0.51 0.15 0.66 0.18 準2級 14 0.65 0.88 0.29 3級 0.80 0.14 0.94 0.52 (n=170) (n=193)

Misfit除去前後の通過率 会話問題(dlg) I Ave SD Max Min 準1級 12 0.27 0.08 0.39 0.16 2級 0.42 0.12 0.64 0.25 準2級 0.68 0.88 0.45 3級 0.83 0.10 0.92 0.65 (n=157) I Ave SD Max Min 準1級 ---  2級 7 0.45 0.13 0.66 0.34 準2級 2 0.82 0.09 0.91 0.73 3級 4 0.84 0.11 0.95 0.70 I Ave SD Max Min 準1級 ---  2級 3 0.49 0.137 0.58 0.34 準2級 0.79 0.101 0.88 0.68 3級 0.75 0.103 0.84 0.64 Misfit Item=5 (n=139) (n=125)

Misfit除去前後の通過率 説明文問題(mlg) I Ave SD Max Min 準1級 --- 2級 15 0.46 0.13 ---  2級 15 0.46 0.13 0.64 0.29 準2級 10 0.53 0.14 0.70 0.24 3級 0.75 0.97 0.50 (n=119) I Ave SD Max Min 準1級 ---  2級 5 0.51 0.15 0.64 0.27 準2級 0.18 0.72 0.23 3級 6 0.73 0.16 0.88 0.50 I Ave SD Max Min 準1級 ---  2級 7 0.51 0.12 0.64 0.28 準2級 5 0.52 0.18 0.73 0.24 3級 0.74 0.15 0.88 0.50 (n=108) (n=112)

Misfit除去前後の基本統計量と信頼性 文法語彙問題Vg 会話問題Dlg 説明文問題Mlg Misfit 除去前 除去後 受験者数 222 193 157 142 119 112 項目数 80 36 47 13 35 19 素点平均 39.9 22.9 24.7 8.2 19.7 11.3 素点平均(%) 49.9% 63.5% 52.5% 62.8% 56.4% 59.4% 素点標準偏差 10.12 6.64 5.59 2.63 5.27 3.91 KR-20 0.858 0.868 0.722 0.706 0.752 0.780 < > <

疑似クラス分けテスト 除去されなかった68問すべてを回答していた学生75人のデータにより、擬似的に習熟度別クラス編成を行い結果を分析した。 受験者数N 項目数 I 準1級 2級 準2級 3級 文法語彙問題(vg) 75 36 2 10 14 会話問題(dlg) 13 7 4 説明文問題(mlg) 19 --- 5 困難度(1PLM) 困難度(NTT) 中央値 最大値 最小値 文法語彙問題(vg) -0.68 1.61 -2.79 4 10 1 会話問題(dlg) -0.64 0.66 -2.72 説明文問題(mlg) -0.34 1.22 -1.93

各テスト区分のテスト情報曲線

各テスト区分のテスト参照プロファイル

語彙文法問題(vg)とCASECとの相関 C-S1 C-S2 C-S3 C-S4 C-T 1.00 0.97 0.70 0.60 0.46 0.51 0.72 0.74 0.56 0.47 Vg (I=36 N=105) θ1vg : 1PLMによる能力推定値    θ2vg:NTTによる能力推定値(Rank) C-S1 :CASECセクション1(語彙) C-S2 :CASECセクション2(表現) C-S3 :CASECセクション3(リスニング) C-S4 :CASECセクション4 (ディクテーション) C-T :CASEC合計点 θ1vg との相関:ピアソンの積率相関係数 θ2vg との相関:スピアマンの順位相関係数

会話問題(dlg)とCASECとの相関 θ1dlg θ2dlg C-S1 C-S2 C-S3 C-S4 C-T 1.00 0.91 0.50 0.55 0.60 0.44 0.65 0.37 0.48 0.51 0.31 0.52 Dlg (I=13 N=82) θ1dlg : 1PLMによる能力推定値 θ2dlg:NTTによる能力推定値(Rank) C-S1 :CASECセクション1(語彙) C-S2 :CASECセクション2(表現) C-S3 :CASECセクション3(リスニング) C-S4 :CASECセクション4 (ディクテーション) C-T :CASEC合計点 θ1dlg との相関:ピアソンの積率相関係数 θ2dlg との相関:スピアマンの順位相関係数

説明文問題(mlg)とCASECとの相関 C-S1 C-S2 C-S3 C-S4 C-T 1.00 0.89 0.54 0.57 0.64 0.45 0.70 0.59 0.52 0.60 0.50 Mlg (I=19 N=81) θ1mlg : 1PLMによる能力推定値 θ2mlg:NTTによる能力推定値(Rank) C-S1 :CASECセクション1(語彙) C-S2 :CASECセクション2(表現) C-S3 :CASECセクション3(リスニング) C-S4 :CASECセクション4 (ディクテーション) C-T :CASEC合計点 θ1mlg との相関:ピアソンの積率相関係数 θ2mlg との相関:スピアマンの順位相関係数

語彙文法問題(vg)とTOEIC Bridgeとの相関 TB-L TB-R TB-T 1.00 0.94 0.58 0.68 0.54 0.60 Vg (I=36 N=22) θ1vg : 1PLMによる能力推定値 θ2vg:NTTによる能力推定値(Rank) TB-L :TOEIC Bridge Listening Score TB-R : TOEIC Bridge Reading Score TB-T : TOEIC Bridge Total Score θ1vg との相関:ピアソンの積率相関係数 θ2vg との相関:スピアマンの順位相関係数

会話問題(dlg)とTOEIC Bridgeとの相関 TB-L TB-R TB-T 1.00 0.84 0.66 0.61 0.67 0.64 0.80 Dlg (I=13 N=21) θ1dlg : 1PLMによる能力推定値  θ2dlg:NTTによる能力推定値 TB-L :TOEIC Bridge Listening Score TB-R : TOEIC Bridge Reading Score TB-T : TOEIC Bridge Total Score θ1dlg との相関:ピアソンの積率相関係数 θ2dlg との相関:スピアマンの順位相関係数

説明文問題(mlg)とTOEIC Bridgeとの相関 TB-L TB-R TB-T 1.00 0.85 0.58 0.79 0.77 0.70 0.65 0.74 Mlg (I=19 N=16) θ1mlg : 1PLMによる能力推定値 θ2mlg:NTTによる能力推定値 TB-L :TOEIC Bridge Listening Score TB-R : TOEIC Bridge Reading Score TB-T : TOEIC Bridge Total Score θ1mlg との相関:ピアソンの積率相関係数 θ2mlg との相関:スピアマンの順位相関係数

疑似クラス分けテストとCASECとの相関 C-S1 C-S2 C-S3 C-S4 C-T θ1vg 0.577 0.489 0.448 0.387 0.619 θ1dlg 0.443 0.574 0.535 0.296 0.611 θ1mlg 0.585 0.472 0.655 0.413 0.711 θ1-T 0.625 0.605 0.647 0.427 0.761 θ2vg 0.607 0.407 0.406 0.422 0.633 θ2dlg 0.397 0.491 0.317 0.560 θ2mlg 0.396 0.653 0.494 0.729 θ2-T 0.660 0.534 0.640 0.524 0.796 NTTが想定しているのは順序尺度であり、この足し算にはやや無理がある。本来はGraded Neural Test Model で合成を行うべきだが、まだ計算プログラムが未完成。今回はこれで一般的な傾向をつかむこととしたい。 (I=75 N=55) θ1-T= θ1vg+θ1dlg+θ1mlg : 1PLMによる能力推定値 θ2-T= θ2vg+θ2dlg+θ2mlg :NTTによる能力推定値 θ1 との相関:ピアソンの積率相関係数 θ2 との相関:スピアマンの順位相関係数

疑似クラス分けテストとTOEIC Bridgeとの相関 TB-L TB-R TB-T θ1vg 0.594 0.670 0.701 θ1dlg 0.764 0.695 0.799 θ1mlg 0.627 0.807 0.801 θ1-T 0.779 0.840 0.896 θ2vg 0.671 0.544 0.604 θ2dlg 0.664 0.863 0.861 θ2mlg 0.705 0.713 0.795 θ2-T 0.804 0.887 (I=75 N=13) θ1-T= θ1vg+θ1dlg+θ1mlg : 1PLMによる能力推定値 θ2-T= θ2vg+θ2dlg+θ2mlg :NTTによる能力推定値 θ1 との相関:ピアソンの積率相関係数 θ2 との相関:スピアマンの順位相関係数

NTTによるクラス分けのシミュレーション1

NTTによるクラス分けのシミュレーションと1PLMによる能力推定値の比較1 正答数 Mean SD Class 01 3~5 7 -3.34 0.677 25.9 4.81 Class 02 6~8 8 -2.82 0.491 27.8 3.24 Class 03 9~11 -1.55 0.674 35.1 4.58 Class 04 12~14 -1.20 0.494 36.0 3.21 Class 05 15~17 9 -0.09 0.493 41.8 3.38 Class 06 18~19 0.37 0.822 43.7 4.23 Class 07 20~21 0.59 0.535 45.5 2.56 Class 08 22~23 6 1.48 0.647 48.7 3.27 Class 09 24~25 2.09 0.922 50.3 3.35 Class 10 26~30 3.59 1.083 57.8 3.28

NTTによるクラス分けのシミュレーション2

NTTによるクラス分けのシミュレーションと1PLMによる能力推定値の比較2 正答数 Mean SD Class 01 3~8 15 -3.06 0.604 26.9 3.88 Class 02 9~14 -1.39 0.584 35.5 3.76 Class 03 15~19 16 0.11 0.652 42.6 3.66 Class 04 20~23 14 0.97 0.698 46.9 3.09 Class 05 24~30 2.89 1.204 54.3 4.84

クラス分けテストの テスト参照プロファイル1

クラス分けテストの テスト参照プロファイル2

クラス分けテストの テスト参照プロファイルと1PLM のθ

クラス分けテストの テスト参照プロファイル2

まとめ 条件を満たすテストを個人レベルで作成可能か? ⇒ 可能 どのようなモデルで分析するのがよいか? ⇒ 1PLM または NTT ⇒  可能 どのようなモデルで分析するのがよいか?   ⇒ 1PLM または NTT   ⇒ 事前にmisfitを適切に取り除く 作成したテストでうまくクラス分けできるか?   ⇒ NTTを利用した方が解釈・判断が容易

今後の課題 どのような項目がよい項目か? Misfitsをどのように取り除くのがよいか? 項目バンクを構築できないか? CATにできないか?

ご静聴ありがとうございました。 問い合わせ先:kimura@n-seiryo.ac.jp

引用文献・参考文献 秋山實.(2006).「オーブンソースソフトウェアmoodleのオンラインテスト機能を基盤としたアイテム開発ス キーム」教育システム情報学会研究報告, vol.20, no.6, 79-82. 張一平.(2007).『確信度テスト法と項目反応理論』東京大学出版会. Drasgow, F., Levine, M. V., & McLaughlin, M. E. (1987). Detecting inappropriate test scores with optimal and practical appropriateness indices. Applied Psychological Measurement, II, 59-79. Drasgow, F., Levine, M. V., & Williams, E. A. (1985). Appropriateness measurement with polychotomous item response models and standardized indices. British Journal of Mathematical and Statistical Psychology, 38, 66-86. 木村哲夫.(2006).「大学におけるe-learningを活用した英語教育のあり方についての研究」新潟青陵大学平成17 年度共同研究費報告書. 木村哲夫.(2008a).「Moodleを使ったテスティングとそのデータ分析」『金谷憲教授還暦記念論文集』pp.247- 258. 桐原書店. 木村哲夫.(2008b).「 Moodleを利用したテスト項目分析とアダプティブ・テスト開発の可能性」『第34回全国 英語教育学会 東京研究大会予稿集』pp.340-341. 大友賢二.(1996).『項目応答理論入門』大修館書店. 大友賢二・中村洋一(2002). 『テストで言語能力ははかれるか~言語テストデータ分析入門~』河源社. Reise, S. P. & Due, A. M. (1991). The influence of test characteristics on the detection of aberrant Response patterns. Applied Psychological Measurement, Vol. 15, No. 3, 217-226 Shojima, K. (2008) .Neural test theory: A latent rank theory for analyzing test data.   DNC Research Note, 08-01. 荘島宏二郎.(2008a).ニューラルテスト理論-資格試験のためのテスト理論- 平成20年度全国大学入学者選抜研究連絡協議会,研究発表予稿集,163-168. 荘島宏二郎.(2008b). The structural neurofield mapping: A latent rank model for multivariate data. 日本行動計量学会第36回大会. 芝祐順.(1991).『項目反応理論:基礎と応用』東京大学出版. 靜哲人.(2007).『基礎から深く理解するラッシュモデリング』関西大学出版. 豊田秀樹.(2002).『項目反応理論[入門編]』朝倉書店.