習熟度別クラス編成のための 英語基礎力判定標準化テスト 作成の試み LET関東支部第120回(2008年度)研究大会 2008/6/7 習熟度別クラス編成のための 英語基礎力判定標準化テスト 作成の試み 木 村 哲 夫(新潟青陵大学) 日本言語テスト学会 第12回 全国研究大会
発表の流れ 研究経過と背景 習熟度別クラス分けテストの理想像 Research Questions 研究方法・分析手順 分析結果 考察 項目温存 Fit重視 考察 疑似クラス分けテスト 他のテストスコアとの相関分析 まとめと今後の課題
研究経過概略 LMSの中からMoodleを選択(木村, 2006) Moodleによるテスト実施とデータ収集・分析の 実際(木村, 2008a) TOEIC模擬問題による2PLM項目分析 通過率と識別力が低いものが多い Moodleを利用したテスト項目分析とアダプティ ブ・テスト開発の可能性(木村, 2008b) 英検の過去問40問による1PLMと2PLM項目分析
習熟度別クラス分けのためのテスト 英検の過去問題 正当数に基づくスコア TOEIC 模擬問題 オリジナル問題 オリジナル問題 標準化されたスコア TOEIC IP CASEC
熟度別クラス分けのためのテストの理想像 問題数 少 テスト時間 短 実施形態 多数一斉・少数個別 採点時間 信頼性 高 妥当性 標準化されたCATが理想
Research Questions 条件を満たすテストを個人レベルで作成可能か? Yes どのようなモデルで分析するのがよいか? 作成したテストでうまくクラス分けできるか? Yes 1PLM 2PLM NTT 確信度テスト
方法 項 目:文法語彙問題 ・・・・・・80問(英検3~準1級) リスニング会話問題 ・・・47問(英検3~準1級) 項 目:文法語彙問題 ・・・・・・80問(英検3~準1級) リスニング会話問題 ・・・47問(英検3~準1級) リスニング説明文問題 ・・35問(英検3~2級) 被験者:N大学およびS大学1年生268名 電子化:PDF→OCR→TXT→Excel→ Multiple Choice Maker→ GIFT→Moodle 実 施: Moodleでチャレンジ・クイズ4回分として設定 毎回3パート各10分で実施(6~7月) 1回目は授業内に全員で実施 2回目~4回目は隔週で任意の課題として実施 その他:4月 CASEC :S大学全員 7月 TOEIC/TOEIC Bridge:希望者 8月 CASEC: S大学ほぼ全員
データ数一覧 受験者数 項目数 準1級 2級 準2級 3級 文法語彙問題(vg) 222 80 25 20 15 会話問題(dlg) 157 47 12 10 説明文問題(mlg) 119 35 --- 受験者数 TOEIC 5 TOEIC Bridge 70 CASEC 4月 212 CASEC 8月 182 予想よりデータ数が少ないため2PLMによる分析は断念 ●受験者数は各区分で全項目に解答した人数
基準を超えるMisfitがなくなった段階で分析終了 分析手順(その1:項目温存) Moodle 小テスト 詳細結果 Excelで 01データ 1PLM (周辺最尤法) 除去 除去 Misfit Person ? Misfit除去の基準 Misfit Person:ZL <-1.96 Misfit Item:P.BIS<0.25 Misfit Item? 基準を超えるMisfitがなくなった段階で分析終了
基準を超えるMisfitがなくなった段階で分析終了 Moodle 小テスト 詳細結果 Excelで 01データ 1PLM (周辺最尤法) 除去 Misfit除去の基準 Misfit Person:ZL <-1.96 Misfit Item:P.BIS<0.25 Misfit Person or Item ? 基準を超えるMisfitがなくなった段階で分析終了
分析手順(その3: NTTによる分析) テスト区分ごとに、以下のデータについて、 Neural Test Theory (Shojima, 2008 ) により、 ノード数10とノード数5に設定し2回分析。 Misfit除去前のデータ 分析手順(その1)でMisfit除去後のデータ 分析手順(その2)でMisfit除去後のデータ 本来NTTの枠組み内で考えられているmisfitの指標を使うべきだが、そのための計算プログラムがまだないので、今回はこの手順とした。
使用したプログラム Multiple Choice Maker: GIFTファイル作成マクロ MoodleResources(株)eラーニングサービス https://e-learning.ac/moodle-resources/ Easy Estimation (Ver.0.4.2):項目パラメタ推定プログラム 周辺最尤推定法・EMアルゴリズムによる1~3PLMに対応 Easy EstTheta (Ver0.1.1):特性値推定プログラム PersonFitの指標は、Drasgow, Levine, & Williamas(1985) およびDrasgow, Levine , & McLaughlin(1987)のZL統計量 EasyNTT (Ver.0.2.3): NTT計算プログラム 「ニューラルテスト理論」荘島(2007)によるItem Reference Profileおよび各受験者の潜在ランクを計算 新潟大学 熊谷 龍一 http://itranalysis.main.jp
項目数・受験者数(その1:項目温存) 222 80 25 20 15 157 47 12 10 119 35 --- 170 31 3 11 準1級 2級 準2級 3級 文法語彙問題(vg) 222 80 25 20 15 会話問題(dlg) 157 47 12 10 説明文問題(mlg) 119 35 --- 受験者数 項目数 準1級 2級 準2級 3級 文法語彙問題(vg) 170 31 3 11 10 7 会話問題(dlg) 142 13 2 4 説明文問題(mlg) 108 16 --- 5 6
項目数・受験者数(その2:FIT重視) 222 80 25 20 15 157 47 12 10 119 35 --- 193 36 2 準1級 2級 準2級 3級 文法語彙問題(vg) 222 80 25 20 15 会話問題(dlg) 157 47 12 10 説明文問題(mlg) 119 35 --- 受験者数 項目数 準1級 2級 準2級 3級 文法語彙問題(vg) 193 36 2 10 14 会話問題(dlg) --- 説明文問題(mlg) 112 19 7 5
文法語彙問題(vg)の項目分析推移
リスニング会話問題(dlg)の項目分析推移
リスニング説明文問題(mlg)の項目分析推移
Misfit除去前後の通過率 文法語彙問題(vg) I Ave SD Max Min 準1級 25 0.27 0.11 0.57 0.12 2級 20 0.43 0.13 0.62 0.18 準2級 0.63 0.16 0.83 0.29 3級 15 0.79 0.95 0.48 (n=222) I Ave SD Max Min 準1級 3 0.30 0.13 0.45 0.21 2級 11 0.53 0.16 0.70 0.18 準2級 10 0.66 0.20 0.91 0.31 3級 7 0.78 0.14 0.94 I Ave SD Max Min 準1級 2 0.30 0.16 0.42 0.19 2級 10 0.51 0.15 0.66 0.18 準2級 14 0.65 0.88 0.29 3級 0.80 0.14 0.94 0.52 (n=170) (n=193)
Misfit除去前後の通過率 会話問題(dlg) I Ave SD Max Min 準1級 12 0.27 0.08 0.39 0.16 2級 0.42 0.12 0.64 0.25 準2級 0.68 0.88 0.45 3級 0.83 0.10 0.92 0.65 (n=157) I Ave SD Max Min 準1級 --- 2級 7 0.45 0.13 0.66 0.34 準2級 2 0.82 0.09 0.91 0.73 3級 4 0.84 0.11 0.95 0.70 I Ave SD Max Min 準1級 --- 2級 3 0.49 0.137 0.58 0.34 準2級 0.79 0.101 0.88 0.68 3級 0.75 0.103 0.84 0.64 Misfit Item=5 (n=139) (n=125)
Misfit除去前後の通過率 説明文問題(mlg) I Ave SD Max Min 準1級 --- 2級 15 0.46 0.13 --- 2級 15 0.46 0.13 0.64 0.29 準2級 10 0.53 0.14 0.70 0.24 3級 0.75 0.97 0.50 (n=119) I Ave SD Max Min 準1級 --- 2級 5 0.51 0.15 0.64 0.27 準2級 0.18 0.72 0.23 3級 6 0.73 0.16 0.88 0.50 I Ave SD Max Min 準1級 --- 2級 7 0.51 0.12 0.64 0.28 準2級 5 0.52 0.18 0.73 0.24 3級 0.74 0.15 0.88 0.50 (n=108) (n=112)
Misfit除去前後の基本統計量と信頼性 文法語彙問題Vg 会話問題Dlg 説明文問題Mlg Misfit 除去前 除去後 受験者数 222 193 157 142 119 112 項目数 80 36 47 13 35 19 素点平均 39.9 22.9 24.7 8.2 19.7 11.3 素点平均(%) 49.9% 63.5% 52.5% 62.8% 56.4% 59.4% 素点標準偏差 10.12 6.64 5.59 2.63 5.27 3.91 KR-20 0.858 0.868 0.722 0.706 0.752 0.780 < > <
疑似クラス分けテスト 除去されなかった68問すべてを回答していた学生75人のデータにより、擬似的に習熟度別クラス編成を行い結果を分析した。 受験者数N 項目数 I 準1級 2級 準2級 3級 文法語彙問題(vg) 75 36 2 10 14 会話問題(dlg) 13 7 4 説明文問題(mlg) 19 --- 5 困難度(1PLM) 困難度(NTT) 中央値 最大値 最小値 文法語彙問題(vg) -0.68 1.61 -2.79 4 10 1 会話問題(dlg) -0.64 0.66 -2.72 説明文問題(mlg) -0.34 1.22 -1.93
各テスト区分のテスト情報曲線
各テスト区分のテスト参照プロファイル
語彙文法問題(vg)とCASECとの相関 C-S1 C-S2 C-S3 C-S4 C-T 1.00 0.97 0.70 0.60 0.46 0.51 0.72 0.74 0.56 0.47 Vg (I=36 N=105) θ1vg : 1PLMによる能力推定値 θ2vg:NTTによる能力推定値(Rank) C-S1 :CASECセクション1(語彙) C-S2 :CASECセクション2(表現) C-S3 :CASECセクション3(リスニング) C-S4 :CASECセクション4 (ディクテーション) C-T :CASEC合計点 θ1vg との相関:ピアソンの積率相関係数 θ2vg との相関:スピアマンの順位相関係数
会話問題(dlg)とCASECとの相関 θ1dlg θ2dlg C-S1 C-S2 C-S3 C-S4 C-T 1.00 0.91 0.50 0.55 0.60 0.44 0.65 0.37 0.48 0.51 0.31 0.52 Dlg (I=13 N=82) θ1dlg : 1PLMによる能力推定値 θ2dlg:NTTによる能力推定値(Rank) C-S1 :CASECセクション1(語彙) C-S2 :CASECセクション2(表現) C-S3 :CASECセクション3(リスニング) C-S4 :CASECセクション4 (ディクテーション) C-T :CASEC合計点 θ1dlg との相関:ピアソンの積率相関係数 θ2dlg との相関:スピアマンの順位相関係数
説明文問題(mlg)とCASECとの相関 C-S1 C-S2 C-S3 C-S4 C-T 1.00 0.89 0.54 0.57 0.64 0.45 0.70 0.59 0.52 0.60 0.50 Mlg (I=19 N=81) θ1mlg : 1PLMによる能力推定値 θ2mlg:NTTによる能力推定値(Rank) C-S1 :CASECセクション1(語彙) C-S2 :CASECセクション2(表現) C-S3 :CASECセクション3(リスニング) C-S4 :CASECセクション4 (ディクテーション) C-T :CASEC合計点 θ1mlg との相関:ピアソンの積率相関係数 θ2mlg との相関:スピアマンの順位相関係数
語彙文法問題(vg)とTOEIC Bridgeとの相関 TB-L TB-R TB-T 1.00 0.94 0.58 0.68 0.54 0.60 Vg (I=36 N=22) θ1vg : 1PLMによる能力推定値 θ2vg:NTTによる能力推定値(Rank) TB-L :TOEIC Bridge Listening Score TB-R : TOEIC Bridge Reading Score TB-T : TOEIC Bridge Total Score θ1vg との相関:ピアソンの積率相関係数 θ2vg との相関:スピアマンの順位相関係数
会話問題(dlg)とTOEIC Bridgeとの相関 TB-L TB-R TB-T 1.00 0.84 0.66 0.61 0.67 0.64 0.80 Dlg (I=13 N=21) θ1dlg : 1PLMによる能力推定値 θ2dlg:NTTによる能力推定値 TB-L :TOEIC Bridge Listening Score TB-R : TOEIC Bridge Reading Score TB-T : TOEIC Bridge Total Score θ1dlg との相関:ピアソンの積率相関係数 θ2dlg との相関:スピアマンの順位相関係数
説明文問題(mlg)とTOEIC Bridgeとの相関 TB-L TB-R TB-T 1.00 0.85 0.58 0.79 0.77 0.70 0.65 0.74 Mlg (I=19 N=16) θ1mlg : 1PLMによる能力推定値 θ2mlg:NTTによる能力推定値 TB-L :TOEIC Bridge Listening Score TB-R : TOEIC Bridge Reading Score TB-T : TOEIC Bridge Total Score θ1mlg との相関:ピアソンの積率相関係数 θ2mlg との相関:スピアマンの順位相関係数
疑似クラス分けテストとCASECとの相関 C-S1 C-S2 C-S3 C-S4 C-T θ1vg 0.577 0.489 0.448 0.387 0.619 θ1dlg 0.443 0.574 0.535 0.296 0.611 θ1mlg 0.585 0.472 0.655 0.413 0.711 θ1-T 0.625 0.605 0.647 0.427 0.761 θ2vg 0.607 0.407 0.406 0.422 0.633 θ2dlg 0.397 0.491 0.317 0.560 θ2mlg 0.396 0.653 0.494 0.729 θ2-T 0.660 0.534 0.640 0.524 0.796 NTTが想定しているのは順序尺度であり、この足し算にはやや無理がある。本来はGraded Neural Test Model で合成を行うべきだが、まだ計算プログラムが未完成。今回はこれで一般的な傾向をつかむこととしたい。 (I=75 N=55) θ1-T= θ1vg+θ1dlg+θ1mlg : 1PLMによる能力推定値 θ2-T= θ2vg+θ2dlg+θ2mlg :NTTによる能力推定値 θ1 との相関:ピアソンの積率相関係数 θ2 との相関:スピアマンの順位相関係数
疑似クラス分けテストとTOEIC Bridgeとの相関 TB-L TB-R TB-T θ1vg 0.594 0.670 0.701 θ1dlg 0.764 0.695 0.799 θ1mlg 0.627 0.807 0.801 θ1-T 0.779 0.840 0.896 θ2vg 0.671 0.544 0.604 θ2dlg 0.664 0.863 0.861 θ2mlg 0.705 0.713 0.795 θ2-T 0.804 0.887 (I=75 N=13) θ1-T= θ1vg+θ1dlg+θ1mlg : 1PLMによる能力推定値 θ2-T= θ2vg+θ2dlg+θ2mlg :NTTによる能力推定値 θ1 との相関:ピアソンの積率相関係数 θ2 との相関:スピアマンの順位相関係数
NTTによるクラス分けのシミュレーション1
NTTによるクラス分けのシミュレーションと1PLMによる能力推定値の比較1 正答数 Mean SD Class 01 3~5 7 -3.34 0.677 25.9 4.81 Class 02 6~8 8 -2.82 0.491 27.8 3.24 Class 03 9~11 -1.55 0.674 35.1 4.58 Class 04 12~14 -1.20 0.494 36.0 3.21 Class 05 15~17 9 -0.09 0.493 41.8 3.38 Class 06 18~19 0.37 0.822 43.7 4.23 Class 07 20~21 0.59 0.535 45.5 2.56 Class 08 22~23 6 1.48 0.647 48.7 3.27 Class 09 24~25 2.09 0.922 50.3 3.35 Class 10 26~30 3.59 1.083 57.8 3.28
NTTによるクラス分けのシミュレーション2
NTTによるクラス分けのシミュレーションと1PLMによる能力推定値の比較2 正答数 Mean SD Class 01 3~8 15 -3.06 0.604 26.9 3.88 Class 02 9~14 -1.39 0.584 35.5 3.76 Class 03 15~19 16 0.11 0.652 42.6 3.66 Class 04 20~23 14 0.97 0.698 46.9 3.09 Class 05 24~30 2.89 1.204 54.3 4.84
クラス分けテストの テスト参照プロファイル1
クラス分けテストの テスト参照プロファイル2
クラス分けテストの テスト参照プロファイルと1PLM のθ
クラス分けテストの テスト参照プロファイル2
まとめ 条件を満たすテストを個人レベルで作成可能か? ⇒ 可能 どのようなモデルで分析するのがよいか? ⇒ 1PLM または NTT ⇒ 可能 どのようなモデルで分析するのがよいか? ⇒ 1PLM または NTT ⇒ 事前にmisfitを適切に取り除く 作成したテストでうまくクラス分けできるか? ⇒ NTTを利用した方が解釈・判断が容易
今後の課題 どのような項目がよい項目か? Misfitsをどのように取り除くのがよいか? 項目バンクを構築できないか? CATにできないか?
ご静聴ありがとうございました。 問い合わせ先:kimura@n-seiryo.ac.jp
引用文献・参考文献 秋山實.(2006).「オーブンソースソフトウェアmoodleのオンラインテスト機能を基盤としたアイテム開発ス キーム」教育システム情報学会研究報告, vol.20, no.6, 79-82. 張一平.(2007).『確信度テスト法と項目反応理論』東京大学出版会. Drasgow, F., Levine, M. V., & McLaughlin, M. E. (1987). Detecting inappropriate test scores with optimal and practical appropriateness indices. Applied Psychological Measurement, II, 59-79. Drasgow, F., Levine, M. V., & Williams, E. A. (1985). Appropriateness measurement with polychotomous item response models and standardized indices. British Journal of Mathematical and Statistical Psychology, 38, 66-86. 木村哲夫.(2006).「大学におけるe-learningを活用した英語教育のあり方についての研究」新潟青陵大学平成17 年度共同研究費報告書. 木村哲夫.(2008a).「Moodleを使ったテスティングとそのデータ分析」『金谷憲教授還暦記念論文集』pp.247- 258. 桐原書店. 木村哲夫.(2008b).「 Moodleを利用したテスト項目分析とアダプティブ・テスト開発の可能性」『第34回全国 英語教育学会 東京研究大会予稿集』pp.340-341. 大友賢二.(1996).『項目応答理論入門』大修館書店. 大友賢二・中村洋一(2002). 『テストで言語能力ははかれるか~言語テストデータ分析入門~』河源社. Reise, S. P. & Due, A. M. (1991). The influence of test characteristics on the detection of aberrant Response patterns. Applied Psychological Measurement, Vol. 15, No. 3, 217-226 Shojima, K. (2008) .Neural test theory: A latent rank theory for analyzing test data. DNC Research Note, 08-01. 荘島宏二郎.(2008a).ニューラルテスト理論-資格試験のためのテスト理論- 平成20年度全国大学入学者選抜研究連絡協議会,研究発表予稿集,163-168. 荘島宏二郎.(2008b). The structural neurofield mapping: A latent rank model for multivariate data. 日本行動計量学会第36回大会. 芝祐順.(1991).『項目反応理論:基礎と応用』東京大学出版. 靜哲人.(2007).『基礎から深く理解するラッシュモデリング』関西大学出版. 豊田秀樹.(2002).『項目反応理論[入門編]』朝倉書店.