習熟度別クラス編成のための英語基礎力判定標準化テスト作成の試み

習熟度別クラス編成のための英語基礎力判定標準化テスト作成の試み
LET関東支部第120回（2008年度）研究大会 2008/6/7 習熟度別クラス編成のための英語基礎力判定標準化テスト作成の試み木村　哲夫（新潟青陵大学）日本言語テスト学会　第12回全国研究大会

発表の流れ研究経過と背景習熟度別クラス分けテストの理想像 Research Questions 研究方法・分析手順分析結果考察
項目温存 Fit重視考察疑似クラス分けテスト他のテストスコアとの相関分析まとめと今後の課題

研究経過概略 LMSの中からMoodleを選択（木村, 2006)
Moodleによるテスト実施とデータ収集・分析の実際（木村, 2008a) TOEIC模擬問題による2PLM項目分析通過率と識別力が低いものが多い Moodleを利用したテスト項目分析とアダプティブ・テスト開発の可能性(木村, 2008b) 英検の過去問40問による1PLMと2PLM項目分析

習熟度別クラス分けのためのテスト英検の過去問題正当数に基づくスコア TOEIC 模擬問題オリジナル問題オリジナル問題
標準化されたスコア TOEIC IP CASEC

熟度別クラス分けのためのテストの理想像問題数少テスト時間短実施形態多数一斉・少数個別採点時間信頼性高妥当性
標準化されたＣＡＴが理想

Research Questions 条件を満たすテストを個人レベルで作成可能か？ Yes どのようなモデルで分析するのがよいか？
作成したテストでうまくクラス分けできるか？ Yes 1PLM 2PLM NTT 確信度テスト

方法項目：文法語彙問題・・・・・・80問（英検3～準1級）リスニング会話問題・・・47問（英検3～準1級）
項　目：文法語彙問題・・・・・・80問（英検3～準1級）　　　リスニング会話問題・・・47問（英検3～準1級）　　　　　リスニング説明文問題・・35問（英検3～2級）被験者：Ｎ大学およびＳ大学1年生268名電子化：PDF→OCR→TXT→Excel→ 　　　　　Multiple Choice Maker→ GIFT→Moodle 実　施： Moodleでチャレンジ・クイズ4回分として設定　　　　　毎回3パート各10分で実施(6~7月) 1回目は授業内に全員で実施 2回目～4回目は隔週で任意の課題として実施その他：4月 CASEC ：S大学全員　　 7月 TOEIC／TOEIC Bridge：希望者　　 8月 CASEC： S大学ほぼ全員

データ数一覧受験者数項目数準1級 2級準2級 3級文法語彙問題(vg) 222 80 25 20 15 会話問題(dlg) 157 47 12 10 説明文問題(mlg) 119 35 --- 受験者数 TOEIC 5 TOEIC Bridge 70 CASEC 4月 212 CASEC 8月 182 予想よりデータ数が少ないため2PLMによる分析は断念 ●受験者数は各区分で全項目に解答した人数

基準を超えるMisfitがなくなった段階で分析終了
分析手順（その1：項目温存） Moodle 小テスト詳細結果 Excelで 01データ 1PLM (周辺最尤法) 除去除去 Misfit Person ? Misfit除去の基準 Misfit Person：ZL ＜－1.96 Misfit Item：P.BIS＜0.25 Misfit Item? 基準を超えるMisfitがなくなった段階で分析終了

基準を超えるMisfitがなくなった段階で分析終了
Moodle 小テスト詳細結果 Excelで 01データ 1PLM (周辺最尤法) 除去 Misfit除去の基準 Misfit Person：ZL ＜－1.96 Misfit Item：P.BIS＜0.25 Misfit Person or Item ? 基準を超えるMisfitがなくなった段階で分析終了

分析手順（その3： NTTによる分析）テスト区分ごとに、以下のデータについて、 Neural Test Theory (Shojima, 2008 ) により、ノード数10とノード数５に設定し2回分析。 Misfit除去前のデータ分析手順(その1)でMisfit除去後のデータ分析手順(その2)でMisfit除去後のデータ本来NTTの枠組み内で考えられているmisfitの指標を使うべきだが、そのための計算プログラムがまだないので、今回はこの手順とした。

使用したプログラム Multiple Choice Maker： GIFTファイル作成マクロ MoodleResources（株）eラーニングサービス Easy Estimation (Ver.0.4.2)：項目パラメタ推定プログラム周辺最尤推定法・EMアルゴリズムによる１～３PLMに対応 Easy EstTheta (Ver0.1.1)：特性値推定プログラム PersonFitの指標は、Drasgow, Levine, & Williamas(1985) およびDrasgow, Levine , & McLaughlin(1987)のZL統計量 EasyNTT (Ver.0.2.3)： NTT計算プログラム　　　「ニューラルテスト理論」荘島（2007）によるItem Reference Profileおよび各受験者の潜在ランクを計算新潟大学　熊谷　龍一

項目数・受験者数（その1：項目温存） 222 80 25 20 15 157 47 12 10 119 35 --- 170 31 3 11
準1級 2級準2級 3級文法語彙問題(vg) 222 80 25 20 15 会話問題(dlg) 157 47 12 10 説明文問題(mlg) 119 35 --- 受験者数項目数準1級 2級準2級 3級文法語彙問題(vg) 170 31 3 11 10 7 会話問題(dlg) 142 13 2 4 説明文問題(mlg) 108 16 --- 5 6

項目数・受験者数（その2：FIT重視） 222 80 25 20 15 157 47 12 10 119 35 --- 193 36 2
準1級 2級準2級 3級文法語彙問題(vg) 222 80 25 20 15 会話問題(dlg) 157 47 12 10 説明文問題(mlg) 119 35 --- 受験者数項目数準1級 2級準2級 3級文法語彙問題(vg) 193 36 2 10 14 会話問題(dlg) --- 説明文問題(mlg) 112 19 7 5

文法語彙問題(vg)の項目分析推移

リスニング会話問題(dlg)の項目分析推移

リスニング説明文問題(mlg)の項目分析推移

Misfit除去前後の通過率文法語彙問題(vg) I Ave SD Max Min 準1級 25 0.27 0.11 0.57 0.12
2級 20 0.43 0.13 0.62 0.18 準2級 0.63 0.16 0.83 0.29 3級 15 0.79 0.95 0.48 (n=222) I Ave SD Max Min 準1級 3 0.30 0.13 0.45 0.21 2級 11 0.53 0.16 0.70 0.18 準2級 10 0.66 0.20 0.91 0.31 3級 7 0.78 0.14 0.94 I Ave SD Max Min 準1級 2 0.30 0.16 0.42 0.19 2級 10 0.51 0.15 0.66 0.18 準2級 14 0.65 0.88 0.29 3級 0.80 0.14 0.94 0.52 (n=170) (n=193)

Misfit除去前後の通過率会話問題(dlg) I Ave SD Max Min 準1級 12 0.27 0.08 0.39 0.16
2級 0.42 0.12 0.64 0.25 準2級 0.68 0.88 0.45 3級 0.83 0.10 0.92 0.65 (n=157) I Ave SD Max Min 準1級 ---　 2級 7 0.45 0.13 0.66 0.34 準2級 2 0.82 0.09 0.91 0.73 3級 4 0.84 0.11 0.95 0.70 I Ave SD Max Min 準1級 ---　 2級 3 0.49 0.137 0.58 0.34 準2級 0.79 0.101 0.88 0.68 3級 0.75 0.103 0.84 0.64 Misfit Item=5 (n=139) (n=125)

Misfit除去前後の通過率説明文問題(mlg) I Ave SD Max Min 準1級 --- 2級 15 0.46 0.13
---　 2級 15 0.46 0.13 0.64 0.29 準2級 10 0.53 0.14 0.70 0.24 3級 0.75 0.97 0.50 (n=119) I Ave SD Max Min 準1級 ---　 2級 5 0.51 0.15 0.64 0.27 準2級 0.18 0.72 0.23 3級 6 0.73 0.16 0.88 0.50 I Ave SD Max Min 準1級 ---　 2級 7 0.51 0.12 0.64 0.28 準2級 5 0.52 0.18 0.73 0.24 3級 0.74 0.15 0.88 0.50 (n=108) (n=112)

Misfit除去前後の基本統計量と信頼性
文法語彙問題Vg 会話問題Dlg 説明文問題Mlg Misfit 除去前除去後受験者数 222 193 157 142 119 112 項目数 80 36 47 13 35 19 素点平均 39.9 22.9 24.7 8.2 19.7 11.3 素点平均(%) 49.9% 63.5% 52.5% 62.8% 56.4% 59.4% 素点標準偏差 10.12 6.64 5.59 2.63 5.27 3.91 KR-20 0.858 0.868 0.722 0.706 0.752 0.780 ＜＞＜

疑似クラス分けテスト除去されなかった68問すべてを回答していた学生75人のデータにより、擬似的に習熟度別クラス編成を行い結果を分析した。受験者数N 項目数 I 準1級 2級準2級 3級文法語彙問題(vg) 75 36 2 10 14 会話問題(dlg) 13 7 4 説明文問題(mlg) 19 --- 5 困難度(1PLM) 困難度(NTT) 中央値最大値最小値文法語彙問題(vg) -0.68 1.61 -2.79 4 10 1 会話問題(dlg) -0.64 0.66 -2.72 説明文問題(mlg) -0.34 1.22 -1.93

各テスト区分のテスト情報曲線

各テスト区分のテスト参照プロファイル

語彙文法問題(vg)とCASECとの相関
C-S1 C-S2 C-S3 C-S4 C-T 1.00 0.97 0.70 0.60 0.46 0.51 0.72 0.74 0.56 0.47 Vg (I=36 N=105) θ1vg ： 1PLMによる能力推定値　　　 θ2vg：NTTによる能力推定値(Rank) C-S1 ：CASECセクション１（語彙） C-S2 ：CASECセクション２（表現） C-S3 ：CASECセクション３（リスニング） C-S4 ：CASECセクション４（ディクテーション） C-T ：CASEC合計点 θ1vg との相関：ピアソンの積率相関係数 θ2vg との相関：スピアマンの順位相関係数

会話問題(dlg)とCASECとの相関 θ1dlg θ2dlg C-S1 C-S2 C-S3 C-S4 C-T 1.00 0.91 0.50
0.55 0.60 0.44 0.65 0.37 0.48 0.51 0.31 0.52 Dlg (I=13 N=82) θ1dlg ： 1PLMによる能力推定値 θ2dlg：NTTによる能力推定値(Rank) C-S1 ：CASECセクション１（語彙） C-S2 ：CASECセクション２（表現） C-S3 ：CASECセクション３（リスニング） C-S4 ：CASECセクション４（ディクテーション） C-T ：CASEC合計点 θ1dlg との相関：ピアソンの積率相関係数 θ2dlg との相関：スピアマンの順位相関係数

説明文問題(mlg)とCASECとの相関
C-S1 C-S2 C-S3 C-S4 C-T 1.00 0.89 0.54 0.57 0.64 0.45 0.70 0.59 0.52 0.60 0.50 Mlg (I=19 N=81) θ1mlg ： 1PLMによる能力推定値 θ2mlg：NTTによる能力推定値(Rank) C-S1 ：CASECセクション１（語彙） C-S2 ：CASECセクション２（表現） C-S3 ：CASECセクション３（リスニング） C-S4 ：CASECセクション４（ディクテーション） C-T ：CASEC合計点 θ1mlg との相関：ピアソンの積率相関係数 θ2mlg との相関：スピアマンの順位相関係数

語彙文法問題(vg)とTOEIC Bridgeとの相関
TB-L TB-R TB-T 1.00 0.94 0.58 0.68 0.54 0.60 Vg (I=36 N=22) θ1vg ： 1PLMによる能力推定値 θ2vg：NTTによる能力推定値(Rank) TB-L ：TOEIC Bridge Listening Score TB-R ： TOEIC Bridge Reading Score TB-T ： TOEIC Bridge Total Score θ1vg との相関：ピアソンの積率相関係数 θ2vg との相関：スピアマンの順位相関係数

会話問題(dlg)とTOEIC Bridgeとの相関
TB-L TB-R TB-T 1.00 0.84 0.66 0.61 0.67 0.64 0.80 Dlg (I=13 N=21) θ1dlg ： 1PLMによる能力推定値　 θ2dlg：NTTによる能力推定値 TB-L ：TOEIC Bridge Listening Score TB-R ： TOEIC Bridge Reading Score TB-T ： TOEIC Bridge Total Score θ1dlg との相関：ピアソンの積率相関係数 θ2dlg との相関：スピアマンの順位相関係数

説明文問題(mlg)とTOEIC Bridgeとの相関
TB-L TB-R TB-T 1.00 0.85 0.58 0.79 0.77 0.70 0.65 0.74 Mlg (I=19 N=16) θ1mlg ： 1PLMによる能力推定値 θ2mlg：NTTによる能力推定値 TB-L ：TOEIC Bridge Listening Score TB-R ： TOEIC Bridge Reading Score TB-T ： TOEIC Bridge Total Score θ1mlg との相関：ピアソンの積率相関係数 θ2mlg との相関：スピアマンの順位相関係数

疑似クラス分けテストとCASECとの相関
C-S1 C-S2 C-S3 C-S4 C-T θ1vg 0.577 0.489 0.448 0.387 0.619 θ1dlg 0.443 0.574 0.535 0.296 0.611 θ1mlg 0.585 0.472 0.655 0.413 0.711 θ1-T 0.625 0.605 0.647 0.427 0.761 θ2vg 0.607 0.407 0.406 0.422 0.633 θ2dlg 0.397 0.491 0.317 0.560 θ2mlg 0.396 0.653 0.494 0.729 θ2-T 0.660 0.534 0.640 0.524 0.796 NTTが想定しているのは順序尺度であり、この足し算にはやや無理がある。本来はGraded Neural Test Model で合成を行うべきだが、まだ計算プログラムが未完成。今回はこれで一般的な傾向をつかむこととしたい。 (I=75 N=55) θ1-T= θ1vg+θ1dlg+θ1mlg ： 1PLMによる能力推定値 θ2-T= θ2vg+θ2dlg+θ2mlg ：NTTによる能力推定値 θ1 との相関：ピアソンの積率相関係数 θ2 との相関：スピアマンの順位相関係数

疑似クラス分けテストとTOEIC Bridgeとの相関
TB-L TB-R TB-T θ1vg 0.594 0.670 0.701 θ1dlg 0.764 0.695 0.799 θ1mlg 0.627 0.807 0.801 θ1-T 0.779 0.840 0.896 θ2vg 0.671 0.544 0.604 θ2dlg 0.664 0.863 0.861 θ2mlg 0.705 0.713 0.795 θ2-T 0.804 0.887 (I=75 N=13) θ1-T= θ1vg+θ1dlg+θ1mlg ： 1PLMによる能力推定値 θ2-T= θ2vg+θ2dlg+θ2mlg ：NTTによる能力推定値 θ1 との相関：ピアソンの積率相関係数 θ2 との相関：スピアマンの順位相関係数

NTTによるクラス分けのシミュレーション1

NTTによるクラス分けのシミュレーションと1PLMによる能力推定値の比較1
正答数 Mean SD Class 01 3～5 7 -3.34 0.677 25.9 4.81 Class 02 6～8 8 -2.82 0.491 27.8 3.24 Class 03 9～11 -1.55 0.674 35.1 4.58 Class 04 12～14 -1.20 0.494 36.0 3.21 Class 05 15～17 9 -0.09 0.493 41.8 3.38 Class 06 18～19 0.37 0.822 43.7 4.23 Class 07 20～21 0.59 0.535 45.5 2.56 Class 08 22～23 6 1.48 0.647 48.7 3.27 Class 09 24～25 2.09 0.922 50.3 3.35 Class 10 26～30 3.59 1.083 57.8 3.28

NTTによるクラス分けのシミュレーション2

NTTによるクラス分けのシミュレーションと1PLMによる能力推定値の比較2
正答数 Mean SD Class 01 3～8 15 -3.06 0.604 26.9 3.88 Class 02 9～14 -1.39 0.584 35.5 3.76 Class 03 15～19 16 0.11 0.652 42.6 3.66 Class 04 20～23 14 0.97 0.698 46.9 3.09 Class 05 24～30 2.89 1.204 54.3 4.84

クラス分けテストのテスト参照プロファイル1

クラス分けテストのテスト参照プロファイルと1PLM のθ

まとめ条件を満たすテストを個人レベルで作成可能か？ ⇒ 可能どのようなモデルで分析するのがよいか？ ⇒ 1PLM または NTT
⇒ 　可能どのようなモデルで分析するのがよいか？　　⇒　1PLM または NTT 　　⇒　事前にmisfitを適切に取り除く作成したテストでうまくクラス分けできるか？　　⇒　NTTを利用した方が解釈・判断が容易

今後の課題どのような項目がよい項目か？ Misfitsをどのように取り除くのがよいか？項目バンクを構築できないか？ＣＡＴにできないか？

ご静聴ありがとうございました。問い合わせ先：kimura@n-seiryo.ac.jp

引用文献・参考文献秋山實.(2006).「オーブンソースソフトウェアmoodleのオンラインテスト機能を基盤としたアイテム開発スキーム」教育システム情報学会研究報告, vol.20, no.6, 張一平.(2007).『確信度テスト法と項目反応理論』東京大学出版会. Drasgow, F., Levine, M. V., & McLaughlin, M. E. (1987). Detecting inappropriate test scores with optimal and practical appropriateness indices. Applied Psychological Measurement, II, Drasgow, F., Levine, M. V., & Williams, E. A. (1985). Appropriateness measurement with polychotomous item response models and standardized indices. British Journal of Mathematical and Statistical Psychology, 38, 木村哲夫.(2006).「大学におけるe-learningを活用した英語教育のあり方についての研究」新潟青陵大学平成17 年度共同研究費報告書. 木村哲夫.(2008a).「Moodleを使ったテスティングとそのデータ分析」『金谷憲教授還暦記念論文集』pp 桐原書店. 木村哲夫.(2008b).「 Moodleを利用したテスト項目分析とアダプティブ・テスト開発の可能性」『第34回全国英語教育学会東京研究大会予稿集』pp 大友賢二.(1996).『項目応答理論入門』大修館書店. 大友賢二・中村洋一(2002). 『テストで言語能力ははかれるか～言語テストデータ分析入門～』河源社. Reise, S. P. & Due, A. M. (1991). The influence of test characteristics on the detection of aberrant Response patterns. Applied Psychological Measurement, Vol. 15, No. 3, Shojima, K. (2008) .Neural test theory: A latent rank theory for analyzing test data. DNC Research Note, 荘島宏二郎.(2008a).ニューラルテスト理論－資格試験のためのテスト理論－平成20年度全国大学入学者選抜研究連絡協議会，研究発表予稿集，荘島宏二郎.(2008b). The structural neurofield mapping: A latent rank model for multivariate data. 日本行動計量学会第36回大会. 芝祐順.(1991).『項目反応理論：基礎と応用』東京大学出版. 靜哲人.(2007).『基礎から深く理解するラッシュモデリング』関西大学出版. 豊田秀樹.(2002).『項目反応理論[入門編]』朝倉書店.

習熟度別クラス編成のための英語基礎力判定標準化テスト作成の試み

Similar presentations

Presentation on theme: "習熟度別クラス編成のための英語基礎力判定標準化テスト作成の試み"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

習熟度別クラス編成のための 英語基礎力判定標準化テスト 作成の試み

Similar presentations

Presentation on theme: "習熟度別クラス編成のための 英語基礎力判定標準化テスト 作成の試み"— Presentation transcript:

Similar presentations

About project

フィードバック

習熟度別クラス編成のための英語基礎力判定標準化テスト作成の試み

Presentation on theme: "習熟度別クラス編成のための英語基礎力判定標準化テスト作成の試み"— Presentation transcript: