Download presentation
Presentation is loading. Please wait.
1
習熟度別クラス編成のための 英語基礎力判定標準化テスト 作成の試み
LET関東支部第120回(2008年度)研究大会 2008/6/7 習熟度別クラス編成のための 英語基礎力判定標準化テスト 作成の試み 木 村 哲 夫(新潟青陵大学) 日本言語テスト学会 第12回 全国研究大会
2
発表の流れ 研究経過と背景 習熟度別クラス分けテストの理想像 Research Questions 研究方法・分析手順 分析結果 考察
項目温存 Fit重視 考察 疑似クラス分けテスト 他のテストスコアとの相関分析 まとめと今後の課題
3
研究経過概略 LMSの中からMoodleを選択(木村, 2006)
Moodleによるテスト実施とデータ収集・分析の 実際(木村, 2008a) TOEIC模擬問題による2PLM項目分析 通過率と識別力が低いものが多い Moodleを利用したテスト項目分析とアダプティ ブ・テスト開発の可能性(木村, 2008b) 英検の過去問40問による1PLMと2PLM項目分析
4
習熟度別クラス分けのためのテスト 英検の過去問題 正当数に基づくスコア TOEIC 模擬問題 オリジナル問題 オリジナル問題
標準化されたスコア TOEIC IP CASEC
5
熟度別クラス分けのためのテストの理想像 問題数 少 テスト時間 短 実施形態 多数一斉・少数個別 採点時間 信頼性 高 妥当性
標準化されたCATが理想
6
Research Questions 条件を満たすテストを個人レベルで作成可能か? Yes どのようなモデルで分析するのがよいか?
作成したテストでうまくクラス分けできるか? Yes 1PLM 2PLM NTT 確信度テスト
7
方法 項 目:文法語彙問題 ・・・・・・80問(英検3~準1級) リスニング会話問題 ・・・47問(英検3~準1級)
項 目:文法語彙問題 ・・・・・・80問(英検3~準1級) リスニング会話問題 ・・・47問(英検3~準1級) リスニング説明文問題 ・・35問(英検3~2級) 被験者:N大学およびS大学1年生268名 電子化:PDF→OCR→TXT→Excel→ Multiple Choice Maker→ GIFT→Moodle 実 施: Moodleでチャレンジ・クイズ4回分として設定 毎回3パート各10分で実施(6~7月) 1回目は授業内に全員で実施 2回目~4回目は隔週で任意の課題として実施 その他:4月 CASEC :S大学全員 7月 TOEIC/TOEIC Bridge:希望者 8月 CASEC: S大学ほぼ全員
8
データ数一覧 受験者数 項目数 準1級 2級 準2級 3級 文法語彙問題(vg) 222 80 25 20 15 会話問題(dlg) 157 47 12 10 説明文問題(mlg) 119 35 --- 受験者数 TOEIC 5 TOEIC Bridge 70 CASEC 4月 212 CASEC 8月 182 予想よりデータ数が少ないため2PLMによる分析は断念 ●受験者数は各区分で全項目に解答した人数
9
基準を超えるMisfitがなくなった段階で分析終了
分析手順(その1:項目温存) Moodle 小テスト 詳細結果 Excelで 01データ 1PLM (周辺最尤法) 除去 除去 Misfit Person ? Misfit除去の基準 Misfit Person:ZL <-1.96 Misfit Item:P.BIS<0.25 Misfit Item? 基準を超えるMisfitがなくなった段階で分析終了
10
基準を超えるMisfitがなくなった段階で分析終了
Moodle 小テスト 詳細結果 Excelで 01データ 1PLM (周辺最尤法) 除去 Misfit除去の基準 Misfit Person:ZL <-1.96 Misfit Item:P.BIS<0.25 Misfit Person or Item ? 基準を超えるMisfitがなくなった段階で分析終了
11
分析手順(その3: NTTによる分析) テスト区分ごとに、以下のデータについて、 Neural Test Theory (Shojima, 2008 ) により、 ノード数10とノード数5に設定し2回分析。 Misfit除去前のデータ 分析手順(その1)でMisfit除去後のデータ 分析手順(その2)でMisfit除去後のデータ 本来NTTの枠組み内で考えられているmisfitの指標を使うべきだが、そのための計算プログラムがまだないので、今回はこの手順とした。
12
使用したプログラム Multiple Choice Maker: GIFTファイル作成マクロ MoodleResources(株)eラーニングサービス Easy Estimation (Ver.0.4.2):項目パラメタ推定プログラム 周辺最尤推定法・EMアルゴリズムによる1~3PLMに対応 Easy EstTheta (Ver0.1.1):特性値推定プログラム PersonFitの指標は、Drasgow, Levine, & Williamas(1985) およびDrasgow, Levine , & McLaughlin(1987)のZL統計量 EasyNTT (Ver.0.2.3): NTT計算プログラム 「ニューラルテスト理論」荘島(2007)によるItem Reference Profileおよび各受験者の潜在ランクを計算 新潟大学 熊谷 龍一
13
項目数・受験者数(その1:項目温存) 222 80 25 20 15 157 47 12 10 119 35 --- 170 31 3 11
準1級 2級 準2級 3級 文法語彙問題(vg) 222 80 25 20 15 会話問題(dlg) 157 47 12 10 説明文問題(mlg) 119 35 --- 受験者数 項目数 準1級 2級 準2級 3級 文法語彙問題(vg) 170 31 3 11 10 7 会話問題(dlg) 142 13 2 4 説明文問題(mlg) 108 16 --- 5 6
14
項目数・受験者数(その2:FIT重視) 222 80 25 20 15 157 47 12 10 119 35 --- 193 36 2
準1級 2級 準2級 3級 文法語彙問題(vg) 222 80 25 20 15 会話問題(dlg) 157 47 12 10 説明文問題(mlg) 119 35 --- 受験者数 項目数 準1級 2級 準2級 3級 文法語彙問題(vg) 193 36 2 10 14 会話問題(dlg) --- 説明文問題(mlg) 112 19 7 5
15
文法語彙問題(vg)の項目分析推移
16
リスニング会話問題(dlg)の項目分析推移
17
リスニング説明文問題(mlg)の項目分析推移
18
Misfit除去前後の通過率 文法語彙問題(vg) I Ave SD Max Min 準1級 25 0.27 0.11 0.57 0.12
2級 20 0.43 0.13 0.62 0.18 準2級 0.63 0.16 0.83 0.29 3級 15 0.79 0.95 0.48 (n=222) I Ave SD Max Min 準1級 3 0.30 0.13 0.45 0.21 2級 11 0.53 0.16 0.70 0.18 準2級 10 0.66 0.20 0.91 0.31 3級 7 0.78 0.14 0.94 I Ave SD Max Min 準1級 2 0.30 0.16 0.42 0.19 2級 10 0.51 0.15 0.66 0.18 準2級 14 0.65 0.88 0.29 3級 0.80 0.14 0.94 0.52 (n=170) (n=193)
19
Misfit除去前後の通過率 会話問題(dlg) I Ave SD Max Min 準1級 12 0.27 0.08 0.39 0.16
2級 0.42 0.12 0.64 0.25 準2級 0.68 0.88 0.45 3級 0.83 0.10 0.92 0.65 (n=157) I Ave SD Max Min 準1級 --- 2級 7 0.45 0.13 0.66 0.34 準2級 2 0.82 0.09 0.91 0.73 3級 4 0.84 0.11 0.95 0.70 I Ave SD Max Min 準1級 --- 2級 3 0.49 0.137 0.58 0.34 準2級 0.79 0.101 0.88 0.68 3級 0.75 0.103 0.84 0.64 Misfit Item=5 (n=139) (n=125)
20
Misfit除去前後の通過率 説明文問題(mlg) I Ave SD Max Min 準1級 --- 2級 15 0.46 0.13
--- 2級 15 0.46 0.13 0.64 0.29 準2級 10 0.53 0.14 0.70 0.24 3級 0.75 0.97 0.50 (n=119) I Ave SD Max Min 準1級 --- 2級 5 0.51 0.15 0.64 0.27 準2級 0.18 0.72 0.23 3級 6 0.73 0.16 0.88 0.50 I Ave SD Max Min 準1級 --- 2級 7 0.51 0.12 0.64 0.28 準2級 5 0.52 0.18 0.73 0.24 3級 0.74 0.15 0.88 0.50 (n=108) (n=112)
21
Misfit除去前後の基本統計量と信頼性
文法語彙問題Vg 会話問題Dlg 説明文問題Mlg Misfit 除去前 除去後 受験者数 222 193 157 142 119 112 項目数 80 36 47 13 35 19 素点平均 39.9 22.9 24.7 8.2 19.7 11.3 素点平均(%) 49.9% 63.5% 52.5% 62.8% 56.4% 59.4% 素点標準偏差 10.12 6.64 5.59 2.63 5.27 3.91 KR-20 0.858 0.868 0.722 0.706 0.752 0.780 < > <
22
疑似クラス分けテスト 除去されなかった68問すべてを回答していた学生75人のデータにより、擬似的に習熟度別クラス編成を行い結果を分析した。 受験者数N 項目数 I 準1級 2級 準2級 3級 文法語彙問題(vg) 75 36 2 10 14 会話問題(dlg) 13 7 4 説明文問題(mlg) 19 --- 5 困難度(1PLM) 困難度(NTT) 中央値 最大値 最小値 文法語彙問題(vg) -0.68 1.61 -2.79 4 10 1 会話問題(dlg) -0.64 0.66 -2.72 説明文問題(mlg) -0.34 1.22 -1.93
23
各テスト区分のテスト情報曲線
24
各テスト区分のテスト参照プロファイル
25
語彙文法問題(vg)とCASECとの相関
C-S1 C-S2 C-S3 C-S4 C-T 1.00 0.97 0.70 0.60 0.46 0.51 0.72 0.74 0.56 0.47 Vg (I=36 N=105) θ1vg : 1PLMによる能力推定値 θ2vg:NTTによる能力推定値(Rank) C-S1 :CASECセクション1(語彙) C-S2 :CASECセクション2(表現) C-S3 :CASECセクション3(リスニング) C-S4 :CASECセクション4 (ディクテーション) C-T :CASEC合計点 θ1vg との相関:ピアソンの積率相関係数 θ2vg との相関:スピアマンの順位相関係数
26
会話問題(dlg)とCASECとの相関 θ1dlg θ2dlg C-S1 C-S2 C-S3 C-S4 C-T 1.00 0.91 0.50
0.55 0.60 0.44 0.65 0.37 0.48 0.51 0.31 0.52 Dlg (I=13 N=82) θ1dlg : 1PLMによる能力推定値 θ2dlg:NTTによる能力推定値(Rank) C-S1 :CASECセクション1(語彙) C-S2 :CASECセクション2(表現) C-S3 :CASECセクション3(リスニング) C-S4 :CASECセクション4 (ディクテーション) C-T :CASEC合計点 θ1dlg との相関:ピアソンの積率相関係数 θ2dlg との相関:スピアマンの順位相関係数
27
説明文問題(mlg)とCASECとの相関
C-S1 C-S2 C-S3 C-S4 C-T 1.00 0.89 0.54 0.57 0.64 0.45 0.70 0.59 0.52 0.60 0.50 Mlg (I=19 N=81) θ1mlg : 1PLMによる能力推定値 θ2mlg:NTTによる能力推定値(Rank) C-S1 :CASECセクション1(語彙) C-S2 :CASECセクション2(表現) C-S3 :CASECセクション3(リスニング) C-S4 :CASECセクション4 (ディクテーション) C-T :CASEC合計点 θ1mlg との相関:ピアソンの積率相関係数 θ2mlg との相関:スピアマンの順位相関係数
28
語彙文法問題(vg)とTOEIC Bridgeとの相関
TB-L TB-R TB-T 1.00 0.94 0.58 0.68 0.54 0.60 Vg (I=36 N=22) θ1vg : 1PLMによる能力推定値 θ2vg:NTTによる能力推定値(Rank) TB-L :TOEIC Bridge Listening Score TB-R : TOEIC Bridge Reading Score TB-T : TOEIC Bridge Total Score θ1vg との相関:ピアソンの積率相関係数 θ2vg との相関:スピアマンの順位相関係数
29
会話問題(dlg)とTOEIC Bridgeとの相関
TB-L TB-R TB-T 1.00 0.84 0.66 0.61 0.67 0.64 0.80 Dlg (I=13 N=21) θ1dlg : 1PLMによる能力推定値 θ2dlg:NTTによる能力推定値 TB-L :TOEIC Bridge Listening Score TB-R : TOEIC Bridge Reading Score TB-T : TOEIC Bridge Total Score θ1dlg との相関:ピアソンの積率相関係数 θ2dlg との相関:スピアマンの順位相関係数
30
説明文問題(mlg)とTOEIC Bridgeとの相関
TB-L TB-R TB-T 1.00 0.85 0.58 0.79 0.77 0.70 0.65 0.74 Mlg (I=19 N=16) θ1mlg : 1PLMによる能力推定値 θ2mlg:NTTによる能力推定値 TB-L :TOEIC Bridge Listening Score TB-R : TOEIC Bridge Reading Score TB-T : TOEIC Bridge Total Score θ1mlg との相関:ピアソンの積率相関係数 θ2mlg との相関:スピアマンの順位相関係数
31
疑似クラス分けテストとCASECとの相関
C-S1 C-S2 C-S3 C-S4 C-T θ1vg 0.577 0.489 0.448 0.387 0.619 θ1dlg 0.443 0.574 0.535 0.296 0.611 θ1mlg 0.585 0.472 0.655 0.413 0.711 θ1-T 0.625 0.605 0.647 0.427 0.761 θ2vg 0.607 0.407 0.406 0.422 0.633 θ2dlg 0.397 0.491 0.317 0.560 θ2mlg 0.396 0.653 0.494 0.729 θ2-T 0.660 0.534 0.640 0.524 0.796 NTTが想定しているのは順序尺度であり、この足し算にはやや無理がある。本来はGraded Neural Test Model で合成を行うべきだが、まだ計算プログラムが未完成。今回はこれで一般的な傾向をつかむこととしたい。 (I=75 N=55) θ1-T= θ1vg+θ1dlg+θ1mlg : 1PLMによる能力推定値 θ2-T= θ2vg+θ2dlg+θ2mlg :NTTによる能力推定値 θ1 との相関:ピアソンの積率相関係数 θ2 との相関:スピアマンの順位相関係数
32
疑似クラス分けテストとTOEIC Bridgeとの相関
TB-L TB-R TB-T θ1vg 0.594 0.670 0.701 θ1dlg 0.764 0.695 0.799 θ1mlg 0.627 0.807 0.801 θ1-T 0.779 0.840 0.896 θ2vg 0.671 0.544 0.604 θ2dlg 0.664 0.863 0.861 θ2mlg 0.705 0.713 0.795 θ2-T 0.804 0.887 (I=75 N=13) θ1-T= θ1vg+θ1dlg+θ1mlg : 1PLMによる能力推定値 θ2-T= θ2vg+θ2dlg+θ2mlg :NTTによる能力推定値 θ1 との相関:ピアソンの積率相関係数 θ2 との相関:スピアマンの順位相関係数
33
NTTによるクラス分けのシミュレーション1
34
NTTによるクラス分けのシミュレーションと1PLMによる能力推定値の比較1
正答数 Mean SD Class 01 3~5 7 -3.34 0.677 25.9 4.81 Class 02 6~8 8 -2.82 0.491 27.8 3.24 Class 03 9~11 -1.55 0.674 35.1 4.58 Class 04 12~14 -1.20 0.494 36.0 3.21 Class 05 15~17 9 -0.09 0.493 41.8 3.38 Class 06 18~19 0.37 0.822 43.7 4.23 Class 07 20~21 0.59 0.535 45.5 2.56 Class 08 22~23 6 1.48 0.647 48.7 3.27 Class 09 24~25 2.09 0.922 50.3 3.35 Class 10 26~30 3.59 1.083 57.8 3.28
35
NTTによるクラス分けのシミュレーション2
36
NTTによるクラス分けのシミュレーションと1PLMによる能力推定値の比較2
正答数 Mean SD Class 01 3~8 15 -3.06 0.604 26.9 3.88 Class 02 9~14 -1.39 0.584 35.5 3.76 Class 03 15~19 16 0.11 0.652 42.6 3.66 Class 04 20~23 14 0.97 0.698 46.9 3.09 Class 05 24~30 2.89 1.204 54.3 4.84
37
クラス分けテストの テスト参照プロファイル1
38
クラス分けテストの テスト参照プロファイル2
39
クラス分けテストの テスト参照プロファイルと1PLM のθ
40
クラス分けテストの テスト参照プロファイル2
41
まとめ 条件を満たすテストを個人レベルで作成可能か? ⇒ 可能 どのようなモデルで分析するのがよいか? ⇒ 1PLM または NTT
⇒ 可能 どのようなモデルで分析するのがよいか? ⇒ 1PLM または NTT ⇒ 事前にmisfitを適切に取り除く 作成したテストでうまくクラス分けできるか? ⇒ NTTを利用した方が解釈・判断が容易
42
今後の課題 どのような項目がよい項目か? Misfitsをどのように取り除くのがよいか? 項目バンクを構築できないか? CATにできないか?
43
ご静聴ありがとうございました。 問い合わせ先:kimura@n-seiryo.ac.jp
44
引用文献・参考文献 秋山實.(2006).「オーブンソースソフトウェアmoodleのオンラインテスト機能を基盤としたアイテム開発ス キーム」教育システム情報学会研究報告, vol.20, no.6, 張一平.(2007).『確信度テスト法と項目反応理論』東京大学出版会. Drasgow, F., Levine, M. V., & McLaughlin, M. E. (1987). Detecting inappropriate test scores with optimal and practical appropriateness indices. Applied Psychological Measurement, II, Drasgow, F., Levine, M. V., & Williams, E. A. (1985). Appropriateness measurement with polychotomous item response models and standardized indices. British Journal of Mathematical and Statistical Psychology, 38, 木村哲夫.(2006).「大学におけるe-learningを活用した英語教育のあり方についての研究」新潟青陵大学平成17 年度共同研究費報告書. 木村哲夫.(2008a).「Moodleを使ったテスティングとそのデータ分析」『金谷憲教授還暦記念論文集』pp 桐原書店. 木村哲夫.(2008b).「 Moodleを利用したテスト項目分析とアダプティブ・テスト開発の可能性」『第34回全国 英語教育学会 東京研究大会予稿集』pp 大友賢二.(1996).『項目応答理論入門』大修館書店. 大友賢二・中村洋一(2002). 『テストで言語能力ははかれるか~言語テストデータ分析入門~』河源社. Reise, S. P. & Due, A. M. (1991). The influence of test characteristics on the detection of aberrant Response patterns. Applied Psychological Measurement, Vol. 15, No. 3, Shojima, K. (2008) .Neural test theory: A latent rank theory for analyzing test data. DNC Research Note, 荘島宏二郎.(2008a).ニューラルテスト理論-資格試験のためのテスト理論- 平成20年度全国大学入学者選抜研究連絡協議会,研究発表予稿集, 荘島宏二郎.(2008b). The structural neurofield mapping: A latent rank model for multivariate data. 日本行動計量学会第36回大会. 芝祐順.(1991).『項目反応理論:基礎と応用』東京大学出版. 靜哲人.(2007).『基礎から深く理解するラッシュモデリング』関西大学出版. 豊田秀樹.(2002).『項目反応理論[入門編]』朝倉書店.
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.