測定の標準誤差: 1点の差には意味があるか Rie Koizumi 小泉 利恵
テストには誤差がつきもの テストは1点の差が意味を持つほど精密なものではない。 テストには誤差がある。 誤差の理由 テストに含まれる問題項目の内容や形式 テスト全体の内容や形式 採点方法
誤差が起きる例 (1) テスト項目の内容 アニメの内容の読解の問題項目 アニメ好きの生徒:アニメの問題項目だけは 正解できるかも。 英語に関係ない知識のために、本来の英語 力よりは高い点数を取る。 英語力を測るテストの得点の中に、誤差が含 まれる。 対策:一部の生徒だけが知っているトピックは 避けて出題する。
誤差が起きる例 (2) テスト項目の形式 多肢選択式で正解を選ぶのが得意な生徒 教師の出題パターンを見抜くのが得意な生徒 英語力以外を使ってより高い得点を取得 対策:テスト内の形式をすべて同じにしない。多 くの形式を取り入れる。 出題パターンが同じにならないように注意。何回 か分のテストを比較してパターンがないことを確 認する。
誤差が起きる例 (3) テスト項目の形式 英文の並び替え問題の形式に慣れていない生徒 正解となる英文が分かっても、指示が分からず、不正解 対策:新しいテスト形式や指示は、テスト前に授業で扱う。解答例を付けておく。 テスト全体の形式 英語テスト問題を両面に刷った紙で提示 表だけ解答して止めてしまう生徒 本来の英語力よりは低い点数をその生徒は取る。 テストの誤差 対策:表面の最後に「続きは裏面へ」と書く。口頭での指示に「両面ありますので、気を付けてください」と言う。
誤差が起きる例 (4) 採点時に入る誤差 乱暴な字でのライティング 評価基準に、「字の美しさ」は入れていなかったが、採点者が点数を下げた。 対策:評価基準を明確にして、「字の美しさ」では点を上下させないことを注意事項に挙げておく。 採点して疲労し、採点がぶれてくる。 対策:ある一定数の採点を行ったら休憩を取る。
誤差と信頼性 誤差と信頼性は、表と裏の関係 テストで誤差が大きければ信頼性が低くなる。 信頼性が高いテストは誤差が小さくなる。 誤差が起きる状況とその解決法などについてさらに勉強してみたい人へ Hughes, A. (2003). 『英語のテストはこう作る』 (靜哲人訳) 東京:研究社
テストには誤差がある 誤差は減らせるが、なくすことはできない。 誤差が入らないように注意をして、丁寧にテストを作成、実施、採点しても、どのテストにも少しは入ってくる。 テスト得点の少しの差は誤差の範囲という視点を持とう。
測定の標準誤差 (Harvill, 1991) standard error of measurement: SEM 1人のテスト得点が誤差でどの程度変動するか SEM = 標準偏差×√(1-信頼性) 式1 68%の確率での誤差の大きさ、68%の確率でのスコアのばらつき 95%の確率での誤差の大きさ 1.96×SEM 式2
TOEICの測定の標準誤差 リスニング・リーディングスコアの範囲:5~495点 測定の標準誤差は、約25点 (ETS, 2007b, 2008) リスニングスコアが200点の場合:175~225点の変動はありえる 95%の確率でのスコアのばらつき ±49 (= ±1.96×25) 95%の確率で、リスニングスコアは49点上下 リスニングスコアが200点の場合:151~249点の変動はあり
測定の標準誤差の簡単な計算方法 普通は、測定の標準誤差を計算するには、テストの「信頼性」と「標準偏差」を知る必要がある。 大雑把な値でよい場合の式 (Harvill, 1991) テストの難易度が普通の場合:0.45×√(項目数) 式3 テストが易しい場合: 0.30*√(項目数) 式4 例:難易度が普通の50問のテストでは、約3点 (= 0.45×√50) 難易度が普通の100問のテストでは、4.5点 (= 0.45×√100)
TOEFLの測定の標準誤差 (1) TOEFL PBT (paper-based test; もしくはITP) スコアの範囲:310~677点 測定の標準誤差: 13点 (ETS, 2004) 68%の確率で13点は上下 95%の確率で25点は上下 480点のとき、実際のスコアは455~505点(95%の確率)
TOEFLの測定の標準誤差 (2) TOEFL iBT (internet-based test; ETS, 2007a) 測定の標準誤差(スコアの範囲) リーディング 2.78 (0~20点) リスニング 2.40 (0~20点) スピーキング 1.70 (0~20点) ライティング 2.65 (0~20点) トータル 4.88 (0~120点)
2つの得点を比べる場合 同じテストでの異なる人の得点を比較 例: TOEICテストを4月の同じ回に受けた2人の生徒の得点を比較する場合 同じ人の異なるテストでの得点を比較 例:TOEICテストを4月と12月に受けた生徒の2つの得点を比べ、伸びたかを考える場合 2つの方法あり。
2得点比較:第1の方法 測定の標準誤差の範囲を2つ出す。 2つの範囲に重なりがあるかを見る。 例:Aさん200点、Bさん100点 TOEICの測定の標準誤差は25点。95%の確率の誤差範囲は±49点 Aさんのスコア範囲:151~249点 Bさんのスコア範囲:51~149点 重なりなし。2人のスコアは違っていると自信を持って言える。 Cさん150点:スコア範囲は101~199点 Aさんのスコア > Cさんのスコア とは言えない。
2得点比較:第2の方法 (1) 差の標準誤差(standard error of difference) を計算 ある得点の誤差の範囲を出す。 その範囲外に別の得点があれば、2つの得点は異なると判断。誤差の範囲内に別の得点が入れば、2つの得点は異なるとは言えないと判断する。 SEdiff = √2×標準偏差×√(1-信頼性) 式5 = √2×SEM 68%の確率で2得点を比較するときの誤差の範囲 95%の確率での範囲 1.96×SEdiff 式6
2得点比較:第2の方法 (2) TOEICリスニングスコアのSEM:25点 差の標準誤差は、約35点 (= ±√2×25) 95%の確率で2得点を比較する際の誤差の大きさ ±69 (= ±1.96×35) Aさん200点、Bさん100点 Aさんのスコアの誤差の範囲は131~269点 Bさんの100点 < Aさんの下限の131点 かなりの自信を持ってAさんとBさんのスコアは異なると言える。 Cさん150点:Aさんの131~269点の範囲に150点あり Aさんのスコア > Cさんのスコア とは言えない。
まとめ テストには誤差がある。 その誤差のために点数はかなり変動する。 数点の違いで一喜一憂しない。
Further study 竹内理・水本篤(編) (2012). 『外国語教育研究ハンドブックー研究手法のより良い理解のために』 東京:松柏社 平井明代 (編) (2012). 『教育・心理系研究のためのデータ分析入門―理論と実践から学ぶSPSS活用法』 東京:東京図書
引用文献 Educational Testing Service (ETS). (2004). Mapping TOEFL, TSE, TWE, and TOEIC on the Common European Framework: Executive summary. Princeton, NJ: Author. Retrieved from http://www.besig.org/events/iateflpce2005/ets/CEFsummaryMarch04.pdf Educational Testing Service (ETS). (2007a). TOEFL® iBT score reliability and generalizability. Princeton, NJ: Author. Retrieved from http://www.ets.org/Media/Tests/TOEFL/pdf/TOEFL_iBT_Score_Reliability_Generalizability.pdf
引用文献 (2) Educational Testing Service (ETS). (2007b). TOEIC User Guide--Listening and Reading. Princeton, NJ: Author. Retrieved from http://www.ets.org/Media/Tests/Test_of_English_for_International_Communication/TOEIC_User_Gd.pdf Educational Testing Service (ETS). (2008). TOEIC Examinee handbook--Listening and Reading. Ewing, NJ: Author. Retrieved from http://www.ets.org/Media/Tests/TOEIC/pdf/TOEIC_LR_examinee_handbook.pdf Harvill, L. M. (1991). An NCME instructional module on standard error of measurement [Instructional topics in educational measurement]. Educational Measurement: Issues and Practice, 10(2), 181-189. Retrieved from http://www.ncme.org/pubs/items/16.pdf
2)テストの作成、採点、結果の報告の実践的な情報: Practical considerations in developing language tests ©日本言語テスト学会 小泉利恵