測定の標準誤差: 1点の差には意味があるか Rie Koizumi 小泉 利恵.

Slides:



Advertisements
Similar presentations
1 最終発表 模擬授業について 2205/11/17 知識情報工学専攻 修士 1 年 平野幸児.
Advertisements

第4章 何のための評価? 道案内 (4) 何のための評価? ♢なぜ教育心理学を勉強するか? (0) イントロダクション ♢効果的な授業をするために (1) 記憶のしくみを知る (2) 学習のしくみを知る (3) 「やる気」の心理学 ♢生徒を正しく評価するために ♢生徒の心を理解するために (5)
生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
の範囲に、 “ 真の値 ” が入っている可能性が約 60% 以上ある事を意味する。 (測定回数 n が増せばこの可能性は増 す。) 平均値 偶然誤差によ るばらつき v i は 測定値と平均値の差 で残差、 また、 σ は、標準誤差( Standard Error, SE ) もしくは、平均値の標準偏差、平均値の平均二乗.
計量的手法入門 人材開発コース・ワークショップ (IV) 2000 年 6 月 29 日、 7 月 6 ・ 13 日 奥西 好夫
1 統計学 第2週 10/01 (月) 担当:鈴木智也. 2 前回のポイント 「記述統計」と「推測統計」。 データ自体の規則性を記述するのが 「記述統計」、データを生み出した背 景を推測するのが「推測統計」である。 推測統計は記述統計に基づくので、ま ずは記述統計から学ぶ。 以下、データの観測値をX.
Windows 環境から SAS を使う 長野 祐一郎 1. データのダウンロード 2. データの加工 3. プログラムの作成 4.TeraTerm によるプログラムの実行 5. 処理結果の確認 6.SAS のデータ処理を概観 今回の授業では、 Windows 環境で作成されたデータを.
生体情報論演習 - 統計法の実践 第 1 回 京都大学 情報学研究科 杉山麿人.
1 項目反応理論によるテストの作成 東京工業大学 大学院社会理工学研究科 前川 眞一.
統計学入門(1) 第 10 回 基本統計量:まとめ. 統計学第 8 回 2 前回の練習問題の解答 (1) から (4) に対応するヒストグラムはそれぞれどれか。
「CBT 技法研究会」(柳本武美先生の研究会) 「CBT 技法研究会」 コメント 林 篤裕 (大学入試センター研究開発部)
研修のめあて 授業記録、授業評価等に役立てるためのICT活用について理解し、ディジタルカメラ又はビデオカメラのデータ整理の方法について研修します。 福岡県教育センター 教員のICT授業活用力向上研修システム.
SPSS操作入門 よい卒業研究をめざして 橋本明浩.
プログラマのレベルアップ.
外国語教育メディア学会(LET)関東支部130 回(2013 年度)研究大会
CFAレベル1準備コースの特徴 CFAレベル1を受験する際に、会計、ファイナンス、統計などの基礎知識があることを望ましいといわれています。CFAレベル1受験勉強と同時にこれらの科目を独学での勉強することはできますが、本コースで効率的に勉強することができます。本コースでは、会計の基礎及びレベル1の会計問題を解く際の基礎知識を1日で学習します。また、本コースでは、Input、Comprehension、
レポートの作成 効果的な発表の仕方.
周育佳 東京外国語大学地域文化研究科博士後期課程
仮説の立て方、RQの絞り方 論文を考える根本的思考 担当・柴田真吾
第1回レポートの課題 6月19日出題 今回の課題は1問のみ 第2回レポートと併せて本科目の単位を認定 第2回は7月に出題予定
Tour (ツアー).
第1回 担当: 西山 統計学.
Toshihiko SHIOTSU 塩津敏彦
オンライン英単語・リスニング 学習ソフト 佐々木研究室 N02k1114 北隅 麻実.
Features (概要).
疫学概論 母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.
食事療法の摂取エネルギーを、いわゆる 「隠れ肥満」と「太りやすい体質」 を考慮して求める方法
応用言語学研究論A:SPSS宿題 Spring 2016 R.Nishida, Ph.D..
流れ(3時間分) 1 ちらばりは必要か? 2 分散・標準偏差の意味 3 計算演習(例題と問題) 4 実験1(きれいな山型の性質を知ろう)
IT入門B2 (木曜日1限) 第一回 講義概要 2004年月9日30日.
統計学勉強会 対応のあるt検定 理論生態学研究室 3年 新藤 茜.
フットサルシューズの最適化 ~コンジョイント分析を用いて~
13回目 複合情報検索 13-1 課題の概要 13-2 EBSCOhost の使用方法 13-3 ProQuestの使用方法
統計学 第3回 10/11 担当:鈴木智也.
14回. まとめ 情報のまとめかた DBの利用 情報検索の留意点 情報検索と情報収集 68 基礎知識の必要性 68
変数のスコープの設計判断能力 を育成するプログラミング教育
成績は、小テストと期末のレポートによって評価 (1/3以上欠席の場合は不可とします)
データのバラツキの測度 レンジと四分位偏差 分散と標準偏差 変動係数.
技術者英語 対象: 電気電子システム工学科 2年生 時限: 前期 水曜日 Ⅳ限 担当: 武藤 真三、本間 聡
第3章 補足:パラメータが極小値に収束する例
春の統計学・計量経済学勉強会 第1回:2017年2月21日(火) 市野泰和
情報処理1~第12回~ 野中良哲.
Placement Manual Speaking
練習問題アイテムバンクの開発研究 ~再生形式~
Basic Calculus The Greeks Measure the Universe [4]
第4日目第3時限の学習目標 検査の信頼性(続き)を学ぶ。 妥当性について学ぶ。 (1)構成概念妥当性とは? (2)内容妥当性とは?
スピーキングタスクの繰り返しの効果 ―タスクの実施間隔の影響―
高校における英語の授業は英語でがベストか
新入生の事前知識の違いによる コンピュータリテラシ学習効果の分析
卒論の書き方: 参考文献について 2017年9月27日 小尻智子.
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
Placement Manual Essential
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
統計学の入門講義における 達成動機,自己効力感,およびテスト成績の関連
レクチャー (2) 図書と雑誌の違い と 書誌事項・参考文献リストの 見方と書き方
就 策 活 対 2,500 Webによる 「就職筆記試験対策システム(E TestingⅡ)」 円 学生のみなさんへ
確率と統計2009 第12日目(A).
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
クロス表とχ2検定.
数理統計学 西 山.
演習1に関する講評 ~ 業務仕様を書く難しさ ~
学習成果ごとの評価方法 授業中の評価 ペーパーテスト 言語情報 運動技能 知的技能 認知的方略 態度 ・一問一答の発問
 期末試験と成績評価について  2012年度「企業論」 川端 望.
小標本に関する平均の推定と検定 標本が小さい場合,標本分散から母分散を推定するときの不確実さを加味したt分布を用いて,推定や検定を行う
第5章 性格とは何か?.
臨床統計入門(1) 箕面市立病院小児科  山本威久 平成23年10月11日.
Examination Study Plan Pages ★ REVIEW PLAN DO
回帰分析入門 経済データ解析 2011年度.
Examination Study Plan Pages ★ REVIEW PLAN DO
Presentation transcript:

測定の標準誤差: 1点の差には意味があるか Rie Koizumi 小泉 利恵

テストには誤差がつきもの テストは1点の差が意味を持つほど精密なものではない。 テストには誤差がある。 誤差の理由 テストに含まれる問題項目の内容や形式 テスト全体の内容や形式 採点方法

誤差が起きる例 (1) テスト項目の内容 アニメの内容の読解の問題項目 アニメ好きの生徒:アニメの問題項目だけは 正解できるかも。 英語に関係ない知識のために、本来の英語 力よりは高い点数を取る。 英語力を測るテストの得点の中に、誤差が含 まれる。 対策:一部の生徒だけが知っているトピックは 避けて出題する。

誤差が起きる例 (2) テスト項目の形式 多肢選択式で正解を選ぶのが得意な生徒 教師の出題パターンを見抜くのが得意な生徒 英語力以外を使ってより高い得点を取得 対策:テスト内の形式をすべて同じにしない。多 くの形式を取り入れる。 出題パターンが同じにならないように注意。何回 か分のテストを比較してパターンがないことを確 認する。

誤差が起きる例 (3) テスト項目の形式 英文の並び替え問題の形式に慣れていない生徒 正解となる英文が分かっても、指示が分からず、不正解 対策:新しいテスト形式や指示は、テスト前に授業で扱う。解答例を付けておく。 テスト全体の形式 英語テスト問題を両面に刷った紙で提示 表だけ解答して止めてしまう生徒 本来の英語力よりは低い点数をその生徒は取る。 テストの誤差 対策:表面の最後に「続きは裏面へ」と書く。口頭での指示に「両面ありますので、気を付けてください」と言う。

誤差が起きる例 (4) 採点時に入る誤差 乱暴な字でのライティング 評価基準に、「字の美しさ」は入れていなかったが、採点者が点数を下げた。 対策:評価基準を明確にして、「字の美しさ」では点を上下させないことを注意事項に挙げておく。 採点して疲労し、採点がぶれてくる。 対策:ある一定数の採点を行ったら休憩を取る。

誤差と信頼性 誤差と信頼性は、表と裏の関係 テストで誤差が大きければ信頼性が低くなる。 信頼性が高いテストは誤差が小さくなる。 誤差が起きる状況とその解決法などについてさらに勉強してみたい人へ Hughes, A. (2003). 『英語のテストはこう作る』 (靜哲人訳) 東京:研究社

テストには誤差がある 誤差は減らせるが、なくすことはできない。 誤差が入らないように注意をして、丁寧にテストを作成、実施、採点しても、どのテストにも少しは入ってくる。 テスト得点の少しの差は誤差の範囲という視点を持とう。

測定の標準誤差 (Harvill, 1991) standard error of measurement: SEM 1人のテスト得点が誤差でどの程度変動するか SEM = 標準偏差×√(1-信頼性) 式1 68%の確率での誤差の大きさ、68%の確率でのスコアのばらつき 95%の確率での誤差の大きさ 1.96×SEM 式2

TOEICの測定の標準誤差 リスニング・リーディングスコアの範囲:5~495点 測定の標準誤差は、約25点 (ETS, 2007b, 2008) リスニングスコアが200点の場合:175~225点の変動はありえる 95%の確率でのスコアのばらつき ±49 (= ±1.96×25) 95%の確率で、リスニングスコアは49点上下 リスニングスコアが200点の場合:151~249点の変動はあり

測定の標準誤差の簡単な計算方法 普通は、測定の標準誤差を計算するには、テストの「信頼性」と「標準偏差」を知る必要がある。 大雑把な値でよい場合の式 (Harvill, 1991) テストの難易度が普通の場合:0.45×√(項目数) 式3 テストが易しい場合:   0.30*√(項目数)  式4 例:難易度が普通の50問のテストでは、約3点                            (= 0.45×√50) 難易度が普通の100問のテストでは、4.5点                            (= 0.45×√100)

TOEFLの測定の標準誤差 (1) TOEFL PBT (paper-based test; もしくはITP) スコアの範囲:310~677点 測定の標準誤差: 13点 (ETS, 2004) 68%の確率で13点は上下 95%の確率で25点は上下 480点のとき、実際のスコアは455~505点(95%の確率)

TOEFLの測定の標準誤差 (2) TOEFL iBT (internet-based test; ETS, 2007a) 測定の標準誤差(スコアの範囲) リーディング 2.78 (0~20点) リスニング 2.40 (0~20点) スピーキング 1.70 (0~20点) ライティング 2.65 (0~20点) トータル 4.88 (0~120点)

2つの得点を比べる場合 同じテストでの異なる人の得点を比較 例: TOEICテストを4月の同じ回に受けた2人の生徒の得点を比較する場合 同じ人の異なるテストでの得点を比較 例:TOEICテストを4月と12月に受けた生徒の2つの得点を比べ、伸びたかを考える場合 2つの方法あり。

2得点比較:第1の方法 測定の標準誤差の範囲を2つ出す。 2つの範囲に重なりがあるかを見る。 例:Aさん200点、Bさん100点 TOEICの測定の標準誤差は25点。95%の確率の誤差範囲は±49点 Aさんのスコア範囲:151~249点 Bさんのスコア範囲:51~149点 重なりなし。2人のスコアは違っていると自信を持って言える。 Cさん150点:スコア範囲は101~199点 Aさんのスコア > Cさんのスコア とは言えない。

2得点比較:第2の方法 (1) 差の標準誤差(standard error of difference) を計算 ある得点の誤差の範囲を出す。 その範囲外に別の得点があれば、2つの得点は異なると判断。誤差の範囲内に別の得点が入れば、2つの得点は異なるとは言えないと判断する。 SEdiff = √2×標準偏差×√(1-信頼性) 式5    = √2×SEM 68%の確率で2得点を比較するときの誤差の範囲 95%の確率での範囲 1.96×SEdiff 式6

2得点比較:第2の方法 (2) TOEICリスニングスコアのSEM:25点 差の標準誤差は、約35点 (= ±√2×25) 95%の確率で2得点を比較する際の誤差の大きさ ±69 (= ±1.96×35) Aさん200点、Bさん100点 Aさんのスコアの誤差の範囲は131~269点 Bさんの100点 < Aさんの下限の131点 かなりの自信を持ってAさんとBさんのスコアは異なると言える。 Cさん150点:Aさんの131~269点の範囲に150点あり Aさんのスコア > Cさんのスコア とは言えない。

まとめ テストには誤差がある。 その誤差のために点数はかなり変動する。 数点の違いで一喜一憂しない。

Further study 竹内理・水本篤(編) (2012). 『外国語教育研究ハンドブックー研究手法のより良い理解のために』 東京:松柏社 平井明代 (編) (2012). 『教育・心理系研究のためのデータ分析入門―理論と実践から学ぶSPSS活用法』 東京:東京図書

引用文献 Educational Testing Service (ETS). (2004). Mapping TOEFL, TSE, TWE, and TOEIC on the Common European Framework: Executive summary. Princeton, NJ: Author. Retrieved from http://www.besig.org/events/iateflpce2005/ets/CEFsummaryMarch04.pdf Educational Testing Service (ETS). (2007a). TOEFL® iBT score reliability and generalizability. Princeton, NJ: Author. Retrieved from http://www.ets.org/Media/Tests/TOEFL/pdf/TOEFL_iBT_Score_Reliability_Generalizability.pdf

引用文献 (2) Educational Testing Service (ETS). (2007b). TOEIC User Guide--Listening and Reading. Princeton, NJ: Author. Retrieved from http://www.ets.org/Media/Tests/Test_of_English_for_International_Communication/TOEIC_User_Gd.pdf Educational Testing Service (ETS). (2008). TOEIC Examinee handbook--Listening and Reading. Ewing, NJ: Author. Retrieved from http://www.ets.org/Media/Tests/TOEIC/pdf/TOEIC_LR_examinee_handbook.pdf Harvill, L. M. (1991). An NCME instructional module on standard error of measurement [Instructional topics in educational measurement]. Educational Measurement: Issues and Practice, 10(2), 181-189. Retrieved from http://www.ncme.org/pubs/items/16.pdf

2)テストの作成、採点、結果の報告の実践的な情報: Practical considerations in developing language tests ©日本言語テスト学会 小泉利恵