測定の標準誤差： 1点の差には意味があるか Rie Koizumi 小泉　利恵.

Slides:

Advertisements

Similar presentations

1 最終発表模擬授業について 2205/11/17 知識情報工学専攻修士 1 年平野幸児.

Advertisements

第４章何のための評価？道案内 (4) 何のための評価？ ♢なぜ教育心理学を勉強するか？ (0) イントロダクション ♢効果的な授業をするために (1) 記憶のしくみを知る (2) 学習のしくみを知る (3) 「やる気」の心理学 ♢生徒を正しく評価するために ♢生徒の心を理解するために (5)

生物統計学・第 5 回比べる準備をする標準偏差、標準誤差、標準化 2013 年 11 月 7 日生命環境科学域応用生命科学類尾形善之.

の範囲に、 “ 真の値 ” が入っている可能性が約 60% 以上ある事を意味する。（測定回数 n が増せばこの可能性は増す。）平均値偶然誤差によるばらつき v i は測定値と平均値の差で残差、また、 σ は、標準誤差（ Standard Error, SE ) もしくは、平均値の標準偏差、平均値の平均二乗.

計量的手法入門人材開発コース・ワークショップ (IV) 2000 年 6 月 29 日、 7 月 6 ・ 13 日奥西好夫

1 統計学第２週 10/01 （月）担当：鈴木智也. 2 前回のポイント「記述統計」と「推測統計」。データ自体の規則性を記述するのが「記述統計」、データを生み出した背景を推測するのが「推測統計」である。推測統計は記述統計に基づくので、まずは記述統計から学ぶ。以下、データの観測値をＸ.

Windows 環境から SAS を使う長野祐一郎 1. データのダウンロード 2. データの加工 3. プログラムの作成 4.TeraTerm によるプログラムの実行 5. 処理結果の確認 6.SAS のデータ処理を概観今回の授業では、 Windows 環境で作成されたデータを.

生体情報論演習 - 統計法の実践第 1 回京都大学情報学研究科杉山麿人.

1 項目反応理論によるテストの作成東京工業大学大学院社会理工学研究科前川眞一.

統計学入門（１）第 10 回基本統計量：まとめ. 統計学第 8 回 2 前回の練習問題の解答 (1) から (4) に対応するヒストグラムはそれぞれどれか。

「CBT 技法研究会」(柳本武美先生の研究会) 「CBT 技法研究会」コメント林篤裕 (大学入試センター研究開発部)

研修のめあて授業記録、授業評価等に役立てるためのICT活用について理解し、ディジタルカメラ又はビデオカメラのデータ整理の方法について研修します。福岡県教育センター　教員のICT授業活用力向上研修システム.

SPSS操作入門よい卒業研究をめざして橋本明浩.

プログラマのレベルアップ.

外国語教育メディア学会(LET)関東支部130 回(2013 年度)研究大会

CFAレベル１準備コースの特徴 CFAレベル１を受験する際に、会計、ファイナンス、統計などの基礎知識があることを望ましいといわれています。CFAレベル１受験勉強と同時にこれらの科目を独学での勉強することはできますが、本コースで効率的に勉強することができます。本コースでは、会計の基礎及びレベル１の会計問題を解く際の基礎知識を１日で学習します。また、本コースでは、Input、Comprehension、

レポートの作成効果的な発表の仕方.

周育佳東京外国語大学地域文化研究科博士後期課程

仮説の立て方、ＲＱの絞り方論文を考える根本的思考担当・柴田真吾

第１回レポートの課題６月１９日出題今回の課題は１問のみ第２回レポートと併せて本科目の単位を認定第２回は７月に出題予定

Tour （ツアー）.

第１回担当：　西山統計学.

Toshihiko SHIOTSU 塩津敏彦

オンライン英単語・リスニング学習ソフト佐々木研究室 N02k1114 北隅　麻実.

Features （概要）.

疫学概論母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.

食事療法の摂取エネルギーを、いわゆる「隠れ肥満」と「太りやすい体質」を考慮して求める方法

応用言語学研究論A：SPSS宿題 Spring 2016 R.Nishida, Ph.D..

流れ（3時間分）１ちらばりは必要か？２分散・標準偏差の意味３計算演習（例題と問題）４実験１（きれいな山型の性質を知ろう）

IT入門B2 (木曜日１限) 第一回講義概要 2004年月9日30日.

統計学勉強会対応のあるｔ検定理論生態学研究室３年　新藤　茜.

フットサルシューズの最適化～コンジョイント分析を用いて～

13回目複合情報検索 13-1 課題の概要 13-2 EBSCOhost の使用方法 13-3 ProQuestの使用方法

統計学第３回　10/11 担当：鈴木智也.

14回. まとめ情報のまとめかた DBの利用情報検索の留意点情報検索と情報収集 68 基礎知識の必要性 68

変数のスコープの設計判断能力を育成するプログラミング教育

成績は、小テストと期末のレポートによって評価（1/3以上欠席の場合は不可とします）

データのバラツキの測度レンジと四分位偏差分散と標準偏差変動係数.

技術者英語対象：電気電子システム工学科 2年生時限：前期水曜日 Ⅳ限担当：武藤真三、本間聡

第３章補足：パラメータが極小値に収束する例

春の統計学･計量経済学勉強会第1回：2017年2月21日(火) 市野泰和

情報処理１～第１２回～野中良哲.

Placement Manual Speaking

練習問題アイテムバンクの開発研究～再生形式～

Basic Calculus The Greeks Measure the Universe [4]

第４日目第３時限の学習目標検査の信頼性（続き）を学ぶ。妥当性について学ぶ。（１）構成概念妥当性とは？（２）内容妥当性とは？

スピーキングタスクの繰り返しの効果 ―タスクの実施間隔の影響―

高校における英語の授業は英語でがベストか

新入生の事前知識の違いによるコンピュータリテラシ学習効果の分析

卒論の書き方：参考文献について 2017年9月27日小尻智子.

市場調査の手順問題の設定調査方法の決定データ収集方法の決定データ収集の実行データ分析と解釈報告書の作成標本デザイン、データ収集

Placement Manual Essential

Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水洋志.

統計学の入門講義における達成動機，自己効力感，およびテスト成績の関連

レクチャー (2) 図書と雑誌の違いと書誌事項･参考文献リストの見方と書き方

就策活対 2,500 Webによる「就職筆記試験対策システム（E TestingⅡ）」円学生のみなさんへ

確率と統計2009 第12日目(A).

データの型量的データ質的データ数字で表現されるデータ身長、年収、得点カテゴリで表現されるデータ性別、職種、学歴

「アルゴリズムとプログラム」結果を統計的に正しく判断三学期第7回袖高の生徒ってどうよ調査(3)

クロス表とχ2検定.

数理統計学西山.

演習1に関する講評～業務仕様を書く難しさ～

学習成果ごとの評価方法授業中の評価ペーパーテスト言語情報運動技能知的技能認知的方略態度・一問一答の発問

　期末試験と成績評価について　 2012年度「企業論」川端　望.

小標本に関する平均の推定と検定標本が小さい場合，標本分散から母分散を推定するときの不確実さを加味したｔ分布を用いて，推定や検定を行う

第５章性格とは何か？.

臨床統計入門（１）箕面市立病院小児科　　山本威久平成２３年１０月１１日.

Examination Study Plan Pages ★ REVIEW PLAN DO

回帰分析入門経済データ解析　2011年度.

Examination Study Plan Pages ★ REVIEW PLAN DO

Presentation transcript:

測定の標準誤差： 1点の差には意味があるか Rie Koizumi 小泉　利恵

テストには誤差がつきものテストは1点の差が意味を持つほど精密なものではない。テストには誤差がある。誤差の理由テストに含まれる問題項目の内容や形式テスト全体の内容や形式採点方法

誤差が起きる例 (1) テスト項目の内容アニメの内容の読解の問題項目アニメ好きの生徒：アニメの問題項目だけは正解できるかも。英語に関係ない知識のために、本来の英語力よりは高い点数を取る。英語力を測るテストの得点の中に、誤差が含まれる。対策：一部の生徒だけが知っているトピックは避けて出題する。

誤差が起きる例 (2) テスト項目の形式多肢選択式で正解を選ぶのが得意な生徒教師の出題パターンを見抜くのが得意な生徒英語力以外を使ってより高い得点を取得対策：テスト内の形式をすべて同じにしない。多くの形式を取り入れる。出題パターンが同じにならないように注意。何回か分のテストを比較してパターンがないことを確認する。

誤差が起きる例 (3) テスト項目の形式英文の並び替え問題の形式に慣れていない生徒正解となる英文が分かっても、指示が分からず、不正解対策：新しいテスト形式や指示は、テスト前に授業で扱う。解答例を付けておく。テスト全体の形式英語テスト問題を両面に刷った紙で提示表だけ解答して止めてしまう生徒本来の英語力よりは低い点数をその生徒は取る。テストの誤差対策：表面の最後に「続きは裏面へ」と書く。口頭での指示に「両面ありますので、気を付けてください」と言う。

誤差が起きる例 (4) 採点時に入る誤差乱暴な字でのライティング評価基準に、「字の美しさ」は入れていなかったが、採点者が点数を下げた。対策：評価基準を明確にして、「字の美しさ」では点を上下させないことを注意事項に挙げておく。採点して疲労し、採点がぶれてくる。対策：ある一定数の採点を行ったら休憩を取る。

誤差と信頼性誤差と信頼性は、表と裏の関係テストで誤差が大きければ信頼性が低くなる。信頼性が高いテストは誤差が小さくなる。誤差が起きる状況とその解決法などについてさらに勉強してみたい人へ Hughes, A. (2003). 『英語のテストはこう作る』 (靜哲人訳) 東京：研究社

テストには誤差がある誤差は減らせるが、なくすことはできない。誤差が入らないように注意をして、丁寧にテストを作成、実施、採点しても、どのテストにも少しは入ってくる。テスト得点の少しの差は誤差の範囲という視点を持とう。

測定の標準誤差 (Harvill, 1991) standard error of measurement: SEM 1人のテスト得点が誤差でどの程度変動するか SEM = 標準偏差×√(1-信頼性) 式1 68%の確率での誤差の大きさ、68%の確率でのスコアのばらつき 95%の確率での誤差の大きさ 1.96×SEM 式2

TOEICの測定の標準誤差リスニング・リーディングスコアの範囲：5～495点測定の標準誤差は、約25点 (ETS, 2007b, 2008) リスニングスコアが200点の場合：175～225点の変動はありえる 95%の確率でのスコアのばらつき　±49 (= ±1.96×25) 95%の確率で、リスニングスコアは49点上下リスニングスコアが200点の場合：151～249点の変動はあり

測定の標準誤差の簡単な計算方法普通は、測定の標準誤差を計算するには、テストの「信頼性」と「標準偏差」を知る必要がある。大雑把な値でよい場合の式 (Harvill, 1991) テストの難易度が普通の場合：0.45×√(項目数) 式3 テストが易しい場合：　　0.30*√(項目数) 　式4 例：難易度が普通の50問のテストでは、約3点　　　　　　　　　　　　　　　　　　　　　　　　　　　(= 0.45×√50) 難易度が普通の100問のテストでは、4.5点　　　　　　　　　　　　　　　　　　　　　　　　　　　(= 0.45×√100)

TOEFLの測定の標準誤差 (1) TOEFL PBT (paper-based test; もしくはITP) スコアの範囲：310～677点測定の標準誤差：　13点 (ETS, 2004) 68%の確率で13点は上下 95%の確率で25点は上下 480点のとき、実際のスコアは455～505点（95%の確率）

TOEFLの測定の標準誤差 (2) TOEFL iBT (internet-based test; ETS, 2007a) 測定の標準誤差（スコアの範囲）リーディング 2.78 （0～20点）リスニング 2.40 （0～20点）スピーキング 1.70 （0～20点）ライティング 2.65 （0～20点）トータル 4.88 （0～120点）

2つの得点を比べる場合同じテストでの異なる人の得点を比較例： TOEICテストを4月の同じ回に受けた2人の生徒の得点を比較する場合同じ人の異なるテストでの得点を比較例：TOEICテストを4月と12月に受けた生徒の2つの得点を比べ、伸びたかを考える場合 2つの方法あり。

2得点比較：第1の方法測定の標準誤差の範囲を2つ出す。 2つの範囲に重なりがあるかを見る。例：Aさん200点、Bさん100点 TOEICの測定の標準誤差は25点。95％の確率の誤差範囲は±49点 Aさんのスコア範囲：151～249点 Bさんのスコア範囲：51～149点重なりなし。2人のスコアは違っていると自信を持って言える。 Cさん150点：スコア範囲は101～199点 Aさんのスコア > Cさんのスコア　とは言えない。

2得点比較：第2の方法 (1) 差の標準誤差(standard error of difference) を計算ある得点の誤差の範囲を出す。その範囲外に別の得点があれば、2つの得点は異なると判断。誤差の範囲内に別の得点が入れば、2つの得点は異なるとは言えないと判断する。 SEdiff = √2×標準偏差×√(1-信頼性) 式5 　　 = √2×SEM 68%の確率で2得点を比較するときの誤差の範囲 95%の確率での範囲　1.96×SEdiff 式6

2得点比較：第2の方法 (2) TOEICリスニングスコアのSEM：25点差の標準誤差は、約35点 (= ±√2×25) 95%の確率で2得点を比較する際の誤差の大きさ　±69 (= ±1.96×35) Aさん200点、Bさん100点 Aさんのスコアの誤差の範囲は131～269点 Bさんの100点 < Aさんの下限の131点かなりの自信を持ってAさんとBさんのスコアは異なると言える。 Cさん150点：Aさんの131～269点の範囲に150点あり Aさんのスコア > Cさんのスコア　とは言えない。

まとめテストには誤差がある。その誤差のために点数はかなり変動する。数点の違いで一喜一憂しない。

Further study 竹内理・水本篤（編） (2012). 『外国語教育研究ハンドブックー研究手法のより良い理解のために』　東京：松柏社平井明代 (編) (2012). 『教育・心理系研究のためのデータ分析入門―理論と実践から学ぶSPSS活用法』東京：東京図書

引用文献 Educational Testing Service (ETS). (2004). Mapping TOEFL, TSE, TWE, and TOEIC on the Common European Framework: Executive summary. Princeton, NJ: Author. Retrieved from http://www.besig.org/events/iateflpce2005/ets/CEFsummaryMarch04.pdf Educational Testing Service (ETS). (2007a). TOEFL® iBT score reliability and generalizability. Princeton, NJ: Author. Retrieved from http://www.ets.org/Media/Tests/TOEFL/pdf/TOEFL_iBT_Score_Reliability_Generalizability.pdf

引用文献 (2) Educational Testing Service (ETS). (2007b). TOEIC User Guide--Listening and Reading. Princeton, NJ: Author. Retrieved from http://www.ets.org/Media/Tests/Test_of_English_for_International_Communication/TOEIC_User_Gd.pdf Educational Testing Service (ETS). (2008). TOEIC Examinee handbook--Listening and Reading. Ewing, NJ: Author. Retrieved from http://www.ets.org/Media/Tests/TOEIC/pdf/TOEIC_LR_examinee_handbook.pdf Harvill, L. M. (1991). An NCME instructional module on standard error of measurement [Instructional topics in educational measurement]. Educational Measurement: Issues and Practice, 10(2), 181-189. Retrieved from http://www.ncme.org/pubs/items/16.pdf

２）テストの作成、採点、結果の報告の実践的な情報： Practical considerations in developing language tests ©日本言語テスト学会小泉利恵