第2章 1変量データの記述 統計学基礎 2015年度.

Slides:



Advertisements
Similar presentations
ゲームプログラミング講習 第2章 関数の使い方
Advertisements

サービス管理責任者等研修テキスト 分野別講義    「アセスメントと        支援提供の基本姿勢」 <児童発達支援管理責任者> 平成27年10月1日.
ヒトの思考プロセスの解明を目的とするワーキングメモリの研究
第27講 オームの法則 電気抵抗の役割について知る オームの法則を使えるようにする 抵抗の温度変化を理解する 教科書P.223~226
コラッツ予想の変形について 東邦大学 理学部 情報科 白柳研究室 山中 陽子.
コンパイラ 第3回 字句解析 ― 決定性有限オートマトンの導出 ―
第5章 家計に関する統計 ー 経済統計 ー.
公共財 公共経済論 II no.3 麻生良文.
VTX alignment D2 浅野秀光 2011年12月15日  放射線研ミーティング.
冷却フランシウム原子を用いた 電子の永久電気双極子能率探索のための ルビジウム磁力計の研究
生命情報学 (8) スケールフリーネットワーク
前半戦 「史上最強」風 札上げクイズ.

認知症を理解し 環境の重要性について考える
フッ化ナトリウムによる洗口 2010・9・13 宮崎市郡東諸県郡薬剤師会 学校薬剤師  日高 華代子.
食品の安全性に関わる社会システム:総括 健康弱者 ハイリスク集団 HACCP (食肉処理場・食品工場) 農場でのQAP 一般的衛生管理
規制改革とは? ○規制改革の目的は、経済の活性化と雇用の創出によって、   活力ある経済社会の実現を図ることにあります。
地域保健対策検討会 に関する私見(保健所のあり方)
公共政策大学院 鈴木一人 第8回 専門化する政治 公共政策大学院 鈴木一人
医薬品ネット販売規制について 2012年5月31日 ケンコーコム株式会社.
平成26年8月27日(水) 大阪府 健康医療部 薬務課 医療機器グループ
平成26年度 呼吸器学会からの提案結果 (オレンジ色の部分が承認された提案) 新規提案 既収載の変更 免疫組織化学染色、免疫細胞化学染色
エナジードリンクの危険性 2015年6月23日 経営学部市場戦略学科MR3195稲沢珠依.
自動吸引は 在宅を変えるか 大分協和病院 院長         山本 真.
毎月レポート ビジネスの情報 (2016年7月号).
医療の歴史と将来 医療と医薬品産業 個人的経験 3. 「これからの医療を考える」 (1)医薬品の研究開発 -タクロリムスの歴史-
社会福祉調査論 第4講 2.社会調査の概要 11月2日.
2015年12月28日-2016年3月28日 掲載分.
2010度 民事訴訟法講義 補論 関西大学法学部教授 栗田 隆.
腫瘍学概論 埼玉医科大学国際医療センター 包括的がんセンター 緩和医療科/緩和ケアチーム 奈良林 至
“企業リスクへの考え方に変化を求められています。 トータルなリスクマネジメント・サービスをプロデュースします。“
情報漏えい 経済情報学科 E  西村 諭 E  釣 洋平.
金融班(ミクロ).
第11回 2009年12月16日 今日の資料=A4・4枚+解答用紙 期末試験:2月3日(水)N2教室
【ABL用語集】(あいうえお順) No 用語 解説 12 公正市場価格 13 債権 14 指名債権 15 事業収益資産 16 集合動産 17
基礎理論(3) 情報の非対称性と逆選択 公共政策論II No.3 麻生良文.
浜中 健児 昭和42年3月27日生まれ 東京都在住 株式会社ピー・アール・エフ 代表取締役 (学歴) 高 校:千葉県立東葛飾高校 卒業
COPYRIGHT(C) 2011 KYUSHU UNIVERSITY. ALL RIGHTS RESERVED
Blosxom による CMS 構築と SEO テクニック
記入例 JAWS DAYS 2015 – JOB BOARD 会社名 採用職種 営業職/技術職/その他( ) 仕事内容 待遇 募集数
ネットビジネスの 企業と特性 MR1127 まさ.
Future Technology活用による業務改革
ネットビジネス論(杉浦) 第8回 ネットビジネスと情報技術.
g741001 長谷川 嵩 g740796 迫村 光秋 g741000 西田 健太郎 g741147 小井出 真聡
自然独占 公共経済論 II no.5 麻生良文.
Autonomic Resource Provisioning for Cloud-Based Software
Webショップにおける webデザイン 12/6 08A1022 甲斐 広大.
物理的な位置情報を活用した仮想クラウドの構築
ハイブリッドクラウドを実現させるポイントと SCSKのOSSへの取組み
寺尾 敦 青山学院大学社会情報学部 第12回 情報デザイン(4) 情報の構造化と表現 寺尾 敦 青山学院大学社会情報学部
【1−1.開発計画 – 設計・開発計画】 システム開発計画にはシステム開発を効率的、効果的に実行する根拠(人員と経験、開発手順、開発・導入するシステム・アプリケーション・サービス等)を記述すること。 システム開発の開始から終了までの全体スケジュールを記載すること。 アプリケーション機能配置、ソフトウェア、インフラ構成、ネットワーク構成について概要を示すこと。
6 日本のコーポレート・ガバナンス 2008年度「企業論」 川端 望.
急成長する中国ソフトウェア産業 中国ソフトウェアと情報サービス産業の規模 総売上高は5年間で約5.3倍の成長
米国ユタ州LDS病院胸部心臓外科フェローの経験
公益社団法人日本青年会議所 関東地区埼玉ブロック協議会 JCの情熱(おもい)育成委員会 2011年度第1回全体委員会
次世代大学教育研究会のこれまでの活動 2005年度次世代大学教育研究大会 明治大学駿河台校舎リバティタワー9階1096教室
子どもの本の情報 大阪府内の協力書店の情報 こちらをクリック 大阪府内の公立図書館・図書室の情報
第2回産業調査 小島浩道.
〈起点〉を示す格助詞「を」と「から」の選択について
広東省民弁本科高校日語専業骨幹教師研修会 ①日本語の格助詞の使い分け ②動詞の自他受身の選択について   -日本語教育と中日カルチャーショックの観点から- 名古屋大学 杉村 泰.
■5Ahバッテリー使用報告 事例紹介/東【その1】 ■iphon4S(晴れの昼間/AM8-PM3) ◆約1時間で68%⇒100%
『ワタシが!!』『地域の仲間で!!』 市民が始める自然エネルギー!!
ポイントカードの未来形を形にした「MUJI Passport」
SAP NetWeaver を支える Microsoft テクノロジーの全貌 (Appendix)
ガイダンス(内業) 測量学実習 第1回.
Python超入門 久保 幹雄 東京海洋大学.
熱力学の基礎 丸山 茂夫 東京大学大学院 工学系研究科 機械工学専攻
京都民医連中央病院 CHDF学習推進委員会
資料2-④ ④下水道.
Accessによる SQLの操作 ~実際にテーブルを操作してみよう!~.
Presentation transcript:

第2章 1変量データの記述 統計学基礎 2015年度

目次 Ⅰ 表・グラフによる記述 Ⅱ 特性値による記述 1) 折れ線グラフと棒グラフ 2) 度数分布表とヒストグラム、度数折れ線 Ⅰ 表・グラフによる記述 1) 折れ線グラフと棒グラフ 2) 度数分布表とヒストグラム、度数折れ線 ⅰ) 度数分布表 ⅱ) ヒストグラムと度数折れ線 ⅲ) 幹葉表示 3) 円グラフ、帯グラフ Ⅱ 特性値による記述 1) 代表値(中心的傾向) ⅰ) 算術平均 ⅱ) メディアン(中央値) ⅲ) モード(最頻値) ⅳ) 各代表値の特徴 2) 散布度(散らばりの傾向) ⅰ) 分散 ⅱ) 標準偏差 ⅲ) レンジ ⅳ) 四分位範囲、四分位偏差

表・グラフによる記述は、データの特徴を一目でとらえやすくするためにおこなわれる。 データのまとめ方には 1.表・グラフによる記述(視覚的表現) 2.特性値による記述(数値的表現)  がある。 表・グラフによる記述は、データの特徴を一目でとらえやすくするためにおこなわれる。 特性値による記述は、データの特徴をまとめ、それを用いた分析をおこなうことが中心的な役割である。

Ⅰ 表・グラフによる記述 ともにさまざまなデータの表現に利用される。 Ⅰ 表・グラフによる記述 1) 折れ線グラフと棒グラフ ともにさまざまなデータの表現に利用される。 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)に利用される。棒グラフは時系列データにもクロスセクションデータ(1時点におけるデータを何らかの項目でまとめたもの)にも利用される。 出典:総務省統計局『労働力調査』 出典:日本野球機構オフィシャルサイト

(例) 交通事故死亡者数の推移(中国地方5県) (データ出典: 警察庁「交通事故死者数について」) <時系列データとクロスセクションデータ> (例) 交通事故死亡者数の推移(中国地方5県) (データ出典: 警察庁「交通事故死者数について」) (単位:人) 鳥取県の交通事故死亡者数の年次推移   → 時系列データ 2014年の県別交通事故死亡者数   → クロスセクションデータ

??? クロスセクションデータには、通常棒グラフを用いる。 出典:文部科学省『学校基本調査』 右の図は上の図を折れ線グラフで描きなおしたものであるが、隣り合う県†どうしを線で結んでも、そこに意味はない。 ??? †都道府県コードの順なので、必ずしも隣接してはいない。

<折れ線グラフについての諸注意> 1.折れ線グラフを描く際に用いる時系列データは、原則として等間隔である。 すべて1か月間隔

時系列データは、その発生間隔によって、年次、四半期、月次、週次、日次などさまざまなものがある。 たとえば、月次データの場合、データの間隔はすべて1月ずつであり、ある箇所だけ2か月間隔や3か月間隔になったりしない。 (例外) 株や為替の動きの日次データは、営業日の関係上、土日(株は祝日も)を除く毎日のデータとなる。 3か月間隔 1か月間隔

2.折れ線グラフは、縦軸の目盛のとり方によって、印象が大きく変わる。 出典:Yahoo!ファイナンス

出典:内閣府経済社会総合研究所『国民経済計算』 <変化率> 変化率(%)= 現在の値−基準値 基準値 ×100 という式で定義されるものが、変化率である。 前年の値を基準にしたり、前期(月次データにおける前月など)の値を基準にしたりし、そこからの変化の割合をあらわすものである。 実質GDPの年次データにおいて、前年を基準とした変化率は、成長率といわれる。 出典:内閣府経済社会総合研究所『国民経済計算』 2013年527.4兆円 2014年 526.9兆円 なので、2014年の成長率は 526.9−527.4 527.4 ×100≒−0.1 約 -0.1%となる。

棒グラフは前述のように、クロスセクションデータ対して用いるが、時系列データに用いられることも少なくない。 単位の異なる2つの時系列データを1つのグラフであらわすとき、折れ線グラフと棒グラフを重ね合わせて表現することがよくおこなわれる。

質的変量であれば、それぞれに対応する観測値の数(これを度数という)を数え、棒グラフにあらわすことができる。  2) 度数分布表とヒストグラム、度数折れ線    ⅰ) 度数分布表 質的変量であれば、それぞれに対応する観測値の数(これを度数という)を数え、棒グラフにあらわすことができる。 元のデータにおいてチーム名は質的変量である。 チームごとに数を数える。 度数

では、連続変量もこのようにできるであろうか?  ⇒ 連続変量の場合、とりうる値が多く、それぞれに対応する観測値の数は非常に小さい。(離散変量でもとりうる値が多ければ、このようなことが起こる) 質的変量の時と同じようにおこなうと、度数が1のものばかりになってしまう。 このような棒グラフでは、集団の特徴がよくわからない。

そこで、データをいくつかの階級に分け、その階級に入る度数を表の形でまとめた度数分布表を作成する必要がある。 サッカー女子日本代表 カナダW杯ベンチ入りメンバー † その階級を代表する値を階級値という。階級の上限と下限をたして2で割った値が用いられることが多い。

度数分布表を棒グラフであらわしたものをヒストグラムといい、それぞれの棒は間隔をつめて描かれる。これは階級と階級の間が連続していることによる。 ⅱ) ヒストグラム・度数折れ線 度数分布表を棒グラフであらわしたものをヒストグラムといい、それぞれの棒は間隔をつめて描かれる。これは階級と階級の間が連続していることによる。 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフで結んだものである。

度数分布表の階級の幅は原則として均一にする。ただし、貯蓄現在高のようにすべて均一にすることによって、度数が極めて小さくなる場合には、一部の階級幅を広げることもある。 † 質的変量や離散変量の場合は、とりうる値1つ1つが階級となる。 ただし、年収・貯蓄のようにとり得る値が多い場合には、連続変量と同様に階級を設定する。

度数分布表の階級幅、階級の上限と下限の値の取り方によってヒストグラムは大きく変化する。

ⅲ) 幹葉表示 幹葉表示(みきはひょうじ、かんようひょうじ)とは、簡易的なヒストグラムといえる。 例えば、テストの点数のような2ケタの数値であれば、十の位の数を幹、一の位の数を葉として次ページのように表示する。 この表示によって、集団の分布がわかる。 度数分布表を作成するための予備的作業として用いることも可能である。

右のデータはあるクラス38人分のテストの点数のデータである。 このデータを幹葉表示してみる。 3 9 2 2 6 7 6 43 20 46 47 20 30 63 69 78 88 73 20 58 87 47 75 44 69 34 20 17 63 36 7 27 21 44 66 33 54 34 69 60 23 01 2 3 4 5 6 7 8 9 7 01 2 3 4 5 6 7 8 9 7 7 7 0 0 0 0 1 2 3 7 0 0 0 0 7 1 3 0 3 4 4 6 9 0 4 6 3 4 3 4 4 6 7 7 3 6 7 7 4 4 4 8 8 4 0 0 3 3 6 7 9 9 9 3 9 9 3 6 9 0 3 5 8 8 3 5 7 8 8 7 最終的な幹葉表示 予備的な幹葉表示

<特徴と注意点> このような表示を用いることができるのは、とりうる値が2ケタの数値が中心であり、せいぜい200までであろう。たとえば136という数値の場合、13を幹、6を葉にすればよい。 小数点以下をとる場合は、1ケタまでとなり、整数部分はせいぜい20までであろう。たとえば、7.2という数値の場合、7を幹、2を葉として表示する。 1 2 3 : 9 10 11 12 13 1 2 : 6 7 8 9 10 2 6

例えば、身長を階級幅5cmの度数分布表にまとめるときは、「正」の字を書くなどして、予備的な作業をおこなうことは可能である。 幹葉表示は、度数分布表・ヒストグラムと異なり、階級の幅を2cmとか5cmとかにすることは難しい。10の倍数の階級幅のとき(1番得意なのは1のとき)、便利である。 例えば、身長を階級幅5cmの度数分布表にまとめるときは、「正」の字を書くなどして、予備的な作業をおこなうことは可能である。 以上     未満       165       170 170      175 175      180

円グラフは相対的な割合を表現するときに用いられる。  3) 円グラフ、帯グラフ 円グラフは相対的な割合を表現するときに用いられる。 帯グラフは相対的な割合が、時間とともにどのように変化していくかなどを表現するときに用いられる。 10人の学生の例から作成 出典:総務省統計局『国勢調査』

Ⅱ 特性値による記述 1) 代表値(中心的傾向) ある集団についてのデータ(例えば50人のクラスの身長など)があるとき、集団の特徴をあらわすには、その中心的傾向を示す数値が必要となる。 中心的傾向をあらわす数値として、 算術平均 メディアン(中央値) モード(最頻値) の3種類がある。

算術平均 = データの合計 ÷ データ数 (例) 10人のテストの点数 ⅰ) 算術平均 ⅰ) 算術平均 算術平均 = データの合計 ÷ データ数 𝑥 = 𝑥 1 + 𝑥 2 +⋯+ 𝑥 𝑛 𝑛 = 𝑖=1 𝑛 𝑥 𝑖 𝑛 (例) 10人のテストの点数 𝑥 = 60+90+80+50+70+10+60+80+20+80 10 = 600 10 =60

メディアン → データを大きさの順に並べたときに真ん中にくる値。データ数が偶数のときは真ん中の2つの値を足して2で割る。 ⅱ) メディアン(中央値、中位数) メディアン → データを大きさの順に並べたときに真ん中にくる値。データ数が偶数のときは真ん中の2つの値を足して2で割る。 点数の低い順に並べ替え 真ん中 この2つを足して2で割った (60+70)÷2=65がメディアン

モード - データの中で最も多く出てくる値。10人のテストの点数の例では ⅲ) モード(最頻値) モード - データの中で最も多く出てくる値。10人のテストの点数の例では 80点が3人と最も多い。モードは80となる。 データのとりうる値が多いとき、データの最も多く出てくるものではなく、度数分布表にしたときに、最も度数の多い階級の階級値をモードと考える。

下の表はA,B,C,D,E5人のある月の収入(単位:万円)である。 ⅳ) 各代表値の特徴 下の表はA,B,C,D,E5人のある月の収入(単位:万円)である。 仮想データ この5人の収入の算術平均は 𝑥 = 20+20+22+28+30 5 = 120 5 =24 メディアンは、この場合、小さい順に並んでるので モードは、 よって、算術平均は24、メディアンは22、モードは20となる。

次に、裕福なFさんがこの5人に加わったとする。 仮想データ この6人の収入の算術平均は 𝑥 = 20+20+22+28+30+60 6 = 180 6 =30 メディアンは、真ん中の2人を足して2で割るので、(22+28)÷2=25 モードは、 よって、算術平均は30、メディアンは25、モードは20となる。

次に、より裕福なGさんがこの6人に加わったとする。 仮想データ この7人の収入の算術平均は 𝑥 = 20+20+22+28+30+60+1220 7 = 1400 7 =200 メディアンは、真ん中である。 モードは、 よって、算術平均は200、メディアンは28、モードは20となる。

下の図は貯蓄現在高階級別の世帯分布である。 別の例もみてみよう。 下の図は貯蓄現在高階級別の世帯分布である。 貯蓄現在高が算術平均(1798万円)より低い世帯は全世帯の3分の2におよぶ。ほとんどの世帯はメディアンである1052万円ほどの貯蓄もなく、200万円未満の貯蓄しかない(ここがモードである)。 少数の大金持ちと多数の庶民がいるため、このようなことがおこる。 出典:総務省統計局『家計簿から見たファミリーライフ』 (http://www.stat.go.jp/data/kakei/family/05.htm)

ゆがんだ分布であれば、算術平均とメディアンは一致しない。(モードも一致しない) 左右対称な分布であれば、算術平均とメディアンは一致する。また、分布の山が1つであれば、モードもこれに一致する。

算術平均、メディアン、モードが等しくなる、山が1つの左右対称の分布の中に、つりがね型†をした正規分布といわれるものがある。 <正規分布> 算術平均、メディアン、モードが等しくなる、山が1つの左右対称の分布の中に、つりがね型†をした正規分布といわれるものがある。 この分布は、数学的に非常に取り扱いやすい性質を持っており、身長や知能指数などがこの分布にしたがうといわれている。テストの点数もこのような分布になることが理想といわれている。 † 「つりがね型」は、bell curve の訳であり、日本の寺院にあるつりがねの形ではなく、教会にあるベルの形をしている。

算術平均は少数の極端な値が含まれるとき、その集団の正しい代表値とならないことがある。メディアンの方が少数の極端な値の影響を受けづらい。 しかし、貯蓄現在高のように分布がゆがんでいる場合には、メディアンでも集団の正しい代表値とはいえない場合もある。(この場合はモードが適切か) しかし、算術平均は数学的な扱いやすさから、代表値として非常に良く用いられている。   算術平均をうのみにしないようにしよう!

教員A 教員B 2人の教員はともに平均してチャイムの5分後に教室にくる 2人の教員の特徴を表現するために、平均だけでは不十分。 2) 散布度(散らばりの傾向) 教員A チャイムの5分後に必ず教室にくる。 教員B チャイムと同時に教室にくることもあれば、10分以上遅れることもある。 2人の教員はともに平均してチャイムの5分後に教室にくる 2人の教員の特徴を表現するために、平均だけでは不十分。    →散らばりの尺度の必要性 散らばりの傾向をあらわす尺度として 分散、標準偏差 レンジ(範囲)、四分位範囲、四分位偏差 などがある。

偏差2乗和 - 個々のデータから算術平均を引いたもの(偏差)を2乗して、すべて加えたもの。 ⅰ) 分散 分散=偏差2乗和÷データ数   偏差2乗和 - 個々のデータから算術平均を引いたもの(偏差)を2乗して、すべて加えたもの。 𝑠 2 = 𝑥 1 − 𝑥 2 + 𝑥 2 − 𝑥 2 +⋯+ 𝑥 𝑛 − 𝑥 2 𝑛 = 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 2 𝑛 10人のテストの点数の例では 𝑠 2 = 60−60 2 + 90−60 2 + 80−60 2 + 50−60 2 + 70−60 2 + 10−60 2 + 60−60 2 + 80−60 2 + 20−60 2 + 80−60 2 10 = 6400 10 =640

算術平均60を引く 偏差 2乗を求める 合計を求める 6400 データ数(10)で割る 640 分散

標準偏差 ⇒ 分散の平方根 ⅱ) 標準偏差 𝑠= 640 =25.298… 𝑠= 𝑠 2 = 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 2 𝑛 ⅱ) 標準偏差 標準偏差 ⇒ 分散の平方根 𝑠= 𝑠 2 = 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 2 𝑛 10人のテストの点数の例では 𝑠= 640 =25.298…

※ 2人の教員が教室に来る時間の例 (単位:分) 教員A 𝑥 𝐴 = 4.5+5.3+4.8+5+5.5+4.7+5.2+4.8+4.9+5.3 10 = 50 10 =5 𝑠 𝐴 2 = 4.5−5 2 + 5.3−5 2 + 4.8−5 2 + 5−5 2 + 5.5−5 2 + 4.7−5 2 + 5.2−5 2 + 4.8−5 2 + 4.9−5 2 + 5.3−5 2 10 = −0.5 2 + 0.3 2 + −0.2 2 + 0 2 + 0.5 2 + −0.3 2 + 0.2 2 + −0.2 2 + −0.1 2 + 0.3 2 10 = 0.25+0.09+0.04+0+0.25+0.09+0.04+0.04+0.01+0.09 10 = 0.9 10 =0.09 𝑠 𝐴 = 0.09 =0.3

教員B 𝑥 𝐵 = 0+6+4+5+11+4+8+5+1+6 10 = 50 10 =5 𝑠 𝐵 2 = 0−5 2 + 6−5 2 + 4−5 2 + 5−5 2 + 11−5 2 + 4−5 2 + 8−5 2 + 5−5 2 + 1−5 2 + 6−5 2 10 = −5 2 + 1 2 + −1 2 + 0 2 + 6 2 + −1 2 + 3 2 + 0 2 + −4 2 + 1 2 10 = 25+1+1+0+36+1+9+0+16+1 10 = 90 10 =9 𝑠 𝐵 = 9 =3 𝑠 𝐴 2 < 𝑠 𝐵 2 となり、教員Bの分散の方が大きいことがわかる。 標準偏差についても、 𝑠 𝐴 < 𝑠 𝐵 と教員Bの方が大きくなる。

<標準化と標準正規分布> A君は、あるテストで英語が90点、数学が65点であった。  ⇒ 英語の方が数学より成績が良かった?? 英語の平均点が80点、数学の平均点が50点だった。  ⇒ 英語は平均点より10点高い、数学は平均点より15点高い。数学の方が良い?? 英語と数学のどちらが成績が良かったのだろうか?  ⇒ 標準化の必要性(これを応用したものが偏差値)

平均や分散の異なるものを比較するとき、平均や分散をそろえ、その相対的な位置によって比較しようというのが標準化の考えである。 標準化は次のような変換である。このようにして求められた変量を標準化変量(zスコア) 𝑧 𝑖 = 𝑥 𝑖 − 𝑥 𝑠 英語が平均80点、標準偏差10であり、数学が平均50点、標準偏差20であったとする。 この例で、       英語は 90−80 10 =1       数学は 65−50 20 =0.75 となり英語の方が成績が良いことになる。

zスコアの大小で、平均や分散の異なるものを比較することができる。zスコアは算術平均0、標準偏差1の変量であるが、これを算術平均50、標準偏差10の変量に変換したものが偏差値(Tスコア)である。(算術平均50、標準偏差10は100点満点のテストの点数のように見える) 偏差値はzスコアを次のように変換する。 𝑇 𝑖 =50+10× 𝑧 𝑖 先ほどの例では、       英語は 50+10×1=60       数学は 50+10×0.75=57.5 となる。

ⅲ) レンジ(範囲) レンジ ⇒ データの取りうる範囲 10人のテストの点数の例では ⅳ) 四分位範囲、四分位偏差 ⅲ) レンジ(範囲)  レンジ ⇒ データの取りうる範囲     レンジ = 最大値 - 最小値  10人のテストの点数の例では    90 - 10=80 ⅳ) 四分位範囲、四分位偏差 データを大きさの順(小さい順)に並べて、4分割する点をq1,q2,q3とする。 このとき、四分位範囲、四分位偏差は次式で定義される。 四分位範囲= 𝑞 3 − 𝑞 1 四分位偏差= 𝑞 3 − 𝑞 1 2 q1 q2 q3 最大値 最小値 (第1四分位数) (第2四分位数) (第3四分位数)

(例)9人のテストの点数が次のようになっていたとする。 点数の低い順に並べ替え q1 q2 (メディアン) q3 最小値 最大値 q1⇒最小値とq2(メディアン)の真ん中の値 四分位範囲=80−50=30 四分位偏差= 80−50 2 = 30 2 =15 q3⇒q2(メディアン)と最大値の真ん中の値

<箱ひげ図> 最大値、最小値、中央値、四分位点などをグラフに表したものが箱ひげ図である。下の図は、9人のテストの点数を箱ひげ図に表した1例である。 中央値 最大値 最小値 q1(第1四分位数) q3(第3四分位数)

箱ひげ図に表して比較することも可能である。 異なる2つのグループのデータを、 箱ひげ図に表して比較することも可能である。 ※ 箱ひげ図はこのように縦向きに描かれることもある。