ヒストグラム 考え方と作り方 産業統計論 2004 年
量的変数で区分された相対度数 相対度数 下位集団の大きさを全集団に占める割合として示したもの 質的変数と量的変数 たとえば、男女別集計のような場合は、あるかないかどちらかである。 (どちらでも内を含めてもよい) これに対し、身長や体重、テストの点数、資産、所得などは、本来連 続しているか、または明白な区切りがない。 これを小集団の区切りに使うときには、区間幅が問題になる。 たとえば、20点の中に20パーセントが入っているということと、 10点の中に10パーセントが入っていることとは同じである。れを うまく表すように「密度」の概念で書いたものがヒストグラムである
密度の計算 相対頻度=頻度 / 全集団の大きさ 密度=相対頻度 / 区間幅 ここで、区間幅は厳密には相対幅(=区間幅 / 全区間幅)にした 方がよい。こうすると、全部の面積が1になり、「何かが起こ る確率は1」という定義に一致する。 面倒であればそのままの区間幅でも、できるヒストグラムの形 は同じである。 実際のデータでは多くの場合、大きい方の終点が定義されてい ない。常識を働かせて適当に決める。(身長なら200センチ、 年齢なら100歳等々)
法人企業統計から計算しよう もとの表に すでに相対 頻度は計算 されている が、原数値 から計算し ていこう。 ワークシー トをコピー して必要な ところを残 し、区間幅、 相対頻度、 密度を順に 計算してい く
区間幅は当該区間の下限と上位区間の下限の差から計算 区間最大値は日本一の巨大企業から適当にとる。 NTT 東西、トヨタを念頭に少し 小さくして5万人としておいた。 従って全区間幅は5万人、相対区間幅は当該区間の幅 /5 万となる。 ここでは検算していないが、相対区間幅 × 密度の総和が1になることも確かめられ る。 密度の計算まで
ヒストグラムを書く準備(1) 区間の幅が異なる棒グラ フを各機能はエクセルに はないので、一筆書きの 要領で、 x,y を指定して 散布図を線で結んだグラ フを書けばよい。 下限と密度を対応させた ものをまず準備する。 (なるべく、コピー& ペーストで作る)
ヒストグラムを書く準備(2) 最初の行はまっすぐ上に密度分のば すことを示す。 この前に原点( 0 、 0 )を挿入する。行 の挿入のあと、 x,y ともに 0 を入力。 これで原点から始まって密度分上に 上がるまでが完成 次に高さをそのままに区間の右端ま で平行に右に移す。まずもとの1行 のあとに行を挿入。区間右端は次の 区間の下限と同じなので、コピーか、 =[ セル指定 ] でx座標(従業員規模) を指定し、 y 座標はそのままの高さな ので、当該区間の密度を同じように =[ セル指定 ] で入力すればよい。 右はこうして最初の区間が完成した ところ。太字が挿入部分である。こ れを繰り返す。
ヒストグラムを書く準備( 3 ) もとの行と挿入行の区別に右の 列に * を最初に挿入しておくと便 利である。 右が完成したところ。みてわか るように最後をのぞいて一行ず つ挿入される。 右に移動する操作なので、 x は次 の行、 y はまえの行を指定する。 コピーよりセル指定の方があと でチェックするときなど便利で ある。 できあがりをみると、 x,y が入れ 替わりに変化していくのがわか る。 最後の行は、定義されていない 終点まで右にもってくるのがラ スト2行、下におろすのが最終 行である。
実際に書いてみると 教科書的な例ではこれでよいはずだが、下図のように、密度も規模も差がありすぎて、 見えない。 こうしたときは普通なら対数をとってみると見やすくなるが、見かけだけとはいえ、確 率密度がマイナスというのが気持ち悪いので今回は規模別にしてみよう。
小規模企業 従業員50人以下の企業のヒストグラム。確かにヒストグラムが書け ていることがわかる。 また、この程度の小企業の中でも、従業員10人以下のもっとも零細 な企業が圧倒的に多いことがわかる。
中規模以上 従業員 5000 人以上の巨大企業はきわめて少ないので、これがあるとほとんどわ からなくなるので、 5000 人未満までである。 ここでも規模が大きい企業が極めて急速に少なくなる様子がよくわかる。