調査結果の集計 集計と尺度 調査企画→調査票の作成・サンプリング→フィールドワーク→集計→分析→調査票の作成 が市場調査の大まかなプロセスである。 フィールドワークで得られた生のデータを統計として集約する作業が集計である。
集計とは 計画段階において解明すべき課題が細分化 調査票によって調査課題はより細かく分けられる。 その細かく分けられたデータを統合するのが集計 再統合により集団の特性を明らかにすることが集計の役割 より詳しく述べると計画段階において解明すべき課題が細分化され、調査票によって調査課題は個々の質問という形でより細かく分けられる。 その細かく分けられたデータを統合するのが集計となる。 この再統合により集団の特性を明らかにすることが集計の役割である。
集計の基本 集計の基本は分類と積算 標本数・分類項目が多くなると手集計では困難 昔は集計機が利用されていたが、現在はコンピュータで集計される 簡単な集計やFAでは依然として手作業 集計の基本は分類と積算である。 標本数が多くなり、また分類項目が多くなると手集計では困難になる。 年代別×学歴×子供の学歴などを集計するのは理論的には手でも集計できるが、現実的ではない。昔は集計機が利用されたが今はコンピュータによる。 しかし、簡単な集計やフリーアンサーでは依然として手作業による集計が主流である。
集計作業のプロセス 集計計画 素データの審査 集計対象数の確認 作業規模の確定 集計 統計表の作成 集計計画 統計表の形式・形の決定 どのような情報が欲しいか?欲しい情報を表現できるような統計表をイメージする。 素データの審査 記入漏れの確認 回答欄に適切な回答がなされているかをチェック。記入漏れや間違いをチェックする。SAはSAとして回答されているか?分岐設問を正確に理解した回答がなされているか?などを確認 集計対象数の確認 有効票数の確認 送付したアンケート票の数と回収したアンケート票の数と、集計に使うアンケートの数を確認する。回収率・有効回答率を算出する。 作業規模の確定 作業の段取り、時間、費用の確定 有効回答数と集計票のデザインによりどの程度集計に時間と費用がかかるかを算出する。 集計 分類→カウント→計算のサイクルを集計項目ごとに行う。 集計に際して各票ごとに読み上げ、数え始めるのは何度やり直しても数字は合わない。集計は間違う前提で作業をデザインする必要がある。基本は分類とカウントを別のステップとして採用すべきである。 統計表の作成 統計表にまとめる 集計結果をイメージした統計表にまとめる。 集計 統計表の作成
統計表の形態 GT表 クロス集計表 調査アイテムに関する全ての回答者 ブレイクダウン項目ごとの回答者 原因と結果の分析のために利用 ブレイクダウン項目には、年齢・職業・性別および調査項目に大きく影響を与えそうな項目が採用される GT(グランド・トータル) 全体における各項目の値を集計したもの。調査対象となったサンプル全体の傾向を示す。 クロス集計表 性別・職業別・地域別などに各調査項目を集計しなおした値。この項目のことをブレークダウン項目と呼ぶ。クロス集計表により、セグメントごとの傾向がわかり、新たなセグメントの切り口、またはセグメントごとへの対応手段の示唆を得ることが可能となる。
各部の名称 表頭 カテゴリー サンプル数 出席 欠席 GT 表側 ブレイクダウン項目 全体 400人 135人 265人 性別 男 250人 75人 175人 女 150人 60人 90人 GT 表側 ブレイクダウン項目 GT表とクロス集計表は別にあるのではなくクロス集計表の一部がGT表である場合が多い。 表頭と表側 集計表の最上段を表頭と呼び、表頭にはカテゴリーが列挙される。集計表の左端を表側と呼び、表側にはブレークダウン項目が並ぶのが一般的である。 ブレイクダウン項目 因果関係や重要なセグメント化の基準を提供するため、ブレイクダウン項目は十分に考慮しなくてはならない。一般には年齢・職業・年収・性別・子供の数などが採用されるが調査アイテムに大きく影響を与えそうな属性を使う場合もある。
カテゴリー数 集団の特性をみるときに見やすい数 調査を行いやすい数 大体10個前後が望ましい 集計表の横の大きさを決める側面をもつ。 調査アイテムにおける集団の特性を表すものである。従って多ければよいとは限らない。特性を良く表せるような数を採用すべきである。 カテゴリー数は調査票のカテゴリー数を上回ることは出来ない。従って、あまりにも多くの項目をイメージすると調査が困難になる。 大体10個を目安にすると良いといわれている。
カテゴリーの作り方 数を多くしすぎない 境界に注意する カテゴリーの間隔 正規分布になるようにする 同一次元を保つ 全てを網羅する カテゴリーの重複を避ける 数 境界 以上・未満は境界部分が明らかであるが、○から○では境界部分がどちらに有るのか不明。 間隔 カテゴリーの幅を同じにするか、カテゴリーの幅を変えるか? 正規分布 正規分布とは左右対称な単峰の分布。全てのものはサンプリングすると正規分布に従うことが分かっている。数や間隔を考慮し集計結果が正規分布になるように心がける。 SD法の場合は左右の言葉が対になり一つの次元を構成している必要があり、その中をいくつかのカテゴリーで分割する。 MAの場合はカテゴリーが全てを含んでいることを確認する手段にもなる。また、カテゴリーが意味を持っているかどうかを判断する材料になる。
個々の集計表の想定 表側に並ぶ項目によりセグメントが一目でわかる 各質問をどの項目でブレイクダウンするか? 行方向の比率をとるか、列方向の比率をとるか 表頭・表側の項目は報告者が決定 表側にどの項目が並ぶかにより、セグメントが一目で分かる。調査の視点が明確になる。 比率のとり方 行方向で比率を取る場合各カテゴリー内におけるブレイクダウン項目の構成比が分かる。 列方向で比率を取れば、各ブレイクダウン項目における各カテゴリーの構成比がわかる。 実際には何を表頭に書き何を表側に書くかは報告者の自由であり、何を表現したいのか?報告書の大きさにより影響を受ける。
パーセントのとり方 出席 欠席 合計 男 30% 70% 100% 女 40% 60% 出席 欠席 男 56% 66% 女 44% 34% 集計方法により得られる情報が異なる。
データチェック マルチ・チェック オフ・コード・チェック 論理チェック SAの弧設問に複数回答しているか? カテゴリー数を超えて回答されているか? 論理チェック 分岐設問後の回答が正しいか?
名義尺度 順位尺度 間隔尺度 比例尺度 尺度の種類 名義尺度 集計するための単なる文字としての意味しかもっていない。数字であっても良いし、文字であっても本質的に意味は変わらない。集計できるのは構成比のみ。命名・分類・符号化を目的としているだけ。各数字間には比較するだけの情報をもっていない。 計算はできない 値の大小の意味を持たない たとえば、 携帯電話の番号 1は男性、2は女性 順位尺度 提示されたものに順序をつけたもの。平均的な順序や構成比が集計できるだけである。良い・普通・悪いなど。 順位 1位と2位の差と2位と3位の差は等しくない 連続する保証もない 値の大小の意味はある 間隔尺度 等間隔な目盛り付けされたもの。テストの点数など。変数間における計算は和と差は計算可能。一次変換はできる。 差を求めることはできる それ以外の計算はできない 温度などが代表例であるといわれる 10℃と20℃は2倍になったわけではない その差が10℃あるだけである 10℃と20℃を足すと30℃になるわけではない 当然掛け算・割り算を行うべきものでもない 比例尺度 加減乗除を元にした統計量を算出可能。統計処理においては極めて好ましいデータであるが、市場調査ではほとんど表れない。 明確な原点として「0」を持つ尺度 長さや重さなどが代表例であるといわれる 10cmと20cmを足すと30cm 10cmと20cmはその差は10cm 10cmを2倍にすると20cm 20cmを10cmで割ることにより比率をともめることが可能
分析 情報の集約
集計と分析 多数の変数間の関係を集計表で表現すると煩雑 どの程度から「差」があるのかの基準があいまい 変数間の関係を統計技法を用いて表現
相関表 体重1 体重2 体重3 体重4 合計 身長1 20 9 29 身長2 16 2 56 身長3 17 38 64 身長4 6 3 36 55 53 14 158 度数分布表を2つまとめたもの
相関図 相関表を図示したもの 相関表や相関図を見るとデータの特性、つまり集団の特性、平均がどにあり、どの程度ばらついているかがおおよそ見当がつく。 一定の傾向があるか?身長と体重を例にとると、身長が高くなると体重も重くなる傾向があることが見て取れる。 どちらかが原因で有りどちらかが結果であるかはわからないが、何らかの関係はあることがわかる。伸張が増えれば体重も増加するといった単純な共変関係を相関という。
有名な統計量 平均 分散 共分散 相関係数
統計学の活用 変数間の関係を数字として表現 因果関係は統計学では分からない 因果関係のためには論理的妥当性が必要 操作可能な変数を原因とするとより好ましい 体重と身長の例から分かるとおり、関係を数字として表すことはできる。しかし、因果関係はわからない。 変数間の関係を数字として表現することは可能 一方で、因果関係は統計学では分からない 因果関係を明らかにするためには論理的妥当性が必要 さらに、操作可能な変数を原因とするとより好ましい
関係があるといえるには 論理的な妥当性(ロジック) 客観的な証拠(エビデンス) 関係の有無を表現する方法 統計的な検定を行った回帰を回帰分析という。一般にはt検定と呼ばれ変数が有意かどうかを検定している。 論理的な妥当性 ロジック 客観的な証拠 エビデンス
分析とは データを集約 客観的な判断基準によりデータの関係を表現 分析とはデータを集約し、客観的な判断基準によりデータの関係を表現するもの