カテゴリ設定の影響を考慮した 初期マイクロデータ推定手法の比較

Slides:



Advertisements
Similar presentations
5 章 標本と統計量の分布 湯浅 直弘. 5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合  ・有限な場合:有限母集合 → 1つの箱に入っているねじ.  ・無限な場合:無限母集合.
Advertisements

計量的手法入門 人材開発コース・ワークショップ (IV) 2000 年 6 月 29 日、 7 月 6 ・ 13 日 奥西 好夫
土木計画学 第3回:10月19日 調査データの統計処理と分析2 担当:榊原 弘之. 標本調査において,母集団の平均や分散などを直接知ることは できない. 母集団の平均値(母平均) 母集団の分散(母分散) 母集団中のある値の比率(母比率) p Sample 標本平均 標本分散(不偏分散) 標本中の比率.
衛星画像とセンサスデータを用 いたQOLのマッピング 筑波大学生命環境系 松下文経 2011年10月13日.
放射線の計算や測定における統計誤 差 「平均の誤差」とその応用( 1H) 2 項分布、ポアソン分布、ガウス分布 ( 1H ) 最小二乗法( 1H )
三木 光範 (同志社大学工学部) 廣安 知之 (同志社大学工学部) 花田 良子 (同志社大学工学部学部 生) 水田 伯典 (同志社大学大学院) ジョブショップスケジューリング問 題への 分散遺伝的アルゴリズムの適用 Distributed Genetic Algorithm for Job-shop.
土地利用マイクロシミュレーションのための 年代の違いを考慮した世帯別転居行動分析 関西大学大学院理工学研究科 社会資本計画研究室 金崎 智也.
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
世帯マイクロデータの適合度評価における 重みの決定手法
点対応の外れ値除去の最適化によるカメラの動的校正手法の精度向上
地理情報システム論 第14回 GISによる処理技法と応用(3) ラスタ形式による空間的演算 ~土地利用の予測
電力配線図(A系統:長さmm) 消費電力:1100W TH-LC 2階 220 ⑥タップ (電力源タップ)
【セッション予約日時、価格等の新規登録】
都市マイクロシミュレーションに基づく 課題の抽出と政策立案
社会調査とは何か(3) 調査対象者の選定方法
プログラム演習 ‐行動モデル夏の学校2007‐ 2007/09/20 愛媛大学大学院M1 牛尾龍太郎.
Bassモデルにおける 最尤法を用いたパラメータ推定
神奈川大学大学院工学研究科 電気電子情報工学専攻
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
時空間データからのオブジェクトベース知識発見
『大阪府人口ビジョン(案)』の概要 ■はじめに ■人口の将来見通し(シミュレーション) ■大阪府の人口の潮流 c ■基本的な視点
第6章 数量化I類.
胃ろうまたは腸ろうによる経管栄養.
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
確率・統計輪講資料 6-5 適合度と独立性の検定 6-6 最小2乗法と相関係数の推定・検定 M1 西澤.
マイクロシミュレーションにおける 可変属性セル問題と解法
リモートセンシングによる緑被面積率を用いた 行政区画別環境評価
未定稿 資料2-4 主な「政策課題」の整理(全体像) 世界をリードする大阪産業 水とみどり豊かな新エネルギー都市大阪 ミュージアム都市大阪
ベイズ基準によるHSMM音声合成の評価 ◎橋本佳,南角吉彦,徳田恵一 (名工大).
マッチング理論を用いた 土地利用マイクロシミュレーション モデルの開発
小標本検査データを元にした 疲労破損率のベイズ推定
愛媛大学C班 M2 前川朝尚 M1 谷本善行 B4 薬師神司
市区町村別標準化該当比マップ (2013年度版) 岡山県保険者協議会 岡山県国民健康保険団体連合会.
ベイジアンネット混合モデルによる 強化学習エージェントの方策改善
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
音高による音色変化に着目した音源同定に関する研究
初期マイクロデータの推定手法に関する エージェントベースとセルベースの比較
コードクローン検出ツールを用いた ソースコード分析システムの試作と プログラミング演習への適用
MSET使用方法  一時中断したい場合には、マウスの右クリックをしてください(小ウインドウが開き一時停止します)。続行する場合には、開いた小ウインドウ以外の適当な場所を右クリックしてください。
相互調整によるエージェントのクラスタ化: コンピュータシミュレーションによる検討
疫学概論 直接法と間接法の相違 Lesson 5. 率の調整 §D. 直接法と間接法の相違 S.Harano,MD,PhD,MPH.
ブレッド・ボードを用いた回路の作成 気温データ・ロガー編.
背景 課題 目的 手法 作業 期待 成果 有限体積法による汎用CFDにおける 流体構造連成解析ソルバーの計算効率の検証
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
コードクローン分類の詳細化に基づく 集約パターンの提案と評価
ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部 佐々木稔
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
「データ学習アルゴリズム」 第3章 複雑な学習モデル 報告者 佐々木 稔 2003年6月25日 3.1 関数近似モデル
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
第3章 線形回帰モデル 修士1年 山田 孝太郎.
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
都市・港湾経済学(総) 国民経済計算論(商)
情報経済システム論:第13回 担当教員 黒田敏史 2019/5/7 情報経済システム論.
東京海洋大学 地域計画研究室 三島佑介 高下寛之
クロス表とχ2検定.
クロスバリデーションを用いた ベイズ基準によるHMM音声合成
今から2200年ほど前に,古代ギリシアのアルキメデスは,円周率が3と71分の10より大きく,3と7分の1より小さいことを発見しました。・・・
回帰分析(Regression Analysis)
HMM音声合成における 変分ベイズ法に基づく線形回帰
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
富士見町の新規就農者支援 パッケージ制度のご紹介
ベイズ音声合成における 事前分布とモデル構造の話者間共有
持続可能な開発目標(SDGs:Sustainable Development Goals)について
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
サンプリングと確率理論.
看護学生への喫煙教育による認識の変化からみた禁煙支援
ブレッド・ボードを用いた回路の作成 気温データ・ロガー編.
実都市を対象とした初期マイクロデータの 推定手法の適用と検証
Presentation transcript:

カテゴリ設定の影響を考慮した 初期マイクロデータ推定手法の比較        ドーコン 正員   ○杉木 直      東京都市大学 フェロー  宮本 和明      東京都市大学 正員    大谷 紀子  Kasetsart University 正員    Varameth VICHIENSAN 1

背景 ・土地利用-交通モデル分野におけるマイクロ シミュレーションへの関心の高まりと研究事例 および実際の都市への適用事例の蓄積の進展  シミュレーションへの関心の高まりと研究事例  および実際の都市への適用事例の蓄積の進展 ・土地利用マイクロシミュレーションにおける  シミュレーション初期年次の「マイクロデータ」  の必要性 ・個人、個別世帯に関するデータの入手は困難  →入手可能データによる「人口データ推計」を実施   :集計データ(国勢調査等)+サンプル調査

目的 ◆初期年次のマイクロデータ作成に関する セルベースとエージェントベースによる手法の比較  セルベースとエージェントベースによる手法の比較 →モデル適用の場面や目的を踏まえた推定手法選択のためのガイドライン作成にむけて 【先行研究】 質的な視点における比較   ・データ特性、推定手法の規範、複雑性、データ入手可能性等 量的な視点における比較 →単一カテゴリ設定のみ   ・セルベースデータの比較による推定の頑健性の評価   ・エージェントベースデータの適合度評価によるマイクロ世帯推計への有効性の検証    ◆複数のカテゴリ設定を対象とした両手法の適合度検証実験   ・カテゴリ集約が初期分布推計に与える影響の検証   ・手法間の優位性の比較   

カテゴリ設定を考慮したマイクロデータ推定手法の比較 ◆比較検討手法  セルベース(集計データ)およびエージェントベース(非集計データ)  の適合度評価 ◆推定手法   セルベース : IPF法   エージェントベース : モンテカルロシミュレーション(宮本ら2009) ◆検討対象 : 所属する世帯の属性を含む人口データ ◆属性 : 個人年齢+所属する世帯の人数 ◆カテゴリ設定:2種類設定   ・基本カテゴリ : 個人年齢18カテゴリ×世帯人数7カテゴリ   ・集約カテゴリ : 個人年齢6カテゴリ×世帯人数3カテゴリ

マイクロデータ推定手法の比較 ◆検討フロー 観測データ サンプルデータ エージェントベース セルベース (非集計データ) (集計データ) の適合度評価 エージェントベース (非集計データ) の適合度評価 周辺分布データ モンテカルロ シミュレーション IPF法 集計人口データ 非集計人口データ 分解 集計

セルベースの推計手法 ・周辺分布を制約とした調整計算により、各セルの属性別人口を推計 ◆IPF法によるセルベースの人口推計 センサスデータ サンプルデータセット 周辺分布 属性2:カテゴリー 属性1:カテゴリー センサスデータ 周辺分布 ・周辺分布を制約とした調整計算により、各セルの属性別人口を推計

エージェントベースの推計手法 ・モンテカルロサンプリングを用いた世帯構成員の個人ベースの推定 ◆エージェントベースの人口・世帯推定システム - 宮本ら (2009) →手法としては総合的な属性(年齢、性別、続柄、住宅タイプ、居住地、自動車保有台数、  所得)からなる初期マイクロ世帯データの推定方法を開発済み     ・モンテカルロサンプリングを用いた世帯構成員の個人ベースの推定

利用データ ◆第4回道央都市圏パーソントリップ調査データ を利用 世帯構成員の詳細情報を含む 19,394世帯のマイクロデータ  を利用 世帯構成員の詳細情報を含む 19,394世帯のマイクロデータ 10,000世帯データを母集団として ランダム抽出(人口:24,115人) 1,000世帯データを サンプルデータ として抽出 年齢別人口、 世帯人数別人口 を集計 IPF法、モンテカルロシミュレーションのサンプルデータとして 人口に関する周辺制約データとして

マイクロデータ推定手法の量的比較 ◆カテゴリ設定 ・基本カテゴリ : 個人年齢18カテゴリ ×世帯人数7カテゴリ ・集約カテゴリ  : 個人年齢18カテゴリ     ×世帯人数7カテゴリ ・集約カテゴリ  : 個人年齢6カテゴリ     ×世帯人数3カテゴリ

セルベースの適合度評価 ◆観測データ集合と推定データ集合の適合度    →距離ベースの平均平方標準誤差(SRMSE) 観測データ 推定データ

セルベースの適合度評価結果 ◆基本カテゴリ設定 ◆集約カテゴリ設定 ・セルベースの推定はカテゴリ数が少ない場合には初期分布推計手法として有効 多くのケースで エージェントベースの方が 適合度が大きく改善 セルベース適合度 セルベース適合度 セルベースの方がやや高い適合度 手法間の差は小さく優位性に大きな差は 存在しない サンプルNo. サンプルNo. ・セルベースの推定はカテゴリ数が少ない場合には初期分布推計手法として有効 ・カテゴリ設定が詳細な場合はエージェントベースの採用が望ましい

エージェントベースの適合度評価 ◆観測データと推定データの類似度 →2要素間距離二乗和の最小値 観測データ 適合度 適合度 推定データ    →2要素間距離二乗和の最小値        :GAの共生進化を用いた近似値探索(各ケース6回の適合度算出を試行) 観測データ 適合度 適合度 推定データ 推定データ 適合度=乖離量距離の最小和 観測データ 推定データ

エージェントベースの適合度評価結果① ◆基本カテゴリ設定 ・マイクロシミュレーションで用いられる初期データ作成においては 大部分のケースで エージェントベースの方が 適合度が改善 エージェントベースの方が 適合度の標準偏差が小さく安定した結果 セルベース適合度の平均値 セルベース適合度の標準偏差 サンプルNo. サンプルNo. ・マイクロシミュレーションで用いられる初期データ作成においては  エージェントベースの方が優位性が高い

エージェントベースの適合度評価結果② ◆集約カテゴリ設定 ・セルベースでは非集計データへの変換時に集約カテゴリ内でのばらつきの 全てのケースで エージェントベースの方が 大幅に高い適合度 集約カテゴリ設定では安定性に関する差は少ない セルベース適合度の平均値 セルベース適合度の標準偏差 サンプルNo. サンプルNo. ・セルベースでは非集計データへの変換時に集約カテゴリ内でのばらつきの  精度が大きく低下 ・エージェントベースの優位性は、カテゴリが集約されるほど傾向が顕著

まとめ ・セルベースとエージェントベースによるマイクロデータ 推定手法に関して、カテゴリ設定の影響の観点から比較 を行い検証  推定手法に関して、カテゴリ設定の影響の観点から比較  を行い検証 ・セルベースとエージェントベースの適合度ともに、詳細  なカテゴリ設定ほどエージェントベースの推計(モンテ  カルロ法)による推計が有効 ・セルベースの推計手法では、特にマイクロシミュレー  ションで用いるような非集計データの推計時に精度が  低下

杉木・宮本・大谷・他論文(1) 論点整理に向けて 研究目的: 本研究の意義: 先行研究との関連性: マイクロシミュレーションにおける初期設定データ作成方法のうち、cell-basedとagent-basedによる手法間の妥当性(有効性?)比較 本研究の意義: マイクロシミュレーションモデルにおける人工的な人口・世帯データの作成方法の確立および適用時のガイドライン作成にも資する 先行研究との関連性: 単一のカテゴリ設定下での同種研究を踏まえ、複数カテゴリ設定/集約カテゴリ化を検討

杉木・宮本・大谷・他論文(2) cell-based 推定法: 基本的には、IPF法(限定的な数の世帯属性によって定められた次元ごとのテーブルについて、各セルの世帯数が周辺分布に一致するように生成される)の適用のため、タイプ別世帯数データ。 agent-based 推定法: 宮本ら(2009)によるモンテカルロサンプリングに基づくBase yearデータ推定システムを基本 (論文中の図ー3の説明がないためにこれ以上はよくわからない) 本研究では、上記の推計システムの簡略化とともに、適合度評価のための指標を検討 N!個の要素に関する効率的な距離和算出アルゴリズムのためにGA(共生進化)の適用をはかる

杉木・宮本・大谷・他論文(3) 論点整理と質問?: 検討手法(比較検証方法)について 適合度算定による有用性検証とカテゴリ設定に対する推定の「頑健性」検証との関係? モンテカルロサンプリング法の簡略化と有効性? 本研究における簡略化の意図? 例えば、初期分布データ作成のための8ケースのサンプリング回数の十分性/結果への影響 Agent-basedにおける適切なカテゴリ設定方法? カテゴリ集約化すれば一般的にも精度向上/どの程度の詳細なカテゴリ設定が必要なのか? 今後の課題?

論点整理と質問?: 検討手法(比較検証方法)について ‐モンテカルロサンプリング法の簡略化と有効性? 適合度算定による有用性検証とカテゴリ設定に対する推定の「頑健性」検証との関係? ・推定の「頑健性」はセルベース(集計データ)適合度評価により検証 ・詳細なカテゴリ設定ほど、エージェントベース推計の頑健性が高い  ‐モンテカルロサンプリング法の簡略化と有効性? 本研究における簡略化の意図? 例えば、初期分布データ作成のための8ケースのサンプリング回数の十分性/結果への影響 ・両手法の比較のため、2属性(年齢、世帯人数)のみを対象とした  モンテカルロサンプリング法による初期データ作成を利用 ・サンプリングケース数の十分性については未確認のため、今後ケース  数を増やしてゆくことが望ましい

‐ Agent-basedにおける適切なカテゴリ設定方法? カテゴリ集約化すれば一般的にも精度向上/どの程度の詳細なカテゴリ設定が必要なのか? ・カテゴリ設定はマイクロシミュレーションを用いた都市モデルの作成  目的から決定されるべきもの ・本稿では外生的なカテゴリ設定に対する適切な手法の選択を目的とし  ている  ‐ 今後の課題? ・本稿では2パターンのみのカテゴリ設定のため、より多様なパターン  設定のもとでの検証が必要(集約数、集約パターン) ・サンプリングケースの増加による検証結果の妥当性の向上

初期マイクロ世帯データ推定手法の構築(1) ◆マイクロデータの定義 マイクロ世帯データ 自動車保有台数 世帯収入 住居タイプ 世帯構成 居住ゾーン 年齢構成 マイクロ世帯データの   一般的表現 世帯s 世帯人数m 35 29 7 ={①本人・男,②子・男1,③子・男2,④子・男3,⑤孫・男    ,⑥兄弟,⑦父,⑧その他・男1,⑨その他・男2    ,⑩本人・女,⑪妻,⑫子・女1,⑬子・女2,⑭子・女3,⑮孫・女1    ,⑯姉妹,⑰母1,⑱子の妻1,⑲その他・女1,⑳その他・女2} ={35,7,999,999,999    ,999,999,999,999    ,999,29,999,999,999,999    ,999,999,999,999,999}

推定フロー(1) : 世帯構成員の年齢・性別・続柄の決定 START ①世帯人数別の世帯数へ  世帯サンプルより性別、  続柄を付加 ③周辺分布(5歳年齢階層別人口)  に一致するように調整 性別年齢階層別人口 Y Y N 年齢階層別人口 のチェック Y 世帯sの年齢構成 乱数発生 N ※1 N 世帯sのマイクロデータ Y 累積関数 ランダムサンプリング N 乱数発生 線形関数 Y        が  性別年齢階層 N ②各世帯構成員  の年齢の付加 に所属するか?   人世帯サンプル =[世帯サンプル        の世帯構成] =[世帯主性別, 世帯構成員1の続柄・年齢 ,世帯構成員2の続柄・年齢, ・・・   ,世帯構成員    の続柄・年齢] N によって  と  の誤差が 改善されるか? 再生成された   Y 世帯sの年齢構成 世帯sのマイクロデータ (初期データセット計算時) (収束計算時)