初期マイクロデータの推定手法に関する エージェントベースとセルベースの比較 ドーコン 正員 ○杉木 直 東京都市大学 フェロー 宮本 和明 東京都市大学 正員 大谷 紀子 Kasetsart University 正員 Varameth VICHIENSAN 1
背景 ・土地利用-交通モデル分野におけるマイクロ シミュレーションへの関心の高まりと研究事例 および実際の都市への適用事例の蓄積の進展 シミュレーションへの関心の高まりと研究事例 および実際の都市への適用事例の蓄積の進展 ・土地利用マイクロシミュレーションにおける シミュレーション初期年次の「マイクロデータ」 の必要性 ・個人、個別世帯に関するデータの入手は困難 →入手可能データによる「人口データ推計」を実施 :集計データ(国勢調査等)+サンプル調査
目的 ◆初期年次のマイクロデータ作成に関する セルベースとエージェントベースによる手法の比較 セルベースとエージェントベースによる手法の比較 →モデル適用の場面や目的を踏まえた推定手法選択のため のガイドライン作成にむけて 質的な視点における比較 ・データ特性、推定手法の規範、複雑性、データ入手可能性等に関する 両手法の特性、メリット・デメリットの整理 量的な視点における比較 ・実データを観測データとして用いた両手法による初期データの作成 ・セルベースデータの比較による推定の頑健性の評価 ・エージェントベースデータの適合度評価によるマイクロ世帯推計への有効性 の検証
人口・世帯データ推計に関する既存研究 ①セルベースの推計手法 ・・・IPF法およびその拡張 ②エージェントベースの推計手法 - Deming and Stephan (1940) ・人口データ推計問題への適用 - Beckman et al. (1996) - 宮本ら (1986) ・IPF法の改良 - Guo and Bhat (2007) - Pritchard and Miller (2009) ②エージェントベースの推計手法 ・・・モンテカルロサンプリング ・モンテカルロサンプリングによる 各エージェントに対する多属性の設定 - Moeckel, et al. (2003) Moeckel らによる 人口・世帯データ生成手法
人口・世帯データ推計に関する既存研究 ・エージェントベースの 人口・世帯推定システム - 宮本ら (2009, 2010, 2011) 人口・世帯推定システム - 宮本ら (2009, 2010, 2011) 人数別世帯の構成員に対する属性(年齢、性別、続柄)の推定 →総合的な属性からなる初期マイクロ世帯データの推定 (住宅タイプ、居住地、自動車保有台数、所得)
マイクロデータ推定手法の質的比較 セルベース エージェントベース の推計手法 の推計手法 ・属性の組み合わせで定義さ れる多次元表のセル値 ・直接的には推定されない ・個々のエージェントを直接推定 ・各々が固有の属性を持ち多様な 属性の組み合わせが考慮可能 マイクロデータ の特性 属性及び カテゴリ の制約 ・離散的なカテゴリ設定 ・属性やカテゴリの増加に 伴うゼロセル問題の発生 ・属性やカテゴリの設定に対する 制約なし ・エントロピー最大化という 明確な規範あり ・固定的な解法アルゴリズム ・明確な規範なし ・サンプルの確率分布による推定 のため尤度最大化にベースを置 くと解釈される 推定手法 の規範
マイクロデータ推定手法の質的比較 セルベース エージェントベース の推計手法 の推計手法 ・一意な推定結果 ・試行毎に異なる推計結果 ・複数の推定結果より利用する ものを選択する必要あり 推定結果 の頑健性 推定 アルゴリズム の複雑性 ・改良手法を含むいくつかの パターンはあるが、一般的 には単純なアルゴリズム ・複雑な推定アルゴリズム ・恣意性が介在する可能性あり データ 入手可能性 ・属性/カテゴリ別総量:集計データ、既存統計等により入手 ・サンプルデータ:アンケート調査等により入手 手法間の 互換性 ・エージェントベースデータ への変換には限界あり ・取り扱える属性の数が限定 的 ・集計によるセルベースデータへ の変換が容易
マイクロデータ推定手法の量的比較 ◆検討対象:人口データ ◆属性:個人年齢+所属する世帯の人数 ◆カテゴリ 年齢:18カテゴリ (0-4歳,5-9歳,10-14歳,15-19歳,・・・,75-79歳,80-84歳,85歳以上) 世帯人数:7カテゴリ ◆推定手法 セルベース : IPF法 エージェントベース : モンテカルロシミュレーション(宮本ら2009) ◆比較検討手法 セルベースおよびエージェントベースの適合度評価
マイクロデータ推定手法の量的比較
マイクロデータ推定手法の量的比較 ◆利用データ :第4回道央都市圏パーソントリップ調査データ 世帯構成員の詳細情報を含む 19,394世帯のマイクロデータ 10,000世帯データを母集団として ランダム抽出(人口:24,115人) 1,000世帯データを サンプルデータ として抽出 年齢別人口、 世帯人数別人口 を集計 IPF法、モンテカルロシミュレーションのサンプルデータとして 人口に関する周辺制約データとして
マイクロデータ推定手法の量的比較 ◆セルベースの適合度評価 観測データ 推定データ
マイクロデータ推定手法の量的比較 ◆セルベースの適合度評価 ・平均的にはエージェントベースの方がやや良好な結果 ケース 個人 データ数 適合度(セルベース) セルベース (IPF) エージェントベース (モンテカルロシミュレーション) Sample 1 2,346 0.184 0.170 Sample 2 2,357 0.183 0.192 Sample 3 2,434 0.208 0.171 Sample 4 2,415 0.175 Sample 5 2,446 0.213 0.219 平均 0.194 0.185 ・平均的にはエージェントベースの方がやや良好な結果 ・同一のサンプルにおいてエージェントベースでは大きく改善される可能性
マイクロデータ推定手法の量的比較 ◆エージェントベースの適合度評価 観測データ 適合度 適合度 推定データ 推定データ 適合度=乖離量距離の最小和 観測データ 推定データ
マイクロデータ推定手法の量的比較 ◆エージェントベースの適合度評価 ・エージェントベースの方が良好な適合度を示す結果 ケース 個人 データ数 適合度(エージェントベース) セルベース (IPF) エージェントベース (モンテカルロシミュレーション) 平均 標準偏差 Sample1 2,346 3,981 49.6 2,548 20.8 Sample2 2,357 4,176 25.2 2,925 11.7 Sample3 2,434 2,958 23.1 2,376 14.0 Sample4 2,415 3,539 55.6 3,041 12.2 Sample5 2,446 2,971 12.5 3,340 ・エージェントベースの方が良好な適合度を示す結果 ・セルベースに比べエージェントベースの適合度は安定的
まとめ ・セルベースとエージェントベースによるマイクロデータ 推定手法に関して、質的な比較を行い整理 推定手法に関して、質的な比較を行い整理 ・セルベースと:IPF法とエージェントベース:モンテ カルロシミュレーションによる初期分布を、セルベース とエージェントベースの適合度で評価 ◆課題 ・量的比較の更なる追加検証 ・サンプリング率による変化 ・セル統合パターンによる変化 など
初期マイクロ世帯データ推定手法の構築(1) ◆マイクロデータの定義 マイクロ世帯データ 自動車保有台数 世帯収入 住居タイプ 世帯構成 居住ゾーン 年齢構成 マイクロ世帯データの 一般的表現 世帯s 世帯人数m 35 29 7 ={①本人・男,②子・男1,③子・男2,④子・男3,⑤孫・男 ,⑥兄弟,⑦父,⑧その他・男1,⑨その他・男2 ,⑩本人・女,⑪妻,⑫子・女1,⑬子・女2,⑭子・女3,⑮孫・女1 ,⑯姉妹,⑰母1,⑱子の妻1,⑲その他・女1,⑳その他・女2} ={35,7,999,999,999 ,999,999,999,999 ,999,29,999,999,999,999 ,999,999,999,999,999}
推定フロー(1) : 世帯構成員の年齢・性別・続柄の決定 START ①世帯人数別の世帯数へ 世帯サンプルより性別、 続柄を付加 ③周辺分布(5歳年齢階層別人口) に一致するように調整 性別年齢階層別人口 Y Y N 年齢階層別人口 のチェック Y 世帯sの年齢構成 乱数発生 N ※1 N 世帯sのマイクロデータ Y 累積関数 ランダムサンプリング N 乱数発生 線形関数 Y が 性別年齢階層 N ②各世帯構成員 の年齢の付加 に所属するか? 人世帯サンプル =[世帯サンプル の世帯構成] =[世帯主性別, 世帯構成員1の続柄・年齢 ,世帯構成員2の続柄・年齢, ・・・ ,世帯構成員 の続柄・年齢] N によって と の誤差が 改善されるか? 再生成された Y 世帯sの年齢構成 世帯sのマイクロデータ (初期データセット計算時) (収束計算時)