カテゴリ設定の影響を考慮した 初期マイクロデータ推定手法の比較 ドーコン 正員 ○杉木 直 東京都市大学 フェロー 宮本 和明 東京都市大学 正員 大谷 紀子 Kasetsart University 正員 Varameth VICHIENSAN 1
背景 ・土地利用-交通モデル分野におけるマイクロ シミュレーションへの関心の高まりと研究事例 および実際の都市への適用事例の蓄積の進展 シミュレーションへの関心の高まりと研究事例 および実際の都市への適用事例の蓄積の進展 ・土地利用マイクロシミュレーションにおける シミュレーション初期年次の「マイクロデータ」 の必要性 ・個人、個別世帯に関するデータの入手は困難 →入手可能データによる「人口データ推計」を実施 :集計データ(国勢調査等)+サンプル調査
目的 ◆初期年次のマイクロデータ作成に関する セルベースとエージェントベースによる手法の比較 セルベースとエージェントベースによる手法の比較 →モデル適用の場面や目的を踏まえた推定手法選択のためのガイドライン作成にむけて 【先行研究】 質的な視点における比較 ・データ特性、推定手法の規範、複雑性、データ入手可能性等 量的な視点における比較 →単一カテゴリ設定のみ ・セルベースデータの比較による推定の頑健性の評価 ・エージェントベースデータの適合度評価によるマイクロ世帯推計への有効性の検証 ◆複数のカテゴリ設定を対象とした両手法の適合度検証実験 ・カテゴリ集約が初期分布推計に与える影響の検証 ・手法間の優位性の比較
カテゴリ設定を考慮したマイクロデータ推定手法の比較 ◆比較検討手法 セルベース(集計データ)およびエージェントベース(非集計データ) の適合度評価 ◆推定手法 セルベース : IPF法 エージェントベース : モンテカルロシミュレーション(宮本ら2009) ◆検討対象 : 所属する世帯の属性を含む人口データ ◆属性 : 個人年齢+所属する世帯の人数 ◆カテゴリ設定:2種類設定 ・基本カテゴリ : 個人年齢18カテゴリ×世帯人数7カテゴリ ・集約カテゴリ : 個人年齢6カテゴリ×世帯人数3カテゴリ
マイクロデータ推定手法の比較 ◆検討フロー 観測データ サンプルデータ エージェントベース セルベース (非集計データ) (集計データ) の適合度評価 エージェントベース (非集計データ) の適合度評価 周辺分布データ モンテカルロ シミュレーション IPF法 集計人口データ 非集計人口データ 分解 集計
セルベースの推計手法 ・周辺分布を制約とした調整計算により、各セルの属性別人口を推計 ◆IPF法によるセルベースの人口推計 センサスデータ サンプルデータセット 周辺分布 属性2:カテゴリー 属性1:カテゴリー センサスデータ 周辺分布 ・周辺分布を制約とした調整計算により、各セルの属性別人口を推計
エージェントベースの推計手法 ・モンテカルロサンプリングを用いた世帯構成員の個人ベースの推定 ◆エージェントベースの人口・世帯推定システム - 宮本ら (2009) →手法としては総合的な属性(年齢、性別、続柄、住宅タイプ、居住地、自動車保有台数、 所得)からなる初期マイクロ世帯データの推定方法を開発済み ・モンテカルロサンプリングを用いた世帯構成員の個人ベースの推定
利用データ ◆第4回道央都市圏パーソントリップ調査データ を利用 世帯構成員の詳細情報を含む 19,394世帯のマイクロデータ を利用 世帯構成員の詳細情報を含む 19,394世帯のマイクロデータ 10,000世帯データを母集団として ランダム抽出(人口:24,115人) 1,000世帯データを サンプルデータ として抽出 年齢別人口、 世帯人数別人口 を集計 IPF法、モンテカルロシミュレーションのサンプルデータとして 人口に関する周辺制約データとして
マイクロデータ推定手法の量的比較 ◆カテゴリ設定 ・基本カテゴリ : 個人年齢18カテゴリ ×世帯人数7カテゴリ ・集約カテゴリ : 個人年齢18カテゴリ ×世帯人数7カテゴリ ・集約カテゴリ : 個人年齢6カテゴリ ×世帯人数3カテゴリ
セルベースの適合度評価 ◆観測データ集合と推定データ集合の適合度 →距離ベースの平均平方標準誤差(SRMSE) 観測データ 推定データ
セルベースの適合度評価結果 ◆基本カテゴリ設定 ◆集約カテゴリ設定 ・セルベースの推定はカテゴリ数が少ない場合には初期分布推計手法として有効 多くのケースで エージェントベースの方が 適合度が大きく改善 セルベース適合度 セルベース適合度 セルベースの方がやや高い適合度 手法間の差は小さく優位性に大きな差は 存在しない サンプルNo. サンプルNo. ・セルベースの推定はカテゴリ数が少ない場合には初期分布推計手法として有効 ・カテゴリ設定が詳細な場合はエージェントベースの採用が望ましい
エージェントベースの適合度評価 ◆観測データと推定データの類似度 →2要素間距離二乗和の最小値 観測データ 適合度 適合度 推定データ →2要素間距離二乗和の最小値 :GAの共生進化を用いた近似値探索(各ケース6回の適合度算出を試行) 観測データ 適合度 適合度 推定データ 推定データ 適合度=乖離量距離の最小和 観測データ 推定データ
エージェントベースの適合度評価結果① ◆基本カテゴリ設定 ・マイクロシミュレーションで用いられる初期データ作成においては 大部分のケースで エージェントベースの方が 適合度が改善 エージェントベースの方が 適合度の標準偏差が小さく安定した結果 セルベース適合度の平均値 セルベース適合度の標準偏差 サンプルNo. サンプルNo. ・マイクロシミュレーションで用いられる初期データ作成においては エージェントベースの方が優位性が高い
エージェントベースの適合度評価結果② ◆集約カテゴリ設定 ・セルベースでは非集計データへの変換時に集約カテゴリ内でのばらつきの 全てのケースで エージェントベースの方が 大幅に高い適合度 集約カテゴリ設定では安定性に関する差は少ない セルベース適合度の平均値 セルベース適合度の標準偏差 サンプルNo. サンプルNo. ・セルベースでは非集計データへの変換時に集約カテゴリ内でのばらつきの 精度が大きく低下 ・エージェントベースの優位性は、カテゴリが集約されるほど傾向が顕著
まとめ ・セルベースとエージェントベースによるマイクロデータ 推定手法に関して、カテゴリ設定の影響の観点から比較 を行い検証 推定手法に関して、カテゴリ設定の影響の観点から比較 を行い検証 ・セルベースとエージェントベースの適合度ともに、詳細 なカテゴリ設定ほどエージェントベースの推計(モンテ カルロ法)による推計が有効 ・セルベースの推計手法では、特にマイクロシミュレー ションで用いるような非集計データの推計時に精度が 低下
杉木・宮本・大谷・他論文(1) 論点整理に向けて 研究目的: 本研究の意義: 先行研究との関連性: マイクロシミュレーションにおける初期設定データ作成方法のうち、cell-basedとagent-basedによる手法間の妥当性(有効性?)比較 本研究の意義: マイクロシミュレーションモデルにおける人工的な人口・世帯データの作成方法の確立および適用時のガイドライン作成にも資する 先行研究との関連性: 単一のカテゴリ設定下での同種研究を踏まえ、複数カテゴリ設定/集約カテゴリ化を検討
杉木・宮本・大谷・他論文(2) cell-based 推定法: 基本的には、IPF法(限定的な数の世帯属性によって定められた次元ごとのテーブルについて、各セルの世帯数が周辺分布に一致するように生成される)の適用のため、タイプ別世帯数データ。 agent-based 推定法: 宮本ら(2009)によるモンテカルロサンプリングに基づくBase yearデータ推定システムを基本 (論文中の図ー3の説明がないためにこれ以上はよくわからない) 本研究では、上記の推計システムの簡略化とともに、適合度評価のための指標を検討 N!個の要素に関する効率的な距離和算出アルゴリズムのためにGA(共生進化)の適用をはかる
杉木・宮本・大谷・他論文(3) 論点整理と質問?: 検討手法(比較検証方法)について 適合度算定による有用性検証とカテゴリ設定に対する推定の「頑健性」検証との関係? モンテカルロサンプリング法の簡略化と有効性? 本研究における簡略化の意図? 例えば、初期分布データ作成のための8ケースのサンプリング回数の十分性/結果への影響 Agent-basedにおける適切なカテゴリ設定方法? カテゴリ集約化すれば一般的にも精度向上/どの程度の詳細なカテゴリ設定が必要なのか? 今後の課題?
論点整理と質問?: 検討手法(比較検証方法)について ‐モンテカルロサンプリング法の簡略化と有効性? 適合度算定による有用性検証とカテゴリ設定に対する推定の「頑健性」検証との関係? ・推定の「頑健性」はセルベース(集計データ)適合度評価により検証 ・詳細なカテゴリ設定ほど、エージェントベース推計の頑健性が高い ‐モンテカルロサンプリング法の簡略化と有効性? 本研究における簡略化の意図? 例えば、初期分布データ作成のための8ケースのサンプリング回数の十分性/結果への影響 ・両手法の比較のため、2属性(年齢、世帯人数)のみを対象とした モンテカルロサンプリング法による初期データ作成を利用 ・サンプリングケース数の十分性については未確認のため、今後ケース 数を増やしてゆくことが望ましい
‐ Agent-basedにおける適切なカテゴリ設定方法? カテゴリ集約化すれば一般的にも精度向上/どの程度の詳細なカテゴリ設定が必要なのか? ・カテゴリ設定はマイクロシミュレーションを用いた都市モデルの作成 目的から決定されるべきもの ・本稿では外生的なカテゴリ設定に対する適切な手法の選択を目的とし ている ‐ 今後の課題? ・本稿では2パターンのみのカテゴリ設定のため、より多様なパターン 設定のもとでの検証が必要(集約数、集約パターン) ・サンプリングケースの増加による検証結果の妥当性の向上
初期マイクロ世帯データ推定手法の構築(1) ◆マイクロデータの定義 マイクロ世帯データ 自動車保有台数 世帯収入 住居タイプ 世帯構成 居住ゾーン 年齢構成 マイクロ世帯データの 一般的表現 世帯s 世帯人数m 35 29 7 ={①本人・男,②子・男1,③子・男2,④子・男3,⑤孫・男 ,⑥兄弟,⑦父,⑧その他・男1,⑨その他・男2 ,⑩本人・女,⑪妻,⑫子・女1,⑬子・女2,⑭子・女3,⑮孫・女1 ,⑯姉妹,⑰母1,⑱子の妻1,⑲その他・女1,⑳その他・女2} ={35,7,999,999,999 ,999,999,999,999 ,999,29,999,999,999,999 ,999,999,999,999,999}
推定フロー(1) : 世帯構成員の年齢・性別・続柄の決定 START ①世帯人数別の世帯数へ 世帯サンプルより性別、 続柄を付加 ③周辺分布(5歳年齢階層別人口) に一致するように調整 性別年齢階層別人口 Y Y N 年齢階層別人口 のチェック Y 世帯sの年齢構成 乱数発生 N ※1 N 世帯sのマイクロデータ Y 累積関数 ランダムサンプリング N 乱数発生 線形関数 Y が 性別年齢階層 N ②各世帯構成員 の年齢の付加 に所属するか? 人世帯サンプル =[世帯サンプル の世帯構成] =[世帯主性別, 世帯構成員1の続柄・年齢 ,世帯構成員2の続柄・年齢, ・・・ ,世帯構成員 の続柄・年齢] N によって と の誤差が 改善されるか? 再生成された Y 世帯sの年齢構成 世帯sのマイクロデータ (初期データセット計算時) (収束計算時)