Actor-Criticを用いた 知的ネットワークシステムの提案

Slides:



Advertisements
Similar presentations
三木 光範 (同志社大学工学部) 廣安 知之 (同志社大学工学部) 花田 良子 (同志社大学工学部学部 生) 水田 伯典 (同志社大学大学院) ジョブショップスケジューリング問 題への 分散遺伝的アルゴリズムの適用 Distributed Genetic Algorithm for Job-shop.
Advertisements

●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
「ベースボール統一球は変わったのか」を検証,予測する。
遺伝的アルゴリズムにおける ランドスケープによる問題のクラス分類
点対応の外れ値除去の最適化によるカメラの動的校正手法の精度向上
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
表計算ソフトで動作するNEMUROの開発
知的ネットワークシステムへの 強化学習の適用
東京23区の気温分布と リモートセンシングを用いた 緑被面積率の関係
JavaによるCAI学習ソフトウェアの開発
スケールフリーネットワークにおける 経路制御のためのフラッディング手法の提案と評価
5.チューリングマシンと計算.
5.チューリングマシンと計算.
神奈川大学大学院工学研究科 電気電子情報工学専攻
シミュレーション論 Ⅱ 第12回 強化学習.
先端論文紹介ゼミ Role-based Context-specific Multiagent Q-learning
プロセス制御工学 6.PID制御 京都大学  加納 学.
ランダムウォークに関するいくつかの話題 ・ランダムウォークの破産問題 ・ランダムウォークの鏡像原理 1 小暮研究会Ⅰ 11月12日
エージェントアプローチ 人工知能 21章 B4 片渕 聡.
Observable modified Condition/Decision coverage
EMアルゴリズム クラスタリングへの応用と最近の発展
制約条件の確率的選択に基づく 資源追加削減法の改良 三木 光範(同志社大工) 廣安 知之(同志社大工) ○小林 繁(同志社大院)
10. 積分 積分・・確率モデルと動学モデルで使われる この章は計算方法の紹介 積分の定義から
第3章 補足:パラメータが極小値に収束する例
サーボ機構製作 ~マイコンカーのステアリング機構~
IPv6アドレスによる RFIDシステム利用方式
小標本検査データを元にした 疲労破損率のベイズ推定
MPIによる行列積計算 情報論理工学研究室 渡邉伊織 情報論理工学研究室 渡邉伊織です。
モデリングシミュレーション入門(井庭崇)
シミュレーション論 Ⅱ 第12回 様々なシミュレーション手法(3) 強化学習.
KECSフォーラム Intelligent Systems --
協調機械システム論 ( ,本郷) 協調機械システム論 東京大学 人工物工学研究センター 淺間 一.
ベイジアンネット混合モデルによる 強化学習エージェントの方策改善
決定木とランダムフォレスト 和田 俊和.
マイコンによるLEDの点灯制御 T22R003 川原 岳斗.
1DS05175M 安東遼一 1DS05213M 渡邉光寿 指導教員: 高木先生
循環式に関して より微粒化が求められる昨今、ビーズミルを複数回通過させる粉砕、分散処理が多くなっている。
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
Ibaraki Univ. Dept of Electrical & Electronic Eng.
B-TACEのための肝癌結節の分類.
12の発明の原理だけで発想できるプロセス アイデア発想とアイデア選定
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
非対称リンクにおける ジャンボフレームの性能評価
ロボットの協調動作の研究: マップ作成とマップ情報を利用した行動計画
遺伝的交叉を用いた 並列シミュレーテッドアニーリング 同志社大学工学部/大学院 廣安知之,三木光範,○小掠真貴
電機情報工学専門実験 6. 強化学習シミュレーション
片方向通信路を含む ネットワークアーキテクチャに於ける 動的な仮想リンク制御機構の設計と実装
適応的近傍を持つ シミュレーテッドアニーリングの性能
P2P ネットワーク上で 実時間ストリーミングを実現するための 分散制御プロトコルの提案
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
問題作成、解説担当:中島 副担当:坪坂、松本
川崎浩司:沿岸域工学,コロナ社 第4章(pp.58-68)
ISO23950による分散検索の課題と その解決案に関する検討
構造的類似性を持つ半構造化文書における頻度分析
設計情報の再利用を目的とした UML図の自動推薦ツール
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
5.チューリングマシンと計算.
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
藤田保健衛生大学医学部 公衆衛生学 柿崎 真沙子
ITSにおける 知的ネットワークシステムの構築 - 知的信号機システムの提案 -
パターン認識特論 ADA Boosting.
自転車の利用促進に着目した研究 名古屋大学  E班 M1  酒井大輔             徐剛           高橋和大 平野泰博    安江勇弥.
パターン認識特論 ADA Boosting.
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
情報数理Ⅱ 第10章 オートマトン 平成28年12月21日.
ベイジアンネットワークと クラスタリング手法を用いたWeb障害検知システムの開発
信号データの変数代入と変数参照 フィードバック制御系の定常特性 フィードバック制御系の感度特性
各種荷重を受ける 中空押出形成材の構造最適化
外れ値検出 Outlier Detection 外れサンプル検出 Outlier Sample Detection
Presentation transcript:

Actor-Criticを用いた 知的ネットワークシステムの提案   廣安 知之(同志社大学)   三木 光範(同志社大学) ○中村 康昭(同志社大学 大学院) Actor-Criticを用いた知的ネットワークシステムの提案と題しまして 同志社大学大学院の中村が発表させていただきます. よろしくお願いします.

研究背景 近年の人工物には知的性質を備えているものが存在する Ex.) 自動温度調節を行う電子レンジ 人の存在を感知する照明 人の存在で風量を調節する空調 知的人工物 人工物におけるパラメータを環境に合わせて変更可能 利用者や環境にとってより高い効用をもたらす人工物 研究背景としまして, 近年のマイコンなどの発達に伴い,知的性質を備えた,すなわち賢いと呼べるような人工物の存在があります. 例としては,中に入るものの種類によって温め方を変化させる電子レンジや,人の存在を感知し,電源をつける照明, 人のいる地点に直接風を当てないようにする空調システムなどがあげられます. 我々はこのような人工物を知的人工物と定義し,研究を行っています. 知的人工物の定義は,人工物におけるパラメータ,すなわち行動を環境に合わせて変化させ,利用者や環境にとって より高い効用をもたらす人工物となります. Intelligent Systems Design Lab. Doshisha Univ.

知的メカニズムの発現 状態を認識するSense部 適切な行動判断を行うJudge部 判断に従うAct部 知的人工物は,環境に合わせて自身の行動を変化させるため,まず,環境を認識するセンサを有する必要があります. そして,適切な判断基準によって認識した環境情報から適切な挙動を判断する必要があります. また,判断された行動を実現するためのアクチュエータが必要です. そして,自身の行動によって生じた変化を再び認識する. このようなサイクルで表される要素が知的人工物には必要となります. 知的人工物単体では,自身に組み込まれた限られたセンサ・駆動部のみでの目的達成が目標となります. 自身に組み込まれたセンサ,駆動部から目的達成 Intelligent Systems Design Lab. Doshisha Univ.

知的ネットワークシステム 強化学習の適用 知的人工物が持つ知的性質を利用して,目的をネットワークに 与えることにより自律的に動作するネットワークシステム 柔軟な対応が不可欠 柔軟なJudge部 今回提案する知的ネットワークシステムとは,それら知的人工物が持つ知的性質を利用し,目的をネットワークに与えることによって自律的に動作するシステムです. 温度,湿度,明るさ,などが人に影響を及ぼす際には複雑に影響があるため,はじめから判断基準を各機器に組み込むことは不可能です.また,ある機器が故障した際に他の機器が柔軟に補ってくれる,このようなシステムの構築を目指します. このようなシステムには,柔軟な対応,すなわち柔軟な判断を行うJudge部が不可欠になります. 今回,Judgeを行う部分に,強化学習を適用し柔軟に対処可能なシステムを検討しています. 強化学習の適用 Intelligent Systems Design Lab. Doshisha Univ.

強化学習 教師が存在せず,報酬を手がかりに学習を進める 試行錯誤から選択すべき行動を学習する 代表的な強化学習手法 Q-Learning 強化学習では,環境から得られる報酬を手がかりに学習を進めます.この学習では,試行錯誤から選択すべき行動を獲得していきます. 代表的な強化学習として,Q-LearningとActor-Criticの検討を行います. Q-Learning Actor-Critic Intelligent Systems Design Lab. Doshisha Univ.

S+A S S-A Q-Learning それぞれの状態に,状態と行動のセットで評価値が存在 +A -A つまり,ある状態において,行動Aと行動Bが設定されているときに,それぞれに評価値があるというわけです. Boltzman選択 :exp(Q(s,a)/T)に比例して行動選択 ε-greedy選択:確率εでランダム,それ以外で最高評価の行動を選択 Intelligent Systems Design Lab. Doshisha Univ.

Actor-Critic 状態評価部と行動選択部が独立して存在 状態評価部 行動選択部 確率設定可能 確率変動可能 状態S 良い状態へ遷移したとき 中心値:行動方向へ移動 標準偏差: 外:標準偏差を広げる 内:標準偏差を縮める これに対して,Actor-Criticでは状態評価部と行動選択部が独立して存在しています. 状態評価部はその状態が目標となる状態から見てどの程度良い状態なのかということを評価し,行動選択部は確率設定可能であり,確率変動可能なものであればどのようなものでも良いとされています. 今回,正規分布に基づいて行動を選択させています. このような正規分布が初めあるとしますと,行動Aと行動Bは当確率で選択されます. この時,このような点がにより,行動Bが選択されて,良い状態へ遷移したとしますとその行動が選択される確率を高くします. 具体的には,正規分布の標準偏差を見て,その外側であれば標準偏差を広げ,逆に標準偏差の内側であれば小さくします. 正規分布の中心値はそのとき発生した行動の方向へ移動させます. これにより行動Bが選択される確率が高くなります. A - + Intelligent Systems Design Lab. Doshisha Univ.

シミュレーション:知的照明システム 目標:人を快適にする (快適=100±5 [lx]) 状態数:0~300 [lx]を60分割 ライト:1.5m間隔で3台設置 人:中央のライトの下に存在 このような二つの学習手法を用いてシミュレーションを行います. ネットワーク上へは人を快適にせよという目標を流し,各ライトがこれを共有します. 今回は,人のいる地点の照度の誤差を5lxと考え,100±5[Lx]で人が快適になるとします. 状態認識は,0~300[lx]までを誤差の5lxで60分割し,ライトは1.5m間隔で3台設置します. 人は中央のライトの下にいるものとします. Sense:人のいる地点の照度 各ライトのSense・Judge・Act Judge:判断基準との比較 Act:ライトの光度の変更 Intelligent Systems Design Lab. Doshisha Univ.

システムの動作 照度計算 [逐点法] I:ライトの光度 E:人のいる地点の照度 1回の学習 1ステップ 人のいる地点が快適な ネットワークに接続された 各照明が全て1回の動作を 行ったとき 1回の学習 人のいる地点が快適な 照度に達したとき 照度計算 [逐点法] I:ライトの光度 E:人のいる地点の照度 本システムにおいて,人のいる地点の照度は照度計算の中で一般的な逐点法を用いました. 1ステップとは,全ての照明が一回の動作によってその光度を上下させたことをいい,人のいる地点が快適な照度に達したときに1回の学習を終了させます. Intelligent Systems Design Lab. Doshisha Univ.

システムへの学習手法の適用 Q-Learning Actor-Critic 各照明は±X[cd]という二つの行動から選択 ε-greedy選択を用いて行動を選択(ε=0.2) Actor-Critic 各照明は正規分布に基づいて値を出力させ,それに従い行動 正規分布の初期中心値を0とする 中心値と標準偏差の変化は実際にとった行動との1/2 このようなシミュレーションにおいて各ライトに2つの学習を適用します. Q-Learningでは各照明は,+x[cd],-x[cd]という二つの行動から選択を行うものとし,行動選択にはe-greedyを用いるものとします.今回,εの値は0.2としています. Actor-Criticでは正規分布に基づいて連続的な値を出力させ,それに従って行動させます.初期の正規分布の中心値は0とし,中心値と標準偏差は実際に選択された行動との中点をとるものとします. Intelligent Systems Design Lab. Doshisha Univ.

人のいる地点の照度の履歴 学習により目標状態へ到達するまでのステップ数が少なくなる それぞれの学習法で,どのような履歴で人のいる地点の照度が変化しているかを見てみます. 横軸は,ステップ,すなわち全てのライトが何回動作を行ったかを示し,縦軸はそのときの人のいる地点の照度を示します. この色の付いている部分が人が快適に感じる照度です. Q-Learningの例を見ますと,最初の試行では,どのような行動をすればよいかを学習していないため,動くので目標の状態に到達するまでに多くのステップを必要とします. しかし,学習を進めるに従い,直線的に目標へと向かうようになります. これはActor-Criticにおいても同様の傾向を示します. では,目標に至るまでのステップ数がどのように減少しているのかについてそれぞれ見てみたいと思います. 学習により目標状態へ到達するまでのステップ数が少なくなる Intelligent Systems Design Lab. Doshisha Univ.

目標状態までのStep数の収束 大きな値を選択させるとステップ数は小さくなる まず,Q-Learningをみます.ここでは,Q-Learningが選択する行動を+10[cd]と-10[cd]させる場合,20[cd]させるとき,40[cd]させるとき,200[cd]させるときの4つについて見てみます. 10[cd]という値で見てみますと,10[cd]ライトの明るさを上下させても人のいる地点の照度はあまり変わらないため,学習によって収束がおきません.選択される行動は大きいほど低いステップ数で目標状態に到達しています. これに対して,actor-criticでは初期の標準偏差を10としたときも収束しています.これは,正規分布の初期の標準偏差は広がりもするためであると考えられます.こちらでも値を大きくすると少ないステップ数で目標まで到達しますが,Q-Learningほどのパラメータによる差は見られません. 大きな値を選択させるとステップ数は小さくなる Intelligent Systems Design Lab. Doshisha Univ.

機器が故障したときの柔軟な対応 各学習手法で100回の学習後,目標に到達したときの障害を想定 他の機器が柔軟に対処することが望ましい 200という値で好成果が得られたため,それぞれについて機器が故障したときの柔軟な対応についての検討を行います. ここでは,100回学習を行い,目標に到達しているときに右のライトが故障してしまうことを想定します.このような場合,他の機器が柔軟に補うことが望ましくなります. 行動選択   Q-Learning:±200[cd]から選択   Actor-Critic:初期標準偏差=200 Intelligent Systems Design Lab. Doshisha Univ.

障害時の行動(Q-Learning) 一つのライトの動作が大きいため,柔軟な対応が不可能 上のグラフは人のいる地点の照度,下のグラフはそのときの各ライトの光度を示しています. 目標に3つのライトでこのようにして到達します.このとき右のライト,すなわちしたのグラフにおける赤い千で表されているものですが,これが故障したとしますと,その影響で人のいる地点の照度がさがります.これによりたのライトが再び動き始めるわけですが,同じ動作を繰り返してしまいます. これは,一つ一つのライトの動作が大きいため,全体が少しずつ上がるということが学習されていないためであると考えられます. 一つのライトの動作が大きいため,柔軟な対応が不可能 Intelligent Systems Design Lab. Doshisha Univ.

障害時の行動(Actor-Critic) これに対して,同様に600[cd]で照らしている右のライトが故障してしまった場合をActor-Criticについてみてみると,下がった状態から,各ライトが少しずつ上がることによって,目標へとコンスタントに近づこうとすることが分かります. このように,微調整的ものが可能となるのは,Actor-Criticにおいて,連続的な値を用いているためと考えられます. 個々の機器が少しずつ明るくなることによって調整を行う Intelligent Systems Design Lab. Doshisha Univ.

まとめ 知的ネットワークシステムの提案 Q-LearningとActor-Criticの比較 Actor-Criticが有効である 知的人工物をネットワークに接続することにより 様々な要求に対応可能なシステムを目指す Q-LearningとActor-Criticの比較 Q-Learningではパラメータへの依存が大きい Actor-Criticではパラメータへの依存が少ない センス・ジャッジ・アクトをそなえた知的人工物をネットワークに接続することにより,さまざまな要求を各機器が持つ可能性を超えて達成可能となるシステムを目指しています. Judge部が参照する判断基準を可変にするため,強化学習を用いて判断基準を自身で獲得させることが可能となりますが, Q-LearningとActor-Criticを検討した結果,Actor-Criticが今回のような環境にはより適切であると言うことが分かりました. 以上で発表を終わらせていただきます. Actor-Criticが有効である Intelligent Systems Design Lab. Doshisha Univ.

Intelligent Systems Design Lab. Doshisha Univ.

以降:参考資料 Intelligent Systems Design Lab. Doshisha Univ.

知的ネットワークシステム 知的人工物をネットワークに接続するシステム 他の機器のセンス・アクトを利用可能 システム全体で利用の可能性が広がる しかしながら,そのような知的人工物をネットワークに接続することによって, 他の機器の有するセンサや駆動部を有効に使用することができるようになるため, その知的人工物がネットワークに接続されたシステム全体の可能性は,接続される知的人工物の数の多さと共に 拡大していきます. 他の機器のセンス・アクトを利用可能 システム全体で利用の可能性が広がる Intelligent Systems Design Lab. Doshisha Univ.

Judge部の問題点 判断基準 判断基準が固定 書き換え部 柔軟な対応が困難 判断基準の書き換え 実動作部 強化学習 各知的人工物は,環境を認識することによって最適な行動を出力するため,その環境を判断するための判断基準を有します. この判断基準は,はじめから設計者や利用者が設定しておくことも可能ですが, 目標とするのはどのような機器がネットワークに接続されるか分からないものであるため, 柔軟な対応が要求され,固定された判断基準では対応することが不可能です. 従って,柔軟に判断基準を書き換えられるようにする必要があります. そのためにはその判断基準があっているか判断し,もしも判断基準をより最適なものへと変更可能であれば書き換える. このような要素が必要になります. これは,判断基準の上位にさらにSense・Judge・Actのサイクルができていることに他なりません. 今回は,この判断基準の書き換えの部分に,試行錯誤による学習制御の枠組みである,強化学習を採用しました. 強化学習 Intelligent Systems Design Lab. Doshisha Univ.

TD誤差学習 St St+1 報酬R α TD誤差 γ V (St+1) -V(St) V(St+1 ) V(St) γ:割引率(0≦γ ≦ 1) α:学習率(0<γ ≦ 1 ) Intelligent Systems Design Lab. Doshisha Univ.

Actor-Criticにおける正規分布の中心値 Intelligent Systems Design Lab. Doshisha Univ.