Actor-Criticを用いた知的ネットワークシステムの提案

Actor-Criticを用いた知的ネットワークシステムの提案
　廣安知之（同志社大学）　三木光範（同志社大学） ○中村康昭（同志社大学大学院） Actor-Criticを用いた知的ネットワークシステムの提案と題しまして同志社大学大学院の中村が発表させていただきます．よろしくお願いします．

研究背景近年の人工物には知的性質を備えているものが存在する Ex.）自動温度調節を行う電子レンジ人の存在を感知する照明
人の存在で風量を調節する空調知的人工物人工物におけるパラメータを環境に合わせて変更可能利用者や環境にとってより高い効用をもたらす人工物研究背景としまして，近年のマイコンなどの発達に伴い，知的性質を備えた，すなわち賢いと呼べるような人工物の存在があります．例としては，中に入るものの種類によって温め方を変化させる電子レンジや，人の存在を感知し，電源をつける照明，人のいる地点に直接風を当てないようにする空調システムなどがあげられます．我々はこのような人工物を知的人工物と定義し，研究を行っています．知的人工物の定義は，人工物におけるパラメータ，すなわち行動を環境に合わせて変化させ，利用者や環境にとってより高い効用をもたらす人工物となります． Intelligent Systems Design Lab. Doshisha Univ.

知的メカニズムの発現状態を認識するSense部適切な行動判断を行うJudge部判断に従うAct部
知的人工物は，環境に合わせて自身の行動を変化させるため，まず，環境を認識するセンサを有する必要があります．そして，適切な判断基準によって認識した環境情報から適切な挙動を判断する必要があります．また，判断された行動を実現するためのアクチュエータが必要です．そして，自身の行動によって生じた変化を再び認識する．このようなサイクルで表される要素が知的人工物には必要となります．知的人工物単体では，自身に組み込まれた限られたセンサ・駆動部のみでの目的達成が目標となります．自身に組み込まれたセンサ，駆動部から目的達成 Intelligent Systems Design Lab. Doshisha Univ.

知的ネットワークシステム強化学習の適用知的人工物が持つ知的性質を利用して，目的をネットワークに
与えることにより自律的に動作するネットワークシステム柔軟な対応が不可欠柔軟なJudge部今回提案する知的ネットワークシステムとは，それら知的人工物が持つ知的性質を利用し，目的をネットワークに与えることによって自律的に動作するシステムです．温度，湿度，明るさ，などが人に影響を及ぼす際には複雑に影響があるため，はじめから判断基準を各機器に組み込むことは不可能です．また，ある機器が故障した際に他の機器が柔軟に補ってくれる，このようなシステムの構築を目指します．このようなシステムには，柔軟な対応，すなわち柔軟な判断を行うJudge部が不可欠になります．今回，Judgeを行う部分に，強化学習を適用し柔軟に対処可能なシステムを検討しています．強化学習の適用 Intelligent Systems Design Lab. Doshisha Univ.

強化学習教師が存在せず，報酬を手がかりに学習を進める試行錯誤から選択すべき行動を学習する代表的な強化学習手法 Q-Learning
強化学習では，環境から得られる報酬を手がかりに学習を進めます．この学習では，試行錯誤から選択すべき行動を獲得していきます．代表的な強化学習として，Q-LearningとActor-Criticの検討を行います． Q-Learning Actor-Critic Intelligent Systems Design Lab. Doshisha Univ.

S+A S S-A Q-Learning それぞれの状態に，状態と行動のセットで評価値が存在 +A -A
つまり，ある状態において，行動Aと行動Bが設定されているときに，それぞれに評価値があるというわけです． Boltzman選択：exp(Q(s,a)/T)に比例して行動選択 ε-greedy選択：確率εでランダム，それ以外で最高評価の行動を選択 Intelligent Systems Design Lab. Doshisha Univ.

Actor-Critic 状態評価部と行動選択部が独立して存在状態評価部行動選択部確率設定可能確率変動可能状態S
良い状態へ遷移したとき中心値：行動方向へ移動標準偏差：外：標準偏差を広げる内：標準偏差を縮めるこれに対して，Actor-Criticでは状態評価部と行動選択部が独立して存在しています．状態評価部はその状態が目標となる状態から見てどの程度良い状態なのかということを評価し，行動選択部は確率設定可能であり，確率変動可能なものであればどのようなものでも良いとされています．今回，正規分布に基づいて行動を選択させています．このような正規分布が初めあるとしますと，行動Aと行動Bは当確率で選択されます．この時，このような点がにより，行動Bが選択されて，良い状態へ遷移したとしますとその行動が選択される確率を高くします．具体的には，正規分布の標準偏差を見て，その外側であれば標準偏差を広げ，逆に標準偏差の内側であれば小さくします．正規分布の中心値はそのとき発生した行動の方向へ移動させます．これにより行動Bが選択される確率が高くなります． A －＋ Intelligent Systems Design Lab. Doshisha Univ.

シミュレーション：知的照明システム目標：人を快適にする（快適＝100±5 [lx]）状態数：0～300 [lx]を60分割
ライト：1.5m間隔で3台設置人：中央のライトの下に存在このような二つの学習手法を用いてシミュレーションを行います．ネットワーク上へは人を快適にせよという目標を流し，各ライトがこれを共有します．今回は，人のいる地点の照度の誤差を５ｌｘと考え，100±５［Lx］で人が快適になるとします．状態認識は，0～300［lx］までを誤差の5lxで60分割し，ライトは1．5ｍ間隔で3台設置します．人は中央のライトの下にいるものとします． Sense：人のいる地点の照度各ライトのSense・Judge・Act Judge：判断基準との比較 Act：ライトの光度の変更 Intelligent Systems Design Lab. Doshisha Univ.

システムの動作照度計算 [逐点法] I：ライトの光度 E:人のいる地点の照度 1回の学習 1ステップ人のいる地点が快適な
ネットワークに接続された各照明が全て1回の動作を行ったとき 1回の学習人のいる地点が快適な照度に達したとき照度計算 [逐点法] I：ライトの光度 E:人のいる地点の照度本システムにおいて，人のいる地点の照度は照度計算の中で一般的な逐点法を用いました． 1ステップとは，全ての照明が一回の動作によってその光度を上下させたことをいい，人のいる地点が快適な照度に達したときに1回の学習を終了させます． Intelligent Systems Design Lab. Doshisha Univ.

システムへの学習手法の適用 Q-Learning Actor-Critic 各照明は±X[cd]という二つの行動から選択
ε-greedy選択を用いて行動を選択(ε＝0.2) Actor-Critic 各照明は正規分布に基づいて値を出力させ，それに従い行動正規分布の初期中心値を0とする中心値と標準偏差の変化は実際にとった行動との1／2 このようなシミュレーションにおいて各ライトに2つの学習を適用します．Ｑ－Ｌｅａｒｎｉｎｇでは各照明は，＋ｘ［cd］，－ｘ［cd］という二つの行動から選択を行うものとし，行動選択にはe-greedyを用いるものとします．今回，εの値は0．2としています． Actor-Criticでは正規分布に基づいて連続的な値を出力させ，それに従って行動させます．初期の正規分布の中心値は0とし，中心値と標準偏差は実際に選択された行動との中点をとるものとします． Intelligent Systems Design Lab. Doshisha Univ.

人のいる地点の照度の履歴学習により目標状態へ到達するまでのステップ数が少なくなる
それぞれの学習法で，どのような履歴で人のいる地点の照度が変化しているかを見てみます．横軸は，ステップ，すなわち全てのライトが何回動作を行ったかを示し，縦軸はそのときの人のいる地点の照度を示します．この色の付いている部分が人が快適に感じる照度です． Q-Learningの例を見ますと，最初の試行では，どのような行動をすればよいかを学習していないため，動くので目標の状態に到達するまでに多くのステップを必要とします．しかし，学習を進めるに従い，直線的に目標へと向かうようになります．これはActor-Criticにおいても同様の傾向を示します．では，目標に至るまでのステップ数がどのように減少しているのかについてそれぞれ見てみたいと思います．学習により目標状態へ到達するまでのステップ数が少なくなる Intelligent Systems Design Lab. Doshisha Univ.

目標状態までのStep数の収束大きな値を選択させるとステップ数は小さくなる
まず，Q-Learningをみます．ここでは，Q-Learningが選択する行動を＋10［cd］と－10［cd］させる場合，20［cd］させるとき，40［cd］させるとき，200［cd］させるときの4つについて見てみます． 10［cd］という値で見てみますと，10［cd］ライトの明るさを上下させても人のいる地点の照度はあまり変わらないため，学習によって収束がおきません．選択される行動は大きいほど低いステップ数で目標状態に到達しています．これに対して，actor-criticでは初期の標準偏差を10としたときも収束しています．これは，正規分布の初期の標準偏差は広がりもするためであると考えられます．こちらでも値を大きくすると少ないステップ数で目標まで到達しますが，Q-Learningほどのパラメータによる差は見られません．大きな値を選択させるとステップ数は小さくなる Intelligent Systems Design Lab. Doshisha Univ.

機器が故障したときの柔軟な対応各学習手法で100回の学習後，目標に到達したときの障害を想定他の機器が柔軟に対処することが望ましい
200という値で好成果が得られたため，それぞれについて機器が故障したときの柔軟な対応についての検討を行います．ここでは，100回学習を行い，目標に到達しているときに右のライトが故障してしまうことを想定します．このような場合，他の機器が柔軟に補うことが望ましくなります．行動選択　　Q-Learning：±200[cd]から選択　　Actor-Critic：初期標準偏差＝200 Intelligent Systems Design Lab. Doshisha Univ.

障害時の行動(Q-Learning) 一つのライトの動作が大きいため，柔軟な対応が不可能
上のグラフは人のいる地点の照度，下のグラフはそのときの各ライトの光度を示しています．目標に3つのライトでこのようにして到達します．このとき右のライト，すなわちしたのグラフにおける赤い千で表されているものですが，これが故障したとしますと，その影響で人のいる地点の照度がさがります．これによりたのライトが再び動き始めるわけですが，同じ動作を繰り返してしまいます．これは，一つ一つのライトの動作が大きいため，全体が少しずつ上がるということが学習されていないためであると考えられます．一つのライトの動作が大きいため，柔軟な対応が不可能 Intelligent Systems Design Lab. Doshisha Univ.

障害時の行動(Actor-Critic)
これに対して，同様に600［cd］で照らしている右のライトが故障してしまった場合をActor-Criticについてみてみると，下がった状態から，各ライトが少しずつ上がることによって，目標へとコンスタントに近づこうとすることが分かります．このように，微調整的ものが可能となるのは，Actor-Criticにおいて，連続的な値を用いているためと考えられます．個々の機器が少しずつ明るくなることによって調整を行う Intelligent Systems Design Lab. Doshisha Univ.

まとめ知的ネットワークシステムの提案 Q-LearningとActor-Criticの比較 Actor-Criticが有効である
知的人工物をネットワークに接続することにより様々な要求に対応可能なシステムを目指す Q-LearningとActor-Criticの比較 Q-Learningではパラメータへの依存が大きい Actor-Criticではパラメータへの依存が少ないセンス・ジャッジ・アクトをそなえた知的人工物をネットワークに接続することにより，さまざまな要求を各機器が持つ可能性を超えて達成可能となるシステムを目指しています． Judge部が参照する判断基準を可変にするため，強化学習を用いて判断基準を自身で獲得させることが可能となりますが， Q-LearningとActor-Criticを検討した結果，Actor-Criticが今回のような環境にはより適切であると言うことが分かりました．以上で発表を終わらせていただきます． Actor-Criticが有効である Intelligent Systems Design Lab. Doshisha Univ.

Intelligent Systems Design Lab. Doshisha Univ.

以降：参考資料 Intelligent Systems Design Lab. Doshisha Univ.

知的ネットワークシステム知的人工物をネットワークに接続するシステム他の機器のセンス・アクトを利用可能システム全体で利用の可能性が広がる
しかしながら，そのような知的人工物をネットワークに接続することによって，他の機器の有するセンサや駆動部を有効に使用することができるようになるため，その知的人工物がネットワークに接続されたシステム全体の可能性は，接続される知的人工物の数の多さと共に拡大していきます．他の機器のセンス・アクトを利用可能システム全体で利用の可能性が広がる Intelligent Systems Design Lab. Doshisha Univ.

Judge部の問題点判断基準判断基準が固定書き換え部柔軟な対応が困難判断基準の書き換え実動作部強化学習
各知的人工物は，環境を認識することによって最適な行動を出力するため，その環境を判断するための判断基準を有します．この判断基準は，はじめから設計者や利用者が設定しておくことも可能ですが，目標とするのはどのような機器がネットワークに接続されるか分からないものであるため，柔軟な対応が要求され，固定された判断基準では対応することが不可能です．従って，柔軟に判断基準を書き換えられるようにする必要があります．そのためにはその判断基準があっているか判断し，もしも判断基準をより最適なものへと変更可能であれば書き換える．このような要素が必要になります．これは，判断基準の上位にさらにSense・Judge・Actのサイクルができていることに他なりません．今回は，この判断基準の書き換えの部分に，試行錯誤による学習制御の枠組みである，強化学習を採用しました．強化学習 Intelligent Systems Design Lab. Doshisha Univ.

TD誤差学習 St St+1 報酬Ｒ α TD誤差 γ V (St＋１) -V(St) V(St+1 ) V(St)
γ：割引率(0≦γ ≦ 1) α：学習率(0＜γ ≦ 1 ) Intelligent Systems Design Lab. Doshisha Univ.

Actor-Criticにおける正規分布の中心値
Intelligent Systems Design Lab. Doshisha Univ.

Actor-Criticを用いた知的ネットワークシステムの提案

Similar presentations

Presentation on theme: "Actor-Criticを用いた知的ネットワークシステムの提案"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

Actor-Criticを用いた 知的ネットワークシステムの提案

Similar presentations

Presentation on theme: "Actor-Criticを用いた 知的ネットワークシステムの提案"— Presentation transcript:

Similar presentations

About project

フィードバック

Actor-Criticを用いた知的ネットワークシステムの提案

Presentation on theme: "Actor-Criticを用いた知的ネットワークシステムの提案"— Presentation transcript: