知的ネットワークシステムへの強化学習の適用

知的ネットワークシステムへの強化学習の適用
- Q-Learningによる知的照明システムの構築 - ○冨田浩司（同志社大院）廣安知之（同志社大工）三木光範（同志社大工）同志社大学大学院の冨田です．ただいまから，知的ネットワークシステムへの強化学習の適用についての発表をさせていただきます．知的システムデザイン研究室・同志社大学

研究背景「知的ネットワークシステム」の提案近年，多くの機器やシステムは「知的」に，かつ「ネットワーク化」の流れにある．
　近年，多くの機器やシステムは「知的」に，かつ「ネットワーク化」の流れにある．ホームネットワーク：家庭内機器のネットワーク化 ITS（高度道路交通システム）：人・道路・車のネットワーク化「知的ネットワークシステム」の提案近年，多くの機器やシステムというのは知的に，かつネットワーク化の流れにあります．例えば，家庭内機器をネットワークで結ぶホームネットワーク，人・道路・車をネットワークで結ぶITSなどがあり，（今後，あらゆる機器がネットワーク化される傾向にあります．）そしてこれからは，それらの機器を使った具体的なネットワークシステムの構成方法の検討が必要であり，我々は知的ネットワークシステムを提案しています。そして，現在，照明システムを用いて本システムの基礎的な検討を行っています．知的照明システムを用いた基礎的な検討自律制御に強化学習を適用知的システムデザイン研究室・同志社大学

1 ネットワークに接続する機器は知的人工物である． 2 ユーザは要求する目的をネットワークに与えることで，
知的ネットワークシステムシステム概要知的人工物をネットワーク化したシステムシステムの特徴 1 ネットワークに接続する機器は知的人工物である． 2 ユーザは要求する目的をネットワークに与えることで，個々の知的人工物が自律的に動作する．知的ネットワークシステムとは，最近よく見られる知的な機器を知的人工物という枠組みでとらえ，それらの知的人工物をネットワーク化したシステムです．特徴は，ネットワークに接続する機器が知的人工物であること．本システムは，ネットワークにユーザが要求する目的を与えておくことで，個々の機器が自律的に有効に動作するというシステムです．知的システムデザイン研究室・同志社大学

知的人工物知的人工物は達成すべき目的があり，知的性質を使って自律的な動作する．知的性質
　知的人工物は達成すべき目的があり，知的性質を使って自律的な動作する．知的性質 Sense，Judge，Act の3要素を持つ構造自動ドア例 Sense Judge Act 目的：スムーズな通行の促進 Sense 人間では，知的人工物とは何なのかについて説明しますと，知的人工物というのは必ず達成すべき目的を持ち，その目的を満たすよう知的性質を使って自律的な動作を行うことができます．知的性質とは，外部の環境をセンスし，その情報を元に判断を行い，その結果適切な動作を行うというsense，judge，actの3要素で構成されたものです．例えば，自動ドアなども知的人工物であり，その目的は人のスムーズな通行の促進であり，そのため人間をセンスし，その有無により，ドアの開閉を制御するということになります． Judge 人間の有無 Act ドアの開閉制御知的システムデザイン研究室・同志社大学

知的ネットワークシステムの構成知的人工物が必ず持つ知的性質を利用して，その目的をネットワークから新しく与えて変えることにより，各知的人工物を自律的に動作させる． Network 光Sense Judge Act Judge 目的人Sense Act 照明自動ドア他にも知的な照明やエアコン，洗濯機などの知的人工物を多数ネットワーク化することにより，知的人工物が必ず持つ知的性質を利用して，その達成すべき目的をネットワークから新しく与えて変えることにより，各知的人工物を目的方向へ向かわせます．エアコン温度Sense Judge Act 汚れSense Act 洗濯機 Judge 知的システムデザイン研究室・同志社大学

本システムの特徴① 1 Network 目的ネットワークに目的を与えておくことで，各機器が自律的に動作し，目的を達成する．
こうすることにより，本システムの特徴は次の５つが挙げられます．まず，１つめの特徴としまして，ネットワークに目的を流しておくことで各機器が自律的に動作し，目的を達成できることが挙げられます．知的システムデザイン研究室・同志社大学

機器のネットワークへの参入・離脱が容易である．
本システムの特徴② 2 機器のネットワークへの参入・離脱が容易である．目的を自律的に取り込むネットワークへの参入・離脱の設定が不要目的２つめの特徴としまして，機器のネットワークへの参入・離脱が容易であることが挙げられます．本システムでは，各機器はネットワークに接続されると目的を自律的に取り込むため，参入・離脱の設定が不要です． Judge Judge Judge Sense Act Sense Act Sense Act 知的システムデザイン研究室・同志社大学

1つの機器では不可能な作業を行うことができる．
本システムの特徴③ 3 1つの機器では不可能な作業を行うことができる．ネットワーク全体で目的を満たす 5台→5台で，10台→10台で作業を行う Judge Judge Judge ３つめの特徴としまして，１つの機器では不可能な作業を行うことができます．本システムでは，ネットワーク全体で目的を満たすよう動作するため，そのときネットワーク化されている機器，５台なら５台，１０台なら１０台で目的を満たします． Sense Act Sense Act Sense Act 動作動作動作知的システムデザイン研究室・同志社大学

機器の故障時による機能低下を他機器で対処できる．
本システムの特徴④ 4 機器の故障時による機能低下を他機器で対処できる．目的を満たした状態の維持 5台→4台で，10台→9台で作業を行う × Judge Sense Judge Act Judge ４つめの特徴としまして，機器の故障時による機能低下を他機器で対処できることが挙げられます．本システムでは目的を満たした状態を維持し続けるため，５台なら残りの４台，１０台なら残りの９台で目的を満たします． Sense Act Sense Act 動作動作知的システムデザイン研究室・同志社大学

本システムの特徴⑤ 5 ネットワークの機能を有していれば，システムに接続する知的人工物の種類は問わない．目的の満たし方は一通りでない
知的人工物の種類・台数によって異なる Judge Judge ５つめの特徴としまして，ネットワークの機能を有していれば，システムに接続する知的人工物の種類は問わないことが挙げられます．本システムでは，目的の満たし方は１通りでない場合が多いため，照明やエアコン・冷蔵庫などネットワーク化する知的人工物の種類や台数によって満たし方は異なるということです． Judge 光Sense Act 温度Sense Act 照明エアコン湿度Sense Act 冷蔵庫知的システムデザイン研究室・同志社大学

照明システム具体的な知的ネットワークシステム本システムの基礎的な検討（1）身近なシステムを取り上げることにより，本システムの
有効性が容易にわかること．（2）現在の照明機器における知的化が自動車や飛行機ほど複雑でないこと．（3）シミュレーションを行う際，その実現が容易であること．現在，本システムの基礎的な検討を行うために照明システムに知的ネットワークシステムを適用し，有効性を検証しています．照明システムを用いた理由は身近なシステムを取り上げることにより，本システムの有効性が容易にわかること．などが挙げられます．知的システムデザイン研究室・同志社大学

X [lx] 知的照明システム目的人のいる場所を X[lx] の明るさにせよ Lighting Lighting Lighting
知的照明システムは知的化された照明機器を多数ネットワーク化した構成になっており，ネットワークに与えられる目的は，人が来たら，協力して，その部分にXルクスの明かりをつけろというものです． X [lx] Person 知的システムデザイン研究室・同志社大学

真下に人が来た場合，設定された明かりをつける
知的な照明機器人感知・光感知タイプ設計時の目的：真下に人が来た場合，設定された明かりをつける光Sensor 人Sensor Judge 光束Act Sense 明るさ + 人 Judge 設定照度との比較 Act 光束の制御ネットワーク化する知的照明は人感知・光感知タイプの知的照明であり，外の明るさと人の有無をセンスでき，それに応じて光速を制御できるものを使用しています．知的システムデザイン研究室・同志社大学

各知的照明の自律制御方法強化学習の適用ネットワーク全体での目的の達成度 Ex. 目的照度：100[lx] 問題点：
各知的照明はランダムに光束を制御する．現在の照度：70[lx] 現在の照度：30[lx] 同じ動作を繰り返す再度ランダムに制御そして，各知的照明の制御には，ネットワーク全体での目的の達成度により動作させていました．例えば，目的照度が100ルクスであり，現在の人がいる場所の合計照度が50ルクスである場合に各知的照明はランダムに光束を強めるか弱めるかの制御を行います．この動作により，合計照度が70ルクスに上がった場合は，良い行動をとったと判断し，同じ動作を繰り返します．また，合計照度が３０ルクスに下がった場合は，違う方向性を探すため再度ランダムに制御します．これの繰り返しにより，目的を満たしていくわけですが，しかし，これはランダム性が強く，判断基準を予め設計者が与えているわけなので，柔軟性がありません．より広い環境に適応するためには各機器が判断基準を自律的に獲得できる必要があり，そこで今回は強化学習を適用し，判断基準の自律獲得を試みました．問題点：ランダム性が強く，柔軟性がない強化学習の適用より広い環境に適用するためには判断基準の自律獲得が必要知的システムデザイン研究室・同志社大学

強化学習　移動などの行為を行うAgentが，行為に対する環境からの報酬のみから，適切な行為の学習を行う典型的な自律的学習である． Q-Learning 状態認識器：状態と行動の対のルールベースがあり，各ルールはQ値と呼ばれる重みを持つ．行動選択器： Q値に基づく戦略で次の行動を決定する．学習器：次式に従ってQ値を更新する．今回は強化学習の中でもっともシンプルなアルゴリズムであるQ-learningを用いました．ご存じだと思いますが，Ｑ－ｌｅａｒｎｉｎｇは状態認識器・行動選択器・学習器で構成されており，．状態と行動の対のルールベースにより学習していくものです．知的システムデザイン研究室・同志社大学

各知的照明が持つ状態と行動状態人がいる場所の合計照度行動光束の制御状態：60 行動：2 状態 1 0～5 [lx] 行動 1
+20 [cd] 状態 2 5～10 [lx] 行動 2 -20 [cd] このQ-learningを知的照明の判断基準に用い，学習を重ねることにより新しい判断基準を自律獲得させることを試みました．状態と行動の設定ですが，状態は人がいる場所の合計照度とし，その状態における行動は光束の制御としました．状態は60状態とし，0～300[lx]を５ルクス単位で分割したものです．また，行動は２種類であり，光束２０cdあげる，と，光束を２０cdさげるにしました． … 状態 60 295～300 [lx] 知的システムデザイン研究室・同志社大学

Q-learningを用いた知的照明システム
人を感知した知的照明他の知的照明明るさセンサにより，人がいる場所の照度を取得．ネットワークに流す．ネットワークに流れた人がいる場所の照度を取得．その状態に応じて，ある行動選択手法に従い次の行動を決定し，光束を制御する． Q-learningを用いた知的照明システムのアルゴリズムは次のようになります．まず，人を感知した知的照明は，自らがもつ明るさセンサにより，人がいる場所の照度を取得し，その情報をネットワークに流しておきます．そして，他の知的照明はそのネットワークから流れる情報を取得し，その状態に応じて，光束を強めるのか弱めるのかを決定します．そして，その行動に対する報酬を受けとり， Q値を更新します．報酬は目的照度になったときに正の報酬を与えることにしました．行動に対する報酬を受け取る目的照度になったとき正の報酬を与える． Q値を更新する知的システムデザイン研究室・同志社大学

シミュレーション各知的照明が学習を重ねることにより最適な制御が行えることをシミュレーションにより検証する．要求照度[lx]： 100
知的照明の数： 4台知的照明の最大光度[cd]：1000 ここで，各知的照明が学習を重ねることにより最適な制御が行えることをシミュレーションにより検証します．シミュレーション環境はこのようにしました．普段の実験では１５０ルクスで行っていたのですが，ここでは時間の関係上，１００ルクスで行います．ネットワーク化する知的照明の数は４台で，一台の知的照明の最大光度は１０００カンデラとしました．知的システムデザイン研究室・同志社大学

パラメータ設定 Q値の初期値 0.1 報酬 100 学習率 0.5 割引率 0.9 行動選択方法 Boltzmann選択温度定数 0.2
またQ-learningにおけるパラメータ設定はこのようにしました．温度定数 0.2 知的システムデザイン研究室・同志社大学

シミュレーション知的システムデザイン研究室・同志社大学

実験・学習なしの知的照明システム・Q-learningを用いた知的照明システム目的を達成するまでにかかった時間の比較
ここで，目的を達成するまでにかかった時間について， Q-learningを使用していないランダム性を多く含む従来の学習なしの知的照明システムとＱ-learnmngを用いた知的照明システムで比較を行いました．知的システムデザイン研究室・同志社大学

学習なしの知的照明システムの結果 150 これは学習なしの知的照明システムの結果です．
表の横軸はかかった時間であり，縦軸は人がいる場所の照度です．表には１試行目，１０試行目，３０試行目を表示しています．このシステムでは学習機能がなく，ほとんどランダムに動作するため，１０試行目においては５０ステップかかっていませんが，３０試行目には１５０ステップかかり、試行回数に関わらず時間が不安定なのがわかると思います．知的システムデザイン研究室・同志社大学

Q-learningを用いた知的照明システムの結果
150 一方，Q-learningを用いた知的照明システムでは，１試行目こそは多くの時間を費やしていますが，試行を重ね，学習していくことにより，３０試行目には，５０ステップかかっておらず，学習がきちんとなされていったのがわかると思います．知的システムデザイン研究室・同志社大学

考察 Q-learningを用いることにより，試行回数を重ねることで判断基準が獲得され，常に最適な制御が行えた．
判断基準を予め組み込む必要がなく，これは知的照明システムだけでなく，知的ネットワークシステム全体に対して極めて大きな成果であるといえる．以上の結果より，Q-learningを用いることにより，試行回数を重ねることで判断基準が獲得され，常に最適な制御が行えました．これにより，判断基準を予め考える必要がなく，これは知的照明システムだけでなく，知的ネットワークシステム全体に対して極めて大きな成果であるといえます．知的システムデザイン研究室・同志社大学

知的照明システムの高水準化知的照明システムの問題点問題点（1）判断基準が確立するまでに時間がかかる．
（2）目的や環境が変わると，最適な判断基準も変わるため，その都度学習させる必要がある．知的照明システムの高水準化しかしながら，Q-learningを用いた知的照明システムにも少し問題点があります．それは，判断基準が確立するまでに時間がかかることと目的や環境が変わると，最適な判断基準も変わるため，その都度学習させる必要があるということです．そこで，知的照明システムの改良を試みました．具体的には一度獲得した判断基準および他の知的照明が獲得した判断基準を再利用させることです．こうすることにより，新しくネットワークに接続する知的照明が学習しなくてすみますし，目的が常に変わるような場合にも柔軟に対応できると考えられます．一度獲得した判断基準および他の知的照明が獲得した判断基準を再利用させる．知的システムデザイン研究室・同志社大学

② 各知的照明がデータベースから選択し制御する．
知的照明システムの高水準化 ① 各知的照明はそれぞれ異なった判断基準を獲得しているため，その判断基準をデータベースに蓄積する． ② 各知的照明がデータベースから選択し制御する．どの判断基準を選択すればよいかを決定する上位の判断基準が必要どう実現するかといいますと，各知的照明はそれぞれ異なった判断基準を獲得しているのですが，それら複数の判断基準をデータベースに蓄積しておきまして，各知的照明は動作時に目的に合った判断基準をそのデータベースの中から選択し，自身に取り込み，その判断基準を使って制御させるようにします．こうすることにより，新しくネットワークに接続する知的照明は学習しなくてすむというわけです．しかし，これを実現するためには，各知的照明を少し改良する必要があります．それは各知的照明がデータベースのなかからどの判断基準を選択すればよいかを判断する上位の判断基準が必要だということです．知的システムデザイン研究室・同志社大学

知的照明の階層構造 Sense 目的照度最適な判断基準の決定 Judge Act 判断基準の取得上位のJudge 判断基準の目的照度
Q-learningにより学習させる Act これを知的人工物の観点から説明しますと，従来の制御の上位に，目的照度によって最適な判断基準を決定し，取得するようなsense，judge，actを持つ２階層構造になります．そこで，この最適な判断基準を決定するための上位の判断基準というのをQ-learningにより学習させることにしました．判断基準の取得知的システムデザイン研究室・同志社大学

各知的照明が持つ状態と行動状態目的の照度行動取り込む判断基準の決定状態：30 行動：10 状態 1 0～10 [lx] 行動 1
判断基準Aを選択状態 2 10～20 [lx] 行動 2 判断基準Bを選択状態は目的照度とし，行動は自身に取り込む判断基準の決定でありまして，状態は目的照度を10ルクス単位で分割した30状態で，行動はデータベース化されている判断基準の数だけ分必要となりますが，ここでは最大10個までとしました． … … 行動 10 判断基準Jを選択状態 30 290～300 [lx] 知的システムデザイン研究室・同志社大学

知的照明の判断基準の選択ネットワークに与えられた目的を取得その目的に応じて，ある行動選択手法に従い
どの判断基準を取り込んでくるかを決定する．選択した判断基準を用いて，制御する．各知的照明が行う判断基準の自律選択のアルゴリズムは次のようになります．まず，目的の取得します．そして，その目的に応じて，どの判断基準を取り組んでくるかを決定します．そして，取り込んだ判断基準を用いて制御を行います．ここで，目的を満たすのにかかった時間に伴って，正の報酬，負の報酬を与え，それらの情報をもとにQ値を更新し，学習させていきます．行動に対する報酬を受け取る目的を満たすまでの時間により，正の報酬，負の報酬を与える． Q値を更新する知的システムデザイン研究室・同志社大学

判断基準の蓄積方法 70[lx]の判断基準群判断基準の取得判断基準のパターン化 A B C 70[lx] Database
類似する判断基準のパターン化判断基準のパターン化 A B C 新しいパターンのみを蓄積判断基準の蓄積方法はまず，各知的照明それぞれが獲得した判断基準というのをある程度パターン化します．パターン化する理由はQ値の値が多少異なるだけでほとんど同じ制御を行う判断基準が多いからです．そして，その中で新しいパターンのみを蓄積していきます．例えば，新しく獲得された７０ルクスの判断基準が６つあったとしたら，類似する判断基準をパターン化することでABCの３種類にし，そのなかで，既存のデータベースにない，A，Cのみをデータベースに蓄積します． 70[lx] Database 目的ごとに蓄積 B A C 知的システムデザイン研究室・同志社大学

判断基準のパターン化すべての状態における行動のQ値を比較し，ファジィ関数を用いて，Q値を３段階（Large>Medium>Small）に変更する．状態 1 状態 2 Ex. 行動 1 Q値： 0.3 行動 1 Q値：10.3 行動 2 Q値： 0.1 行動 2 Q値： 0.1 そして，パターン化には，ファジィ関数を用いて，すべての状態における行動のQ値の差の程度によって Q値をLarge，medium，smallの３種類に変更させます．例えば，そのような判断基準がある場合に状態１ではQ値にあまり差がないため，両方をmediumに変更し，状態２ではQ値に差があるため，Lage・とsmall という風にパターン化しました．行動 1 Q値：Medium 行動 1 Q値：Large 行動 2 Q値：Medium 行動 2 Q値：Small 知的システムデザイン研究室・同志社大学

70 [lx] シミュレーション目的に合った適切な判断基準をQ-learningによって獲得できるかどうかを検証する． Lighting
ここで，シミュレーションを行います．このシミュレーションでは，目的に合った適切な判断基準を Q-learniigによって自律的に獲得できるかどうかを検証しました．目的照度は70[lx]とし，具体的には，人の真上に設置した知的照明①と人から離れた場所に設置した知的照明②において適切な判断基準が選択されたかどうかを検証しました．． 70 [lx] Person 知的システムデザイン研究室・同志社大学

× 目的照度:70[lx]に蓄積された判断基準 10 種類 ◎ ○ △ 最適な判断基準不適切な判断基準良好な判断基準
Criterion A 10 種類不適切な判断基準 × Criterion B ○ 良好な判断基準 Criterion C Criterion D Criterion E Criterion H 目的照度70[lx]に蓄積された判断基準は次の10種類で，最適な判断基準として，criterionAを，不適切な判断基準としてcriterionBを，そして，良好な判断基準として，criterionC，Dを，良好ではない判断基準として，criterionE，F，G，H，I，J を容易しました． △ 良好ではない判断基準 Criterion F Criterion I Criterion G Criterion J 知的システムデザイン研究室・同志社大学

Q-learningにおけるパラメータ設定
0.1 報酬学習率 0.5 割引率 0.9 行動選択方法 Boltzmann選択 Q-learningに必要なパラメータ設定はこのように行いました．温度定数 0.2 知的システムデザイン研究室・同志社大学

蓄積に必要なパラメータ設定 Large = 1.0 パターン化する際に用いる定数 Medium = 0.1 Small = 0.01
ファジィ関数また蓄積に必要なパラメータは次に示す通りで，ファジィ関数はこのようにしました．知的システムデザイン研究室・同志社大学

Lighting①：人の真上に設置した知的照明
Criterion A 最適な判断基準 ◎ 結果です．これは，人の真上に設置した知的照明①において，先ほど示した10種類の判断基準のQ値がどのように変わっていくのかを示したグラフです．横軸は試行回数であり，縦軸はそのときのQ値です．グラフからわかるように，知的照明①では判断基準Aが最適だと判断しているため，知的照明①は有効に判断基準を選択できているのがわかると思います．知的システムデザイン研究室・同志社大学

Lighting②：人から遠くに設置した知的照明
Criterion I △ 良好ではない判断基準一方，これは人から遠くに設置した知的照明②におけるグラフです．知的照明②では良好ではない判断基準Iが最適だと判断していますが，これは，目的照度地点が遠いため，自分の行動がほとんど影響せず，Q値に反映しないため，当然の結果だと言えます．知的システムデザイン研究室・同志社大学

考察人の近くに設置した知的照明では，どの判断基準が最適なのかを学習することにより，適切な判断基準を自動選択することができた．
人から離れた場所に設置した知的照明では，自身の動作があまりQ値に反映されないため，任意の判断基準が選ばれた．人の近くに設置した知的照明では，どの判断基準が最適なのかを学習することにより，適切な判断基準を自動選択することができました．また，人から離れた場所に設置した知的照明では，自身の動作があまりQ値に反映されないため，当然の結果ですが，任意の判断基準が選ばれました．知的システムデザイン研究室・同志社大学

知的ネットワークシステムへの強化学習の適用を行った．
結論知的ネットワークシステムへの強化学習の適用を行った．・知的照明システムにQ-learningを適用することで，判断基準の自動生成を行うことができた．・目的の達成時間が短縮でき，効率化が行えた．・知的照明システムの高水準化により，目的に適した判断基準の自律的選択ができた．結論の述べますと，本発表では，知的ネットワークシステムへの強化学習の適用を行いました．具体的には，知的ネットワークシステムの1つである知的照明システムにおいて，各機器の制御にQ-learningを用適用することで，判断基準の自動生成を行うことができ，従来の手法よりも目的を達成するまでの時間が常に短縮され，効率化が行えました．また，知的照明システムの高水準化により，目的に適した判断基準の自律的選択がある程度できました．知的システムデザイン研究室・同志社大学

今後の課題・多目的問題・目的，動作情報，位置情報などのプロトコル問題・誤り情報・目的を満たせない場合の対処策
・大規模なシステムへの適応今後の課題は目的を２つ流したり，人が増えた場合などの多目的問題については検討が必要です．また，目的，動作情報，位置情報などのプロトコル問題や誤り情報や目的を満たせない場合の対処策などが課題として残ります．また，大規模なシステムへの適応も必要であると思われます．知的システムデザイン研究室・同志社大学

知的システムデザイン研究室・同志社大学

工学的人工物人工物：人為的に作られた「もの」の総称．（1）工学的人工物：建物，自動車，家電製品
　人工物：人為的に作られた「もの」の総称．（1）工学的人工物：建物，自動車，家電製品（2）社会的人工物：言語，規則，法律（3）芸術的人工物：小説，絵画，彫刻（4）その他の人工物：品種改良した農作物など工学的人工物電子デバイス技術と情報処理技術により実現でき，明確な目的を持ち，その機能や性能が評価できる．人工物について説明します．人工物とは人為的に作れら他「もの」の総称であり，建物や自動車などの工学的人工物，法律などの社会的人工物，絵画などの芸術的人工物，そして，品種改良した農作物などの人工物があります．そのなかで，著者らの一人は明確な目的を持ち，その機能や性能が評価できる工学的人工物に限定し，基本的な考察を行いました．知的システムデザイン研究室・同志社大学

知的照明システムの流れ（1）複数の知的照明をネットワークに接続する．（2）目的をネットワークに与える．
（3）知的照明は目的を取り込み，目的に合った判断基準を生成する．（4）人が入室するまで待機する．（5）人が入室したと判断した場合に，各種センサを用い，現在の人の位置を把握し，要求された明るさになるよう制御する．具体的な各知的照明の自律動作のアルゴリズムは極めて単純であり，．まず，各知的照明は，ネットワークに接続される目的を自律的に取り込み，内部の判断部を先ほど述べました目的の達成度という判断基準に変更します．そして，まず適当に動作を行ってみて，その都度，人間の真上にいる知的照明から，その場所の合計照度の情報をネットワークを介して取得します．そして各自が持つ判断基準により，その情報と前回照度を比較し，ネットワーク全体での動作の有効性をみます．目的に近づいていれば，もう一度その方向への動作を行い，遠ざかっていれば，その状態からもう一度ランダムに動作します．この動作を各知的照明が目的を満たすまで繰り返すだけで必ず目的を満たすように動作することができます．（6）各知的照明は常に目的とのズレをチェックし，トラブルなどが起きた場合は再度（5）の動作を行う．（7）人が退室したと判断した場合に，消灯し，待機状態（4）に戻る．知的システムデザイン研究室・同志社大学

Ｑ－lｅａｒｎｉｎｇにより獲得された判断基準
light[0] Qs0a Qs0a Qs1a Qs1a Qs2a Qs2a Qs3a Qs3a 　　　＜省略＞ Qs18a Qs18a Qs19a Qs19a Qs20a Qs20a Qs21a Qs21a Qs22a Qs22a Qs23a Qs23a q q q q q q q q q q q q q q q q q light[1] Qs0a Qs0a Qs1a Qs1a Qs2a Qs2a 　　　＜省略＞ Qs19a Qs19a Qs20a Qs20a Qs21a Qs21a Qs22a Qs22a Qs23a Qs23a Qs24a Qs24a Qs25a Qs25a q q q q q q q q q q q q q Ｑ－lｅａｒｎｉｎｇにより獲得された判断基準知的ネットワークシステムの1つである知的照明システムにおいて，各機器の制御に代表的な強化学習であるQ-learningを用いることで，従来の手法よりも効率よく目的を達成することがわかった．また，判断基準を自動生成できるということは，判断基準を予め与えている従来の手法に比べて，極めて柔軟性が高いと言える．知的システムデザイン研究室・同志社大学

知的ネットワークシステムへの強化学習の適用

Similar presentations

Presentation on theme: "知的ネットワークシステムへの強化学習の適用"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

知的ネットワークシステムへの 強化学習の適用

Similar presentations

Presentation on theme: "知的ネットワークシステムへの 強化学習の適用"— Presentation transcript:

Similar presentations

About project

フィードバック

知的ネットワークシステムへの強化学習の適用

Presentation on theme: "知的ネットワークシステムへの強化学習の適用"— Presentation transcript: