Presentation is loading. Please wait.

Presentation is loading. Please wait.

知的ネットワークシステムへの 強化学習の適用

Similar presentations


Presentation on theme: "知的ネットワークシステムへの 強化学習の適用"— Presentation transcript:

1 知的ネットワークシステムへの 強化学習の適用
- Q-Learningによる知的照明システムの構築 - ○冨田浩司(同志社大院) 廣安知之(同志社大工) 三木光範(同志社大工) 同志社大学大学院の冨田です. ただいまから,知的ネットワークシステムへの強化学習の適用 についての発表をさせていただきます. 知的システムデザイン研究室・同志社大学

2 研究背景 「知的ネットワークシステム」の提案 近年,多くの機器やシステムは「知的」に,かつ 「ネットワーク化」の流れにある.
 近年,多くの機器やシステムは「知的」に,かつ 「ネットワーク化」の流れにある. ホームネットワーク: 家庭内機器のネットワーク化 ITS(高度道路交通システム): 人・道路・車のネットワーク化 「知的ネットワークシステム」の提案 近年,多くの機器やシステムというのは知的に,かつネットワーク化の流れ にあります. 例えば,家庭内機器をネットワークで結ぶホームネットワーク, 人・道路・車をネットワークで結ぶITSなどがあり, (今後,あらゆる機器がネットワーク化される傾向にあります.) そしてこれからは,それらの機器を使った具体的なネットワークシステムの 構成方法の検討が必要であり, 我々は知的ネットワークシステムを提案しています。 そして,現在,照明システムを用いて本システムの 基礎的な検討を行っています. 知的照明システムを用いた基礎的な検討 自律制御に強化学習を適用 知的システムデザイン研究室・同志社大学

3 1 ネットワークに接続する機器は知的人工物である. 2 ユーザは要求する目的をネットワークに与えることで,
知的ネットワークシステム システム概要 知的人工物をネットワーク化したシステム システムの特徴 1 ネットワークに接続する機器は知的人工物である. 2 ユーザは要求する目的をネットワークに与えることで, 個々の知的人工物が自律的に動作する. 知的ネットワークシステムとは,最近よく見られる 知的な機器を知的人工物 という枠組みでとらえ,それらの知的人工物をネットワーク化したシステムです. 特徴は, ネットワークに接続する機器が知的人工物であること. 本システムは,ネットワークにユーザが要求する目的を与えて おくことで,個々の機器が自律的に有効に動作するというシステムです. 知的システムデザイン研究室・同志社大学

4 知的人工物 知的人工物は達成すべき目的があり,知的性質を 使って自律的な動作する. 知的性質
 知的人工物は達成すべき目的があり,知的性質を 使って自律的な動作する. 知的性質 Sense,Judge,Act の3要素を持つ構造 自動ドア Sense Judge Act 目的: スムーズな通行の促進 Sense 人間 では,知的人工物とは何なのかについて説明しますと, 知的人工物というのは必ず達成すべき目的を持ち, その目的を満たすよう知的性質を使って 自律的な動作を行うことができます. 知的性質とは,外部の環境をセンスし,その情報を元に判断を行い, その結果適切な動作を行うというsense,judge,actの3要素で 構成されたものです. 例えば,自動ドアなども知的人工物であり,その目的は人のスムーズ な通行の促進であり,そのため 人間をセンスし,その有無により,ドアの開閉を制御するということになります. Judge 人間の有無 Act ドアの開閉制御 知的システムデザイン研究室・同志社大学

5 知的ネットワークシステムの構成 知的人工物が必ず持つ知的性質を利用して,その目的をネットワークから新しく与えて変えることにより,各知的人工物を自律的に動作させる. Network 光Sense Judge Act Judge 目的 人Sense Act 照明 自動ドア 他にも知的な照明やエアコン,洗濯機などの 知的人工物を多数ネットワーク化することにより, 知的人工物が必ず持つ知的性質を利用して, その達成すべき目的をネットワークから新しく与えて変えることにより, 各知的人工物を目的方向へ向かわせます. エアコン 温度Sense Judge Act 汚れSense Act 洗濯機 Judge 知的システムデザイン研究室・同志社大学

6 本システムの特徴① 1 Network 目的 ネットワークに目的を与えておくことで,各機器が 自律的に動作し,目的を達成する.
こうすることにより, 本システムの特徴は次の5つが挙げられます. まず,1つめの特徴としまして,ネットワークに目的を流しておくことで 各機器が自律的に動作し,目的を達成できることが挙げられます. 知的システムデザイン研究室・同志社大学

7 機器のネットワークへの参入・離脱が容易である.
本システムの特徴② 2 機器のネットワークへの参入・離脱が容易である. 目的を自律的に取り込む ネットワークへの参入・離脱の設定が不要 目的 2つめの特徴としまして,機器のネットワークへの参入・離脱が 容易であることが挙げられます. 本システムでは,各機器はネットワークに接続されると目的を 自律的に取り込むため, 参入・離脱の設定が不要です. Judge Judge Judge Sense Act Sense Act Sense Act 知的システムデザイン研究室・同志社大学

8 1つの機器では不可能な作業を行うことができる.
本システムの特徴③ 3 1つの機器では不可能な作業を行うことができる. ネットワーク全体で目的を満たす 5台→5台で,10台→10台で作業を行う Judge Judge Judge 3つめの特徴としまして,1つの機器では不可能な作業を 行うことができます. 本システムでは,ネットワーク全体で目的を満たすよう動作するため, そのときネットワーク化されている機器, 5台なら5台,10台なら10台で目的を満たします. Sense Act Sense Act Sense Act 動作 動作 動作 知的システムデザイン研究室・同志社大学

9 機器の故障時による機能低下を他機器で対処できる.
本システムの特徴④ 4 機器の故障時による機能低下を他機器で対処できる. 目的を満たした状態の維持 5台→4台で,10台→9台で作業を行う × Judge Sense Judge Act Judge 4つめの特徴としまして,機器の故障時による機能低下を 他機器で対処できることが挙げられます. 本システムでは目的を満たした状態を維持し続けるため, 5台なら残りの4台,10台なら残りの9台で目的を満たします. Sense Act Sense Act 動作 動作 知的システムデザイン研究室・同志社大学

10 本システムの特徴⑤ 5 ネットワークの機能を有していれば, システムに接続する知的人工物の種類は問わない. 目的の満たし方は一通りでない
知的人工物の種類・台数によって異なる Judge Judge 5つめの特徴としまして,ネットワークの機能を有していれば, システムに接続する知的人工物の種類は問わないことが 挙げられます. 本システムでは,目的の満たし方は1通りでない場合が多いため, 照明やエアコン・冷蔵庫など ネットワーク化する知的人工物の種類や台数によって 満たし方は異なるということです. Judge 光Sense Act 温度Sense Act 照明 エアコン 湿度Sense Act 冷蔵庫 知的システムデザイン研究室・同志社大学

11 照明システム 具体的な知的ネットワークシステム 本システムの基礎的な検討 (1) 身近なシステムを取り上げることにより,本システムの
有効性が容易にわかること. (2) 現在の照明機器における知的化が自動車や飛行機ほど 複雑でないこと. (3) シミュレーションを行う際,その実現が容易であること. 現在,本システムの基礎的な検討を行うために 照明システムに知的ネットワークシステムを適用し, 有効性を検証しています. 照明システムを用いた理由は 身近なシステムを取り上げることにより,本システムの 有効性が容易にわかること.などが挙げられます. 知的システムデザイン研究室・同志社大学

12 X [lx] 知的照明システム 目的 人のいる場所を X[lx] の明るさにせよ Lighting Lighting Lighting
知的照明システムは 知的化された照明機器を多数ネットワーク化した構成になっており, ネットワークに与えられる目的は,人が来たら,協力して, その部分にXルクスの明かりをつけろというものです. X [lx] Person 知的システムデザイン研究室・同志社大学

13 真下に人が来た場合,設定された明かりをつける
知的な照明機器 人感知・光感知タイプ 設計時の目的: 真下に人が来た場合,設定された明かりをつける 光Sensor 人Sensor Judge 光束Act Sense 明るさ + 人 Judge 設定照度との比較 Act 光束の制御 ネットワーク化する知的照明は人感知・光感知タイプの知的照明であり, 外の明るさと人の有無をセンスでき,それに応じて光速を制御でき るものを使用しています. 知的システムデザイン研究室・同志社大学

14 各知的照明の自律制御方法 強化学習 の適用 ネットワーク全体での目的の達成度 Ex. 目的照度:100[lx] 問題点:
各知的照明はランダムに光束を制御する. 現在の照度:70[lx] 現在の照度:30[lx] 同じ動作を繰り返す 再度ランダムに制御 そして, 各知的照明の制御には, ネットワーク全体での目的の達成度により動作させていました. 例えば,目的照度が100ルクスであり, 現在の人がいる場所の合計照度が50ルクスである場合に 各知的照明はランダムに光束を強めるか弱めるかの制御を行います. この動作により,合計照度が70ルクスに上がった場合は, 良い行動をとったと判断し,同じ動作を繰り返します. また,合計照度が30ルクスに下がった場合は, 違う方向性を探すため再度ランダムに制御します. これの繰り返しにより,目的を満たしていくわけですが, しかし,これはランダム性が強く, 判断基準を予め設計者が与えているわけなので,柔軟性がありません. より広い環境に適応するためには各機器が判断基準を 自律的に獲得できる必要があり, そこで今回は強化学習を適用し,判断基準の自律獲得を試みました. 問題点: ランダム性が強く,柔軟性がない 強化学習 の適用 より広い環境に適用するためには判断基準の自律獲得が必要 知的システムデザイン研究室・同志社大学

15 強化学習  移動などの行為を行うAgentが,行為に対する環境からの報酬のみから,適切な行為の学習を行う典型的な自律的学習である. Q-Learning 状態認識器: 状態と行動の対のルールベースがあり,各ルールはQ値と呼ばれる重みを持つ. 行動選択器: Q値に基づく戦略で次の行動を決定する. 学習器: 次式に従ってQ値を更新する. 今回は強化学習の中で もっともシンプルなアルゴリズムであるQ-learningを用いました. ご存じだと思いますが, Q-learningは状態認識器・行動選択器・学習器で構成されており,. 状態と行動の対のルールベースにより学習していくものです. 知的システムデザイン研究室・同志社大学

16 各知的照明が持つ状態と行動 状態 人がいる場所の合計照度 行動 光束の制御 状態:60 行動:2 状態 1 0~5 [lx] 行動 1
+20 [cd] 状態 2 5~10 [lx] 行動 2 -20 [cd] このQ-learningを知的照明の判断基準に用い,学習を重ねることにより 新しい判断基準を自律獲得させることを試みました. 状態と行動の設定ですが, 状態は人がいる場所の合計照度とし, その状態における行動は光束の制御としました. 状態は60状態とし,0~300[lx]を5ルクス単位で分割したものです. また,行動は2種類であり,光束20cdあげる,と,光束を20cdさげる にしました. 状態 60 295~300 [lx] 知的システムデザイン研究室・同志社大学

17 Q-learningを用いた知的照明システム
人を感知した知的照明 他の知的照明 明るさセンサにより, 人がいる場所の照度を取得. ネットワークに流す. ネットワークに流れた 人がいる場所の照度を取得. その状態に応じて,ある行動選択手法に従い 次の行動を決定し,光束を制御する. Q-learningを用いた知的照明システム のアルゴリズムは次のようになります. まず,人を感知した知的照明は, 自らがもつ明るさセンサにより, 人がいる場所の照度を取得し, その情報をネットワークに流しておきます. そして,他の知的照明はそのネットワークから流れる情報 を取得し, その状態に応じて,光束を強めるのか弱めるのかを決定します. そして,その行動に対する報酬 を受けとり, Q値を更新します. 報酬は目的照度になったときに正の報酬を与えることにしました. 行動に対する報酬を受け取る 目的照度になったとき 正の報酬を与える. Q値を更新する 知的システムデザイン研究室・同志社大学

18 シミュレーション 各知的照明が学習を重ねることにより最適な制御が行えることをシミュレーションにより検証する. 要求照度[lx]: 100
知的照明の数: 4台 知的照明の最大光度[cd]:1000 ここで,各知的照明が学習を重ねることにより最適な制御が 行えることをシミュレーションにより検証します. シミュレーション環境はこのようにしました. 普段の実験では150ルクスで行っていたのですが, ここでは時間の関係上,100ルクスで行います. ネットワーク化する知的照明の数は4台で, 一台の知的照明の最大光度は1000カンデラとしました. 知的システムデザイン研究室・同志社大学

19 パラメータ設定 Q値の初期値 0.1 報酬 100 学習率 0.5 割引率 0.9 行動選択方法 Boltzmann選択 温度定数 0.2
またQ-learningにおけるパラメータ設定はこのようにしました. 温度定数 0.2 知的システムデザイン研究室・同志社大学

20 シミュレーション 知的システムデザイン研究室・同志社大学

21 実験 ・学習なしの知的照明システム ・Q-learningを用いた知的照明システム 目的を達成するまでにかかった時間の比較
ここで,目的を達成するまでにかかった時間について, Q-learningを使用していないランダム性を多く含む従来の 学習なしの知的照明システムと Q-learnmngを用いた知的照明システムで 比較を行いました. 知的システムデザイン研究室・同志社大学

22 学習なしの知的照明システムの結果 150 これは学習なしの知的照明システムの結果です.
表の横軸はかかった時間であり,縦軸は人がいる場所の照度です. 表には1試行目,10試行目,30試行目を表示しています. このシステムでは学習機能がなく,ほとんどランダムに動作するため, 10試行目においては50ステップかかっていませんが, 30試行目には150ステップかかり、試行回数に関わらず時間が不安定 なのがわかると思います. 知的システムデザイン研究室・同志社大学

23 Q-learningを用いた知的照明システムの結果
150 一方,Q-learningを用いた知的照明システムでは, 1試行目こそは多くの時間を費やしていますが, 試行を重ね,学習していくことにより,30試行目には, 50ステップかかっておらず,学習がきちんと なされていったのがわかると思います. 知的システムデザイン研究室・同志社大学

24 考察 Q-learningを用いることにより,試行回数を重ねることで 判断基準が獲得され,常に最適な制御が行えた.
判断基準を予め組み込む必要がなく,これは知的照明システムだけでなく,知的ネットワークシステム全体に対して極めて大きな成果であるといえる. 以上の結果より,Q-learningを用いることにより, 試行回数を重ねることで判断基準が獲得され,常に最適な制御 が行えました. これにより,判断基準を予め考える必要がなく,これは 知的照明システムだけでなく,知的ネットワークシステム全体に 対して極めて大きな成果であるといえます. 知的システムデザイン研究室・同志社大学

25 知的照明システムの高水準化 知的照明システムの問題点 問題点 (1) 判断基準が確立するまでに時間がかかる.
(2) 目的や環境が変わると,最適な判断基準も変わる ため,その都度学習させる必要がある. 知的照明システムの高水準化 しかしながら,Q-learningを用いた知的照明システムにも 少し問題点があります. それは,判断基準が確立するまでに時間がかかることと 目的や環境が変わると,最適な判断基準も変わるため, その都度学習させる必要があるということです. そこで,知的照明システムの改良を試みました. 具体的には一度獲得した判断基準および他の知的照明が獲得した 判断基準を再利用させることです. こうすることにより, 新しくネットワークに接続する知的照明が学習しなくてすみますし, 目的が常に変わるような場合にも柔軟に対応できると考えられます. 一度獲得した判断基準および他の知的照明が獲得した 判断基準を再利用させる. 知的システムデザイン研究室・同志社大学

26 ② 各知的照明がデータベースから選択し制御する.
知的照明システムの高水準化 ① 各知的照明はそれぞれ異なった判断基準を獲得して いるため,その判断基準をデータベースに蓄積する. ② 各知的照明がデータベースから選択し制御する. どの判断基準を選択すればよいかを決定する 上位の判断基準が必要 どう実現するかといいますと, 各知的照明はそれぞれ異なった判断基準を獲得しているのですが, それら複数の判断基準をデータベースに蓄積しておきまして, 各知的照明は動作時に目的に合った判断基準を そのデータベースの中から選択し,自身に取り込み, その判断基準を使って制御させるようにします. こうすることにより,新しくネットワークに接続する知的照明 は学習しなくてすむというわけです. しかし,これを実現するためには,各知的照明を 少し改良する必要があります. それは各知的照明がデータベースのなかから どの判断基準を選択すればよいかを判断する 上位の判断基準が必要だということです. 知的システムデザイン研究室・同志社大学

27 知的照明の階層構造 Sense 目的照度 最適な判断基準の決定 Judge Act 判断基準の取得 上位のJudge 判断基準の 目的照度
Q-learningにより学習させる Act これを知的人工物の観点から説明しますと, 従来の制御の上位に,目的照度によって最適な判断基準を決定し, 取得するようなsense,judge,actを持つ2階層構造になります. そこで,この最適な判断基準を決定するための 上位の判断基準というのをQ-learningにより学習させることにしました. 判断基準の取得 知的システムデザイン研究室・同志社大学

28 各知的照明が持つ状態と行動 状態 目的の照度 行動 取り込む判断基準の決定 状態:30 行動:10 状態 1 0~10 [lx] 行動 1
判断基準Aを選択 状態 2 10~20 [lx] 行動 2 判断基準Bを選択 状態は目的照度とし, 行動は自身に取り込む判断基準の決定でありまして, 状態は目的照度を10ルクス単位で分割した30状態で, 行動はデータベース化されている判断基準の数 だけ分必要となりますが, ここでは最大10個までとしました. 行動 10 判断基準Jを選択 状態 30 290~300 [lx] 知的システムデザイン研究室・同志社大学

29 知的照明の判断基準の選択 ネットワークに与えられた目的を取得 その目的に応じて,ある行動選択手法に従い
どの判断基準を取り込んでくるかを決定する. 選択した判断基準を用いて,制御する. 各知的照明が行う判断基準の 自律選択のアルゴリズムは次のようになります. まず,目的の取得します. そして,その目的に応じて,どの判断基準を取り組んでくるかを決定します. そして,取り込んだ判断基準を用いて制御を行います. ここで,目的を満たすのにかかった時間に 伴って,正の報酬,負の報酬を与え, それらの情報をもとにQ値を更新し,学習させていきます. 行動に対する報酬を受け取る 目的を満たすまでの時間により, 正の報酬,負の報酬を与える. Q値を更新する 知的システムデザイン研究室・同志社大学

30 判断基準の蓄積方法 70[lx]の判断基準群 判断基準の取得 判断基準のパターン化 A B C 70[lx] Database
類似する判断基準のパターン化 判断基準のパターン化 A B C 新しいパターンのみを蓄積 判断基準の蓄積方法は まず,各知的照明それぞれが獲得した判断基準というのを ある程度パターン化します. パターン化する理由はQ値の値が多少異なるだけでほとんど同じ制御 を行う判断基準が多いからです. そして,その中で新しいパターンのみを蓄積していきます. 例えば,新しく獲得された70ルクスの判断基準が6つあったとしたら, 類似する判断基準をパターン化することでABCの3種類にし, そのなかで,既存のデータベースにない,A,Cのみをデータベース に蓄積します. 70[lx] Database 目的ごとに蓄積 B A C 知的システムデザイン研究室・同志社大学

31 判断基準のパターン化 すべての状態における行動のQ値を比較し,ファジィ関数を用いて,Q値を3段階(Large>Medium>Small)に変更する. 状態 1 状態 2 Ex. 行動 1 Q値: 0.3 行動 1 Q値:10.3 行動 2 Q値: 0.1 行動 2 Q値: 0.1 そして,パターン化には, ファジィ関数を用いて, すべての状態における行動のQ値の差の程度によって Q値をLarge,medium,smallの3種類に変更させます. 例えば,そのような判断基準がある場合に 状態1ではQ値にあまり差がないため,両方をmediumに変更し, 状態2ではQ値に差があるため,Lage・とsmall という風にパターン化しました. 行動 1 Q値:Medium 行動 1 Q値:Large 行動 2 Q値:Medium 行動 2 Q値:Small 知的システムデザイン研究室・同志社大学

32 70 [lx] シミュレーション 目的に合った適切な判断基準をQ-learningによって 獲得できるかどうかを検証する. Lighting
ここで,シミュレーションを行います. このシミュレーションでは,目的に合った適切な判断基準を Q-learniigによって自律的に獲得できるかどうかを検証しました. 目的照度は70[lx]とし, 具体的には, 人の真上に設置した知的照明①と 人から離れた場所に設置した知的照明②において 適切な判断基準が選択されたかどうかを検証しました.. 70 [lx] Person 知的システムデザイン研究室・同志社大学

33 × 目的照度:70[lx]に蓄積された判断基準 10 種類 ◎ ○ △ 最適な判断基準 不適切な判断基準 良好な判断基準
Criterion A 10 種類 不適切な判断基準 × Criterion B 良好な判断基準 Criterion C Criterion D Criterion E Criterion H 目的照度70[lx]に蓄積された判断基準は次の10種類で, 最適な判断基準として,criterionAを, 不適切な判断基準としてcriterionBを, そして,良好な判断基準として,criterionC,Dを, 良好ではない判断基準として,criterionE,F,G,H,I,J を容易しました. 良好ではない判断基準 Criterion F Criterion I Criterion G Criterion J 知的システムデザイン研究室・同志社大学

34 Q-learningにおけるパラメータ設定
0.1 報酬 学習率 0.5 割引率 0.9 行動選択方法 Boltzmann選択 Q-learningに必要なパラメータ設定はこのように行いました. 温度定数 0.2 知的システムデザイン研究室・同志社大学

35 蓄積に必要なパラメータ設定 Large = 1.0 パターン化する際に用いる定数 Medium = 0.1 Small = 0.01
ファジィ関数 また蓄積に必要なパラメータは次に示す通りで, ファジィ関数はこのようにしました. 知的システムデザイン研究室・同志社大学

36 Lighting①: 人の真上に設置した知的照明
Criterion A 最適な判断基準 結果です. これは, 人の真上に設置した知的照明①において, 先ほど示した10種類の判断基準のQ値がどのように変わっていくのかを 示したグラフです. 横軸は試行回数であり,縦軸はそのときのQ値です. グラフからわかるように,知的照明①では判断基準Aが最適だと 判断しているため, 知的照明①は有効に判断基準を選択できているのがわかると思います. 知的システムデザイン研究室・同志社大学

37 Lighting②: 人から遠くに設置した知的照明
Criterion I 良好ではない判断基準 一方,これは 人から遠くに設置した知的照明②におけるグラフです. 知的照明②では良好ではない判断基準Iが 最適だと判断していますが, これは,目的照度地点が遠いため,自分の行動が ほとんど影響せず,Q値に反映しないため,当然の結果だと言えます. 知的システムデザイン研究室・同志社大学

38 考察 人の近くに設置した知的照明では,どの判断基準が最適なのかを学習することにより,適切な判断基準を自動選択することができた.
人から離れた場所に設置した知的照明では,自身の動作があまりQ値に反映されないため,任意の判断基準が選ばれた. 人の近くに設置した知的照明では, どの判断基準が最適なのかを学習することにより,適切な判断基準 を自動選択することができました. また,人から離れた場所に設置した知的照明では, 自身の動作があまりQ値に反映されないため,当然の結果ですが, 任意の判断基準が選ばれました. 知的システムデザイン研究室・同志社大学

39 知的ネットワークシステムへの強化学習の適用を行った.
結論 知的ネットワークシステムへの強化学習の適用を行った. ・知的照明システムにQ-learningを適用することで,判断 基準の自動生成を行うことができた. ・目的の達成時間が短縮でき,効率化が行えた. ・知的照明システムの高水準化により,目的に適した判 断基準の自律的選択ができた. 結論の述べますと, 本発表では,知的ネットワークシステムへの強化学習の適用を行いました. 具体的には, 知的ネットワークシステムの1つである知的照明システムにおいて, 各機器の制御にQ-learningを用適用することで, 判断基準の自動生成を行うことができ, 従来の手法よりも目的を達成するまでの時間が常に短縮され, 効率化が行えました. また,知的照明システムの高水準化により, 目的に適した判断基準の自律的選択がある程度できました. 知的システムデザイン研究室・同志社大学

40 今後の課題 ・多目的問題 ・目的,動作情報,位置情報などのプロトコル問題 ・誤り情報・目的を満たせない場合の対処策
・大規模なシステムへの適応 今後の課題は 目的を2つ流したり,人が増えた場合などの多目的問題 については検討が必要です. また,目的,動作情報,位置情報などのプロトコル問題や 誤り情報や目的を満たせない場合の対処策などが課題として残ります. また,大規模なシステムへの適応も必要であると思われます. 知的システムデザイン研究室・同志社大学

41 知的システムデザイン研究室・同志社大学

42 知的システムデザイン研究室・同志社大学

43 知的システムデザイン研究室・同志社大学

44 知的システムデザイン研究室・同志社大学

45 工学的人工物 人工物:人為的に作られた「もの」の総称. (1) 工学的人工物: 建物,自動車,家電製品
 人工物:人為的に作られた「もの」の総称. (1) 工学的人工物: 建物,自動車,家電製品 (2) 社会的人工物: 言語,規則,法律 (3) 芸術的人工物: 小説,絵画,彫刻 (4) その他の人工物: 品種改良した農作物など 工学的人工物 電子デバイス技術と情報処理技術により実現でき, 明確な目的を持ち,その機能や性能が評価できる. 人工物について説明します. 人工物とは人為的に作れら他「もの」の総称であり, 建物や自動車などの工学的人工物, 法律などの社会的人工物, 絵画などの芸術的人工物, そして,品種改良した農作物などの人工物があります. そのなかで,著者らの一人は 明確な目的を持ち,その機能や性能が評価できる 工学的人工物に限定し,基本的な考察を行いました. 知的システムデザイン研究室・同志社大学

46 知的照明システムの流れ (1) 複数の知的照明をネットワークに接続する. (2) 目的をネットワークに与える.
(3) 知的照明は目的を取り込み,目的に合った判断基準を生成する. (4) 人が入室するまで待機する. (5) 人が入室したと判断した場合に,各種センサを用い,現在の人 の位置を把握し,要求された明るさになるよう制御する. 具体的な各知的照明の自律動作のアルゴリズムは極めて単純であり,. まず,各知的照明は,ネットワークに接続される目的を自律的に取り込み, 内部の判断部を先ほど述べました目的の達成度という判断基準に変更します. そして,まず適当に動作を行ってみて, その都度,人間の真上にいる知的照明から,その場所の合計照度の情報 をネットワークを介して取得します. そして各自が持つ判断基準により,その情報と前回照度を比較し, ネットワーク全体での動作の有効性をみます. 目的に近づいていれば,もう一度その方向への動作を行い, 遠ざかっていれば,その状態からもう一度ランダムに動作します. この動作を各知的照明が目的を満たすまで繰り返すだけで必ず 目的を満たすように動作することができます. (6) 各知的照明は常に目的とのズレをチェックし,トラブルなどが 起きた場合は再度(5)の動作を行う. (7) 人が退室したと判断した場合に,消灯し,待機状態(4)に戻る. 知的システムデザイン研究室・同志社大学

47 Q-learning により 獲得された 判断基準
light[0] Qs0a Qs0a Qs1a Qs1a Qs2a Qs2a Qs3a Qs3a    <省略> Qs18a Qs18a Qs19a Qs19a Qs20a Qs20a Qs21a Qs21a Qs22a Qs22a Qs23a Qs23a q q q q q q q q q q q q q q q q q light[1] Qs0a Qs0a Qs1a Qs1a Qs2a Qs2a    <省略> Qs19a Qs19a Qs20a Qs20a Qs21a Qs21a Qs22a Qs22a Qs23a Qs23a Qs24a Qs24a Qs25a Qs25a q q q q q q q q q q q q q Q-learning により 獲得された 判断基準 知的ネットワークシステムの1つである知的照明システムにおいて, 各機器の制御に代表的な強化学習であるQ-learningを用いることで, 従来の手法よりも効率よく目的を達成することが わかった. また,判断基準を自動生成できるということは, 判断基準を予め与えている従来の手法に比べて, 極めて柔軟性が高いと言える. 知的システムデザイン研究室・同志社大学


Download ppt "知的ネットワークシステムへの 強化学習の適用"

Similar presentations


Ads by Google