知的ネットワークシステムへの 強化学習の適用

Slides:



Advertisements
Similar presentations
三木 光範 (同志社大学工学部) 廣安 知之 (同志社大学工学部) 花田 良子 (同志社大学工学部学部 生) 水田 伯典 (同志社大学大学院) ジョブショップスケジューリング問 題への 分散遺伝的アルゴリズムの適用 Distributed Genetic Algorithm for Job-shop.
Advertisements

ユーザーイメージ収集 インターフェイスの開発
遺伝的アルゴリズムにおける ランドスケープによる問題のクラス分類
3次元nクイーン問題の 解に関する研究 論理工学研究室 伊藤精一
Actor-Criticを用いた 知的ネットワークシステムの提案
最新ファイルの提供を保証する代理FTPサーバの開発
点対応の外れ値除去の最適化によるカメラの動的校正手法の精度向上
パネル型クエリ生成インタフェース画像検索システムの改良
実証分析の手順 経済データ解析 2011年度.
JavaによるCAI学習ソフトウェアの開発
米山研究室紹介 -システム制御工学研究室-
神奈川大学大学院工学研究科 電気電子情報工学専攻
シミュレーション論 Ⅱ 第12回 強化学習.
グループ研究1班 第一章 経営戦略とは何か 雨森 彩 大嶋 健夫 小沢 博之.
遺伝アルゴリズムによる NQueen解法 ~遺伝補修飾を用いた解探索の性能評価~
Copyright 2011 アイデアクラフト 開米瑞浩 All rights reserved.
先端論文紹介ゼミ Role-based Context-specific Multiagent Q-learning
Observable modified Condition/Decision coverage
リンクパワーオフによる光ネットワークの省電力化
EMアルゴリズム クラスタリングへの応用と最近の発展
制約条件の確率的選択に基づく 資源追加削減法の改良 三木 光範(同志社大工) 廣安 知之(同志社大工) ○小林 繁(同志社大院)
IPv6アドレスによる RFIDシステム利用方式
大規模アドホックネットワークにおける 階層的な名前解決法
MPIによる行列積計算 情報論理工学研究室 渡邉伊織 情報論理工学研究室 渡邉伊織です。
サポートベクターマシン によるパターン認識
シミュレーション論 Ⅱ 第12回 様々なシミュレーション手法(3) 強化学習.
KECSフォーラム Intelligent Systems --
協調機械システム論 ( ,本郷) 協調機械システム論 東京大学 人工物工学研究センター 淺間 一.
ベイジアンネット混合モデルによる 強化学習エージェントの方策改善
第25章 単一始点最短路 3節 Bellman-Fordのアルゴリズム
米山研究室紹介 -システム制御工学研究室-
1DS05175M 安東遼一 1DS05213M 渡邉光寿 指導教員: 高木先生
音高による音色変化に着目した音源同定に関する研究
実行時情報に基づく OSカーネルのコンフィグ最小化
卒論の書き方: 参考文献について 2017年9月27日 小尻智子.
Introduction to Soft Computing (第11回目)
階層的位置表現への 広域化ビュー適用における追尾性向上
早わかりアントコロニー最適化 (Ant Colony Optimization)
オープンソース開発支援のための ソースコード及びメールの履歴対応表示システム
オープンソース開発支援のための リビジョン情報と電子メールの検索システム
25. Randomized Algorithms
非対称リンクにおける ジャンボフレームの性能評価
ロボットの協調動作の研究: マップ作成とマップ情報を利用した行動計画
Data Clustering: A Review
暗号技術 ~暗号技術の基本原理~ (1週目) 情報工学科  04A1004 石川 真悟.
未使用メモリに着目した 複数ホストにまたがる 仮想マシンの高速化
バイトコードを単位とするJavaスライスシステムの試作
電機情報工学専門実験 6. 強化学習シミュレーション
片方向通信路を含む ネットワークアーキテクチャに於ける 動的な仮想リンク制御機構の設計と実装
適応的近傍を持つ シミュレーテッドアニーリングの性能
同志社大学工学研究科 知的システムデザイン研究室 修士2年 中尾昌広
P2P ネットワーク上で 実時間ストリーミングを実現するための 分散制御プロトコルの提案
Virtualizing a Multiprocessor Machine on a Network of Computers
第4章 識別部の設計 4-5 識別部の最適化 発表日:2003年5月16日 発表者:時田 陽一
ISO23950による分散検索の課題と その解決案に関する検討
設計情報の再利用を目的とした UML図の自動推薦ツール
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
パターン認識 ークラスタリングとEMアルゴリズムー 担当:和田 俊和 部屋 A513
ITSにおける 知的ネットワークシステムの構築 - 知的信号機システムの提案 -
情報工学科 05A2301 樽美 澄香 (Tarumi Sumika)
MPIを用いた並列処理計算 情報論理工学研究室 金久 英之
マーケティング.
Webページタイプによるクラスタ リングを用いた検索支援システム
エイリアス関係を考慮した Javaプログラム用静的スライシングツール
MPIを用いた 並列処理 情報論理工学研究室 06‐1‐037‐0246 杉所 拓也.
ベイジアンネットワークと クラスタリング手法を用いたWeb障害検知システムの開発
B2 – ruu B1 – yasukata 親 - amanoma
各種荷重を受ける 中空押出形成材の構造最適化
Presentation transcript:

知的ネットワークシステムへの 強化学習の適用 - Q-Learningによる知的照明システムの構築 - ○冨田浩司(同志社大院) 廣安知之(同志社大工) 三木光範(同志社大工) 同志社大学大学院の冨田です. ただいまから,知的ネットワークシステムへの強化学習の適用 についての発表をさせていただきます. 知的システムデザイン研究室・同志社大学

研究背景 「知的ネットワークシステム」の提案 近年,多くの機器やシステムは「知的」に,かつ 「ネットワーク化」の流れにある.  近年,多くの機器やシステムは「知的」に,かつ 「ネットワーク化」の流れにある. ホームネットワーク: 家庭内機器のネットワーク化 ITS(高度道路交通システム): 人・道路・車のネットワーク化 「知的ネットワークシステム」の提案 近年,多くの機器やシステムというのは知的に,かつネットワーク化の流れ にあります. 例えば,家庭内機器をネットワークで結ぶホームネットワーク, 人・道路・車をネットワークで結ぶITSなどがあり, (今後,あらゆる機器がネットワーク化される傾向にあります.) そしてこれからは,それらの機器を使った具体的なネットワークシステムの 構成方法の検討が必要であり, 我々は知的ネットワークシステムを提案しています。 そして,現在,照明システムを用いて本システムの 基礎的な検討を行っています. 知的照明システムを用いた基礎的な検討 自律制御に強化学習を適用 知的システムデザイン研究室・同志社大学

1 ネットワークに接続する機器は知的人工物である. 2 ユーザは要求する目的をネットワークに与えることで, 知的ネットワークシステム システム概要 知的人工物をネットワーク化したシステム システムの特徴 1 ネットワークに接続する機器は知的人工物である. 2 ユーザは要求する目的をネットワークに与えることで, 個々の知的人工物が自律的に動作する. 知的ネットワークシステムとは,最近よく見られる 知的な機器を知的人工物 という枠組みでとらえ,それらの知的人工物をネットワーク化したシステムです. 特徴は, ネットワークに接続する機器が知的人工物であること. 本システムは,ネットワークにユーザが要求する目的を与えて おくことで,個々の機器が自律的に有効に動作するというシステムです. 知的システムデザイン研究室・同志社大学

知的人工物 知的人工物は達成すべき目的があり,知的性質を 使って自律的な動作する. 知的性質  知的人工物は達成すべき目的があり,知的性質を 使って自律的な動作する. 知的性質 Sense,Judge,Act の3要素を持つ構造 自動ドア 例 Sense Judge Act 目的: スムーズな通行の促進 Sense 人間 では,知的人工物とは何なのかについて説明しますと, 知的人工物というのは必ず達成すべき目的を持ち, その目的を満たすよう知的性質を使って 自律的な動作を行うことができます. 知的性質とは,外部の環境をセンスし,その情報を元に判断を行い, その結果適切な動作を行うというsense,judge,actの3要素で 構成されたものです. 例えば,自動ドアなども知的人工物であり,その目的は人のスムーズ な通行の促進であり,そのため 人間をセンスし,その有無により,ドアの開閉を制御するということになります. Judge 人間の有無 Act ドアの開閉制御 知的システムデザイン研究室・同志社大学

知的ネットワークシステムの構成 知的人工物が必ず持つ知的性質を利用して,その目的をネットワークから新しく与えて変えることにより,各知的人工物を自律的に動作させる. Network 光Sense Judge Act Judge 目的 人Sense Act 照明 自動ドア 他にも知的な照明やエアコン,洗濯機などの 知的人工物を多数ネットワーク化することにより, 知的人工物が必ず持つ知的性質を利用して, その達成すべき目的をネットワークから新しく与えて変えることにより, 各知的人工物を目的方向へ向かわせます. エアコン 温度Sense Judge Act 汚れSense Act 洗濯機 Judge 知的システムデザイン研究室・同志社大学

本システムの特徴① 1 Network 目的 ネットワークに目的を与えておくことで,各機器が 自律的に動作し,目的を達成する. こうすることにより, 本システムの特徴は次の5つが挙げられます. まず,1つめの特徴としまして,ネットワークに目的を流しておくことで 各機器が自律的に動作し,目的を達成できることが挙げられます. 知的システムデザイン研究室・同志社大学

機器のネットワークへの参入・離脱が容易である. 本システムの特徴② 2 機器のネットワークへの参入・離脱が容易である. 目的を自律的に取り込む ネットワークへの参入・離脱の設定が不要 目的 2つめの特徴としまして,機器のネットワークへの参入・離脱が 容易であることが挙げられます. 本システムでは,各機器はネットワークに接続されると目的を 自律的に取り込むため, 参入・離脱の設定が不要です. Judge Judge Judge Sense Act Sense Act Sense Act 知的システムデザイン研究室・同志社大学

1つの機器では不可能な作業を行うことができる. 本システムの特徴③ 3 1つの機器では不可能な作業を行うことができる. ネットワーク全体で目的を満たす 5台→5台で,10台→10台で作業を行う Judge Judge Judge 3つめの特徴としまして,1つの機器では不可能な作業を 行うことができます. 本システムでは,ネットワーク全体で目的を満たすよう動作するため, そのときネットワーク化されている機器, 5台なら5台,10台なら10台で目的を満たします. Sense Act Sense Act Sense Act 動作 動作 動作 知的システムデザイン研究室・同志社大学

機器の故障時による機能低下を他機器で対処できる. 本システムの特徴④ 4 機器の故障時による機能低下を他機器で対処できる. 目的を満たした状態の維持 5台→4台で,10台→9台で作業を行う × Judge Sense Judge Act Judge 4つめの特徴としまして,機器の故障時による機能低下を 他機器で対処できることが挙げられます. 本システムでは目的を満たした状態を維持し続けるため, 5台なら残りの4台,10台なら残りの9台で目的を満たします. Sense Act Sense Act 動作 動作 知的システムデザイン研究室・同志社大学

本システムの特徴⑤ 5 ネットワークの機能を有していれば, システムに接続する知的人工物の種類は問わない. 目的の満たし方は一通りでない 知的人工物の種類・台数によって異なる Judge Judge 5つめの特徴としまして,ネットワークの機能を有していれば, システムに接続する知的人工物の種類は問わないことが 挙げられます. 本システムでは,目的の満たし方は1通りでない場合が多いため, 照明やエアコン・冷蔵庫など ネットワーク化する知的人工物の種類や台数によって 満たし方は異なるということです. Judge 光Sense Act 温度Sense Act 照明 エアコン 湿度Sense Act 冷蔵庫 知的システムデザイン研究室・同志社大学

照明システム 具体的な知的ネットワークシステム 本システムの基礎的な検討 (1) 身近なシステムを取り上げることにより,本システムの 有効性が容易にわかること. (2) 現在の照明機器における知的化が自動車や飛行機ほど 複雑でないこと. (3) シミュレーションを行う際,その実現が容易であること. 現在,本システムの基礎的な検討を行うために 照明システムに知的ネットワークシステムを適用し, 有効性を検証しています. 照明システムを用いた理由は 身近なシステムを取り上げることにより,本システムの 有効性が容易にわかること.などが挙げられます. 知的システムデザイン研究室・同志社大学

X [lx] 知的照明システム 目的 人のいる場所を X[lx] の明るさにせよ Lighting Lighting Lighting 知的照明システムは 知的化された照明機器を多数ネットワーク化した構成になっており, ネットワークに与えられる目的は,人が来たら,協力して, その部分にXルクスの明かりをつけろというものです. X [lx] Person 知的システムデザイン研究室・同志社大学

真下に人が来た場合,設定された明かりをつける 知的な照明機器 人感知・光感知タイプ 設計時の目的: 真下に人が来た場合,設定された明かりをつける 光Sensor 人Sensor Judge 光束Act Sense 明るさ + 人 Judge 設定照度との比較 Act 光束の制御 ネットワーク化する知的照明は人感知・光感知タイプの知的照明であり, 外の明るさと人の有無をセンスでき,それに応じて光速を制御でき るものを使用しています. 知的システムデザイン研究室・同志社大学

各知的照明の自律制御方法 強化学習 の適用 ネットワーク全体での目的の達成度 Ex. 目的照度:100[lx] 問題点: 各知的照明はランダムに光束を制御する. 現在の照度:70[lx] 現在の照度:30[lx] 同じ動作を繰り返す 再度ランダムに制御 そして, 各知的照明の制御には, ネットワーク全体での目的の達成度により動作させていました. 例えば,目的照度が100ルクスであり, 現在の人がいる場所の合計照度が50ルクスである場合に 各知的照明はランダムに光束を強めるか弱めるかの制御を行います. この動作により,合計照度が70ルクスに上がった場合は, 良い行動をとったと判断し,同じ動作を繰り返します. また,合計照度が30ルクスに下がった場合は, 違う方向性を探すため再度ランダムに制御します. これの繰り返しにより,目的を満たしていくわけですが, しかし,これはランダム性が強く, 判断基準を予め設計者が与えているわけなので,柔軟性がありません. より広い環境に適応するためには各機器が判断基準を 自律的に獲得できる必要があり, そこで今回は強化学習を適用し,判断基準の自律獲得を試みました. 問題点: ランダム性が強く,柔軟性がない 強化学習 の適用 より広い環境に適用するためには判断基準の自律獲得が必要 知的システムデザイン研究室・同志社大学

強化学習  移動などの行為を行うAgentが,行為に対する環境からの報酬のみから,適切な行為の学習を行う典型的な自律的学習である. Q-Learning 状態認識器: 状態と行動の対のルールベースがあり,各ルールはQ値と呼ばれる重みを持つ. 行動選択器: Q値に基づく戦略で次の行動を決定する. 学習器: 次式に従ってQ値を更新する. 今回は強化学習の中で もっともシンプルなアルゴリズムであるQ-learningを用いました. ご存じだと思いますが, Q-learningは状態認識器・行動選択器・学習器で構成されており,. 状態と行動の対のルールベースにより学習していくものです. 知的システムデザイン研究室・同志社大学

各知的照明が持つ状態と行動 状態 人がいる場所の合計照度 行動 光束の制御 状態:60 行動:2 状態 1 0~5 [lx] 行動 1 +20 [cd] 状態 2 5~10 [lx] 行動 2 -20 [cd] このQ-learningを知的照明の判断基準に用い,学習を重ねることにより 新しい判断基準を自律獲得させることを試みました. 状態と行動の設定ですが, 状態は人がいる場所の合計照度とし, その状態における行動は光束の制御としました. 状態は60状態とし,0~300[lx]を5ルクス単位で分割したものです. また,行動は2種類であり,光束20cdあげる,と,光束を20cdさげる にしました. … 状態 60 295~300 [lx] 知的システムデザイン研究室・同志社大学

Q-learningを用いた知的照明システム 人を感知した知的照明 他の知的照明 明るさセンサにより, 人がいる場所の照度を取得. ネットワークに流す. ネットワークに流れた 人がいる場所の照度を取得. その状態に応じて,ある行動選択手法に従い 次の行動を決定し,光束を制御する. Q-learningを用いた知的照明システム のアルゴリズムは次のようになります. まず,人を感知した知的照明は, 自らがもつ明るさセンサにより, 人がいる場所の照度を取得し, その情報をネットワークに流しておきます. そして,他の知的照明はそのネットワークから流れる情報 を取得し, その状態に応じて,光束を強めるのか弱めるのかを決定します. そして,その行動に対する報酬 を受けとり, Q値を更新します. 報酬は目的照度になったときに正の報酬を与えることにしました. 行動に対する報酬を受け取る 目的照度になったとき 正の報酬を与える. Q値を更新する 知的システムデザイン研究室・同志社大学

シミュレーション 各知的照明が学習を重ねることにより最適な制御が行えることをシミュレーションにより検証する. 要求照度[lx]: 100 知的照明の数: 4台 知的照明の最大光度[cd]:1000 ここで,各知的照明が学習を重ねることにより最適な制御が 行えることをシミュレーションにより検証します. シミュレーション環境はこのようにしました. 普段の実験では150ルクスで行っていたのですが, ここでは時間の関係上,100ルクスで行います. ネットワーク化する知的照明の数は4台で, 一台の知的照明の最大光度は1000カンデラとしました. 知的システムデザイン研究室・同志社大学

パラメータ設定 Q値の初期値 0.1 報酬 100 学習率 0.5 割引率 0.9 行動選択方法 Boltzmann選択 温度定数 0.2 またQ-learningにおけるパラメータ設定はこのようにしました. 温度定数 0.2 知的システムデザイン研究室・同志社大学

シミュレーション 知的システムデザイン研究室・同志社大学

実験 ・学習なしの知的照明システム ・Q-learningを用いた知的照明システム 目的を達成するまでにかかった時間の比較 ここで,目的を達成するまでにかかった時間について, Q-learningを使用していないランダム性を多く含む従来の 学習なしの知的照明システムと Q-learnmngを用いた知的照明システムで 比較を行いました. 知的システムデザイン研究室・同志社大学

学習なしの知的照明システムの結果 150 これは学習なしの知的照明システムの結果です. 表の横軸はかかった時間であり,縦軸は人がいる場所の照度です. 表には1試行目,10試行目,30試行目を表示しています. このシステムでは学習機能がなく,ほとんどランダムに動作するため, 10試行目においては50ステップかかっていませんが, 30試行目には150ステップかかり、試行回数に関わらず時間が不安定 なのがわかると思います. 知的システムデザイン研究室・同志社大学

Q-learningを用いた知的照明システムの結果 150 一方,Q-learningを用いた知的照明システムでは, 1試行目こそは多くの時間を費やしていますが, 試行を重ね,学習していくことにより,30試行目には, 50ステップかかっておらず,学習がきちんと なされていったのがわかると思います. 知的システムデザイン研究室・同志社大学

考察 Q-learningを用いることにより,試行回数を重ねることで 判断基準が獲得され,常に最適な制御が行えた. 判断基準を予め組み込む必要がなく,これは知的照明システムだけでなく,知的ネットワークシステム全体に対して極めて大きな成果であるといえる. 以上の結果より,Q-learningを用いることにより, 試行回数を重ねることで判断基準が獲得され,常に最適な制御 が行えました. これにより,判断基準を予め考える必要がなく,これは 知的照明システムだけでなく,知的ネットワークシステム全体に 対して極めて大きな成果であるといえます. 知的システムデザイン研究室・同志社大学

知的照明システムの高水準化 知的照明システムの問題点 問題点 (1) 判断基準が確立するまでに時間がかかる. (2) 目的や環境が変わると,最適な判断基準も変わる ため,その都度学習させる必要がある. 知的照明システムの高水準化 しかしながら,Q-learningを用いた知的照明システムにも 少し問題点があります. それは,判断基準が確立するまでに時間がかかることと 目的や環境が変わると,最適な判断基準も変わるため, その都度学習させる必要があるということです. そこで,知的照明システムの改良を試みました. 具体的には一度獲得した判断基準および他の知的照明が獲得した 判断基準を再利用させることです. こうすることにより, 新しくネットワークに接続する知的照明が学習しなくてすみますし, 目的が常に変わるような場合にも柔軟に対応できると考えられます. 一度獲得した判断基準および他の知的照明が獲得した 判断基準を再利用させる. 知的システムデザイン研究室・同志社大学

② 各知的照明がデータベースから選択し制御する. 知的照明システムの高水準化 ① 各知的照明はそれぞれ異なった判断基準を獲得して いるため,その判断基準をデータベースに蓄積する. ② 各知的照明がデータベースから選択し制御する. どの判断基準を選択すればよいかを決定する 上位の判断基準が必要 どう実現するかといいますと, 各知的照明はそれぞれ異なった判断基準を獲得しているのですが, それら複数の判断基準をデータベースに蓄積しておきまして, 各知的照明は動作時に目的に合った判断基準を そのデータベースの中から選択し,自身に取り込み, その判断基準を使って制御させるようにします. こうすることにより,新しくネットワークに接続する知的照明 は学習しなくてすむというわけです. しかし,これを実現するためには,各知的照明を 少し改良する必要があります. それは各知的照明がデータベースのなかから どの判断基準を選択すればよいかを判断する 上位の判断基準が必要だということです. 知的システムデザイン研究室・同志社大学

知的照明の階層構造 Sense 目的照度 最適な判断基準の決定 Judge Act 判断基準の取得 上位のJudge 判断基準の 目的照度 Q-learningにより学習させる Act これを知的人工物の観点から説明しますと, 従来の制御の上位に,目的照度によって最適な判断基準を決定し, 取得するようなsense,judge,actを持つ2階層構造になります. そこで,この最適な判断基準を決定するための 上位の判断基準というのをQ-learningにより学習させることにしました. 判断基準の取得 知的システムデザイン研究室・同志社大学

各知的照明が持つ状態と行動 状態 目的の照度 行動 取り込む判断基準の決定 状態:30 行動:10 状態 1 0~10 [lx] 行動 1 判断基準Aを選択 状態 2 10~20 [lx] 行動 2 判断基準Bを選択 状態は目的照度とし, 行動は自身に取り込む判断基準の決定でありまして, 状態は目的照度を10ルクス単位で分割した30状態で, 行動はデータベース化されている判断基準の数 だけ分必要となりますが, ここでは最大10個までとしました. … … 行動 10 判断基準Jを選択 状態 30 290~300 [lx] 知的システムデザイン研究室・同志社大学

知的照明の判断基準の選択 ネットワークに与えられた目的を取得 その目的に応じて,ある行動選択手法に従い どの判断基準を取り込んでくるかを決定する. 選択した判断基準を用いて,制御する. 各知的照明が行う判断基準の 自律選択のアルゴリズムは次のようになります. まず,目的の取得します. そして,その目的に応じて,どの判断基準を取り組んでくるかを決定します. そして,取り込んだ判断基準を用いて制御を行います. ここで,目的を満たすのにかかった時間に 伴って,正の報酬,負の報酬を与え, それらの情報をもとにQ値を更新し,学習させていきます. 行動に対する報酬を受け取る 目的を満たすまでの時間により, 正の報酬,負の報酬を与える. Q値を更新する 知的システムデザイン研究室・同志社大学

判断基準の蓄積方法 70[lx]の判断基準群 判断基準の取得 判断基準のパターン化 A B C 70[lx] Database 類似する判断基準のパターン化 判断基準のパターン化 A B C 新しいパターンのみを蓄積 判断基準の蓄積方法は まず,各知的照明それぞれが獲得した判断基準というのを ある程度パターン化します. パターン化する理由はQ値の値が多少異なるだけでほとんど同じ制御 を行う判断基準が多いからです. そして,その中で新しいパターンのみを蓄積していきます. 例えば,新しく獲得された70ルクスの判断基準が6つあったとしたら, 類似する判断基準をパターン化することでABCの3種類にし, そのなかで,既存のデータベースにない,A,Cのみをデータベース に蓄積します. 70[lx] Database 目的ごとに蓄積 B A C 知的システムデザイン研究室・同志社大学

判断基準のパターン化 すべての状態における行動のQ値を比較し,ファジィ関数を用いて,Q値を3段階(Large>Medium>Small)に変更する. 状態 1 状態 2 Ex. 行動 1 Q値: 0.3 行動 1 Q値:10.3 行動 2 Q値: 0.1 行動 2 Q値: 0.1 そして,パターン化には, ファジィ関数を用いて, すべての状態における行動のQ値の差の程度によって Q値をLarge,medium,smallの3種類に変更させます. 例えば,そのような判断基準がある場合に 状態1ではQ値にあまり差がないため,両方をmediumに変更し, 状態2ではQ値に差があるため,Lage・とsmall という風にパターン化しました. 行動 1 Q値:Medium 行動 1 Q値:Large 行動 2 Q値:Medium 行動 2 Q値:Small 知的システムデザイン研究室・同志社大学

70 [lx] シミュレーション 目的に合った適切な判断基準をQ-learningによって 獲得できるかどうかを検証する. Lighting ここで,シミュレーションを行います. このシミュレーションでは,目的に合った適切な判断基準を Q-learniigによって自律的に獲得できるかどうかを検証しました. 目的照度は70[lx]とし, 具体的には, 人の真上に設置した知的照明①と 人から離れた場所に設置した知的照明②において 適切な判断基準が選択されたかどうかを検証しました.. 70 [lx] Person 知的システムデザイン研究室・同志社大学

× 目的照度:70[lx]に蓄積された判断基準 10 種類 ◎ ○ △ 最適な判断基準 不適切な判断基準 良好な判断基準 Criterion A 10 種類 不適切な判断基準 × Criterion B ○ 良好な判断基準 Criterion C Criterion D Criterion E Criterion H 目的照度70[lx]に蓄積された判断基準は次の10種類で, 最適な判断基準として,criterionAを, 不適切な判断基準としてcriterionBを, そして,良好な判断基準として,criterionC,Dを, 良好ではない判断基準として,criterionE,F,G,H,I,J を容易しました. △ 良好ではない判断基準 Criterion F Criterion I Criterion G Criterion J 知的システムデザイン研究室・同志社大学

Q-learningにおけるパラメータ設定 0.1 報酬 学習率 0.5 割引率 0.9 行動選択方法 Boltzmann選択 Q-learningに必要なパラメータ設定はこのように行いました. 温度定数 0.2 知的システムデザイン研究室・同志社大学

蓄積に必要なパラメータ設定 Large = 1.0 パターン化する際に用いる定数 Medium = 0.1 Small = 0.01 ファジィ関数 また蓄積に必要なパラメータは次に示す通りで, ファジィ関数はこのようにしました. 知的システムデザイン研究室・同志社大学

Lighting①: 人の真上に設置した知的照明 Criterion A 最適な判断基準 ◎ 結果です. これは, 人の真上に設置した知的照明①において, 先ほど示した10種類の判断基準のQ値がどのように変わっていくのかを 示したグラフです. 横軸は試行回数であり,縦軸はそのときのQ値です. グラフからわかるように,知的照明①では判断基準Aが最適だと 判断しているため, 知的照明①は有効に判断基準を選択できているのがわかると思います. 知的システムデザイン研究室・同志社大学

Lighting②: 人から遠くに設置した知的照明 Criterion I △ 良好ではない判断基準 一方,これは 人から遠くに設置した知的照明②におけるグラフです. 知的照明②では良好ではない判断基準Iが 最適だと判断していますが, これは,目的照度地点が遠いため,自分の行動が ほとんど影響せず,Q値に反映しないため,当然の結果だと言えます. 知的システムデザイン研究室・同志社大学

考察 人の近くに設置した知的照明では,どの判断基準が最適なのかを学習することにより,適切な判断基準を自動選択することができた. 人から離れた場所に設置した知的照明では,自身の動作があまりQ値に反映されないため,任意の判断基準が選ばれた. 人の近くに設置した知的照明では, どの判断基準が最適なのかを学習することにより,適切な判断基準 を自動選択することができました. また,人から離れた場所に設置した知的照明では, 自身の動作があまりQ値に反映されないため,当然の結果ですが, 任意の判断基準が選ばれました. 知的システムデザイン研究室・同志社大学

知的ネットワークシステムへの強化学習の適用を行った. 結論 知的ネットワークシステムへの強化学習の適用を行った. ・知的照明システムにQ-learningを適用することで,判断 基準の自動生成を行うことができた. ・目的の達成時間が短縮でき,効率化が行えた. ・知的照明システムの高水準化により,目的に適した判 断基準の自律的選択ができた. 結論の述べますと, 本発表では,知的ネットワークシステムへの強化学習の適用を行いました. 具体的には, 知的ネットワークシステムの1つである知的照明システムにおいて, 各機器の制御にQ-learningを用適用することで, 判断基準の自動生成を行うことができ, 従来の手法よりも目的を達成するまでの時間が常に短縮され, 効率化が行えました. また,知的照明システムの高水準化により, 目的に適した判断基準の自律的選択がある程度できました. 知的システムデザイン研究室・同志社大学

今後の課題 ・多目的問題 ・目的,動作情報,位置情報などのプロトコル問題 ・誤り情報・目的を満たせない場合の対処策 ・大規模なシステムへの適応 今後の課題は 目的を2つ流したり,人が増えた場合などの多目的問題 については検討が必要です. また,目的,動作情報,位置情報などのプロトコル問題や 誤り情報や目的を満たせない場合の対処策などが課題として残ります. また,大規模なシステムへの適応も必要であると思われます. 知的システムデザイン研究室・同志社大学

知的システムデザイン研究室・同志社大学

知的システムデザイン研究室・同志社大学

知的システムデザイン研究室・同志社大学

知的システムデザイン研究室・同志社大学

工学的人工物 人工物:人為的に作られた「もの」の総称. (1) 工学的人工物: 建物,自動車,家電製品  人工物:人為的に作られた「もの」の総称. (1) 工学的人工物: 建物,自動車,家電製品 (2) 社会的人工物: 言語,規則,法律 (3) 芸術的人工物: 小説,絵画,彫刻 (4) その他の人工物: 品種改良した農作物など 工学的人工物 電子デバイス技術と情報処理技術により実現でき, 明確な目的を持ち,その機能や性能が評価できる. 人工物について説明します. 人工物とは人為的に作れら他「もの」の総称であり, 建物や自動車などの工学的人工物, 法律などの社会的人工物, 絵画などの芸術的人工物, そして,品種改良した農作物などの人工物があります. そのなかで,著者らの一人は 明確な目的を持ち,その機能や性能が評価できる 工学的人工物に限定し,基本的な考察を行いました. 知的システムデザイン研究室・同志社大学

知的照明システムの流れ (1) 複数の知的照明をネットワークに接続する. (2) 目的をネットワークに与える. (3) 知的照明は目的を取り込み,目的に合った判断基準を生成する. (4) 人が入室するまで待機する. (5) 人が入室したと判断した場合に,各種センサを用い,現在の人 の位置を把握し,要求された明るさになるよう制御する. 具体的な各知的照明の自律動作のアルゴリズムは極めて単純であり,. まず,各知的照明は,ネットワークに接続される目的を自律的に取り込み, 内部の判断部を先ほど述べました目的の達成度という判断基準に変更します. そして,まず適当に動作を行ってみて, その都度,人間の真上にいる知的照明から,その場所の合計照度の情報 をネットワークを介して取得します. そして各自が持つ判断基準により,その情報と前回照度を比較し, ネットワーク全体での動作の有効性をみます. 目的に近づいていれば,もう一度その方向への動作を行い, 遠ざかっていれば,その状態からもう一度ランダムに動作します. この動作を各知的照明が目的を満たすまで繰り返すだけで必ず 目的を満たすように動作することができます. (6) 各知的照明は常に目的とのズレをチェックし,トラブルなどが 起きた場合は再度(5)の動作を行う. (7) 人が退室したと判断した場合に,消灯し,待機状態(4)に戻る. 知的システムデザイン研究室・同志社大学

Q-learning により 獲得された 判断基準 light[0] Qs0a0 0.040483524273186314 Qs0a1 0.037660901356588526 Qs1a0 0.03950417214185656 Qs1a1 0.03725929226595419 Qs2a0 0.035580834840756206 Qs2a1 0.03669315110325496 Qs3a0 0.0354742524734063 Qs3a1 0.0359553191622399    <省略> Qs18a0 0.07166241904296874 Qs18a1 0.074361209375 Qs19a0 0.077277205859375 Qs19a1 23.117123952774925 Qs20a0 0.07517042968750001 Qs20a1 20.854208476880117 Qs21a0 36.38617007597773 Qs21a1 16.929141955545834 Qs22a0 0.08781250000000002 Qs22a1 32.402678501851184 Qs23a0 2.1350209062500003 Qs23a1 20.80589655001355 q240 69.0257197897766 q241 4.641713125000001 q250 0.0925 q251 0.095 q260 0.095 q261 0.095 q270 89.28728647460937 q271 0.1 q280 99.69941406250001 q281 0.1 q290 0.0458109378599341 q291 0.1 q300 0.06069016371399881 q301 0.1 q310 0.1 q311 0.1 q320 0.1 light[1] Qs0a0 0.03860610814042892 Qs0a1 0.039001772004345014 Qs1a0 0.03711685091512492 Qs1a1 0.03749645187478179 Qs2a0 0.03510919476950096 Qs2a1 0.036448424827456    <省略> Qs19a0 0.0770185703125 Qs19a1 0.075950978515625 Qs20a0 35.75954132021168 Qs20a1 0.07957578125 Qs21a0 36.60497003442803 Qs21a1 0.079548359375 Qs22a0 42.7814168768607 Qs22a1 0.08787500000000001 Qs23a0 25.05062027122199 Qs23a1 0.09025 Qs24a0 35.568578326828 Qs24a1 0.09078125000000001 Qs25a0 0.0925 Qs25a1 0.095 q260 0.095 q261 0.095 q270 87.71920507812501 q271 0.1 q280 87.59125 q281 0.1 q290 0.046180987881345496 q291 0.1 q300 0.08208901625000001 q301 0.1 q310 0.1 q311 0.1 q320 0.1 Q-learning により 獲得された 判断基準 知的ネットワークシステムの1つである知的照明システムにおいて, 各機器の制御に代表的な強化学習であるQ-learningを用いることで, 従来の手法よりも効率よく目的を達成することが わかった. また,判断基準を自動生成できるということは, 判断基準を予め与えている従来の手法に比べて, 極めて柔軟性が高いと言える. 知的システムデザイン研究室・同志社大学