工学部 電気電子工学科 白井研究室 T 山田 翔也

Slides:



Advertisements
Similar presentations
第1章 第2節 情報伝達の工夫 第2節 情報伝達の工夫 1 情報伝達のさまざまな手段 2 コンピュータによる情報伝達の工夫.
Advertisements

複数の移動ロボットによる 協調的な行動: 情報共有に基づく お片づけロボットのシステム開発 中京大学大学院 情報科学研究科 可知大資 中谷聡太郎 白井英俊.
画像処理学習用RTコンポーネントライブラリ 田窪 朋仁,大原 賢一,吉岡 健伸(大阪大学)
ARの拡張性の研究 H411023 太田智章.
「わかりやすいパターン認識」 第1章:パターン認識とは
Flashプレイヤーを使った動画配信 情報工学科 宮本 崇也.
Deep learningによる 読唇システム
JavaによるCAI学習ソフトウェアの開発
情報処理 第11回の教材 プレゼンテーションソフト PowerPoint 高知大学 共通教育 理学部 対象 担当:塩田 ここはメモを書く欄。
電子社会設計論 第11回 Electronic social design theory
米山研究室紹介 -システム制御工学研究室-
3-Q-28 話者交替を考慮したシステムへの問い合わせと雑談の判別
神奈川大学大学院工学研究科 電気電子情報工学専攻
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
遺伝アルゴリズムによる NQueen解法 ~遺伝補修飾を用いた解探索の性能評価~
情報科学1(G1) 2016年度.
OpenCV を使った画像処理コンポーネントの作成例 田窪 朋仁(大阪大学)
ストリーム処理エンジンを用いた 顔映像に対する 補助情報提供システム
ヒューマンインタフェース 電子機械工学専攻 第2学年 後期 開講
サーボ機構製作 ~マイコンカーのステアリング機構~
屋内施設での先導案内ロボット T213005 一柳良介.
2010年度春季 成果発表 2010年5月7日 大阪開発センター 技術3部 中村 光秀 年度春季成果発表会.
Android端末によるロボット制御とその評価
長岡技科大オープンハウス 岐阜高専4年電子制御工学科 森 永二郎.
相川研究室 ~信号処理は世界を変える~.
ラズパイ・オーディオの製作 中間報告1 14EC004 飯田 頌平.
移動ロボットの車庫入れ 桐蔭横浜大学 箱木研究室 T18R020 佐藤 潤.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
Leap Motionを用いた実世界指向 アプリランチャの設計と開発
WIP中間発表 画像解析を用いた メイドの為の 無許可撮影通知システム
LEGO MINDSTORMの車両の PCによる遠隔操縦
複数の移動ロボットによる 協調的な行動: 情報共有に基づく お片づけロボットのシステム開発
中間レポート進捗状況 情報学科  番 望月大幹.
米山研究室紹介 -システム制御工学研究室-
中京大学 情報理工学部 機械情報学科 H 野口裕司
雑音環境下における 非負値行列因子分解を用いた声質変換
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
魚釣り寸法計測支援 アンドロイドアプリ の構築
中京大学 工学部 電気電子工学科 白井研究室 4年 T 為房直人
複数対象への音声入力による行動指示 ~個別行動から共同行動への研究~
ネットワークプログラミング (5回目) 05A1302 円田 優輝.
Androidアプリの作成 情報工学部情報工学科 07A1069 松永大樹.
MEMSセンサを用いたINS/GPS複合航法システム
GPSを使わないBebop Droneの 自動飛行
ロボットの協調動作の研究: マップ作成とマップ情報を利用した行動計画
AIを用いたドローンの 新たな姿勢制御方法に関する研究
音声認識・翻訳 Android アプリケーション制作
数独の解生成と 解に対する番号付け 理学部 情報科学科 渡辺研究室 戸神星也.
中京大学 電気電子工学科 白井研究室 T 久保田直樹
一方向画像からの 3Dモデル生成 電気電子工学科 白井研究室 T215049 田原 大輝.
ネットワークプログラミング 05A1302 円田 優輝.
中間発表 MIRS1704 .
物体検出による視覚補助システム T215085 若松大仁 白井研究室.
構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
音声認識によるロボット制御 白井研究室 T 山田翔也
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
ブースティングとキーワードフィルタリング によるシステム要求検出
ガイダンス 電子計算機 電気工学科 山本昌志 1E
顔認識を用いた居眠り運転防止システム 白井研究室 T 山本大介
自然言語処理2015 Natural Language Processing 2015
サーバ(UI)とサーバ(通信)が動作する装置が必要
コロトコフ音と運動の関連性について ~拍動血流ポンプを用いた模擬血管血流システムの構築と検討~
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
視覚補助のための物体検出 白井研究室 T 若松大仁
イラストで学ぶ 音声認識 荒木雅弘 著 講談社 2015.
情報処理 II 第11回の教材 プレゼンテーションソフト PowerPoint 高知大学 共通教育 理学部 対象 担当:塩田
自然言語処理2016 Natural Language Processing 2016
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
Presentation transcript:

工学部 電気電子工学科 白井研究室 T214084 山田 翔也 音声認識によるロボット制御 工学部 電気電子工学科 白井研究室 T214084 山田 翔也

研究背景 近年、音声認識システムを用いた製品が身の周りで身近なものになってきており、今後一層増加していくだろうと考えたため #近年、Apple社のSiriや、Google社のgoogle Homeなど、音声認識を用いた製品が多く見受けられるようになってきた。 介護の現場での人手不足が問題となっているのをよく耳にするため、要介護者の支援を行うことが出来ないかと考えたため

研究目的 音声認識を用いてロボットを制御することによって、音声認識について理解を深めること 単語辞書や言語モデル等の各モジュールを組み替えることによって使用に適した音声認識が可能であることから音声認識エンジンJuliusを用い、その使用法や特徴を学ぶこと 音声によってロボットに対して命令を与えると、ロボットがSLAMによって作成されたMapを自律的に移動し、目標を探索する(このときロボットは目標を識別する為に画像認識を行う)ロボットを作成すること

音声認識とは 人間が声で話す言葉を文字に変換する技術 文字認識や顔認識と同じパターン認識技術の一分野 AppleのSiriや京都大学等の共同開発によって開発されたJuliusなどに代表される技術

開発環境 OS PC(リモートで使用) Linux Ubuntu 16.04 LTS ロボット(ホストで使用) Linux Ubuntu MATE 16.04 ROS  PC ROS kinetic ロボット  ROS kinetic ロボット  ・Turtle bot3 burger ・サイズ 138×178×192[mm] 図1:Turtlebot3 bugger ・重量 約1[㎏] 組み込みコントローラ   ・OpenCV(Cortex-M7 core) SBC   ・Raspberry Pi 3 搭載センサ  ・HLS-LFCD2

目標とするシステム 音声をロボットへの命令とする。なお命令文は以下の文法とする。 開始 対象の名前 助詞 ロボットの動作    開始  対象の名前  助詞  ロボットの動作 ロボットへ指示を送信する。 MAPをもとにロボットが対象を探索する。 探索の際にロボットは画像認識によって対象を判別する。 ロボットは対象を見つけた場合対象に接近する。MAPを巡回して対象を発見できなかった場合には初期位置に戻る。

目標とするシステムの全容 図2:システムの全容

研究の流れ 音声認識の改良 ロボットの制御 システムの統合

1. 音声認識の改良

音声入力の導入 本研究では音声入力を可能にするために、音声認識システムJuliusを用いた

辞書の制限 開始については、常にマイクがONの状態になっているため、開始という単語を認識した場合のみ、音声認識をおこなうために辞書に追加している 図2:制限した辞書

文法の制限 それぞれの単語が来る順番や、開始キーワードを入れることによって、認識率の向上をした。 図3:文法のオートマトン 開始 ロボットの動作 対象の名前 助詞 図3:文法のオートマトン それぞれの単語が来る順番や、開始キーワードを入れることによって、認識率の向上をした。

音声認識テスト ・以下の文法に沿って対象を入れ替えて各10回ずつテストを行った。 「開始 <対象名> のところへ 行け」  「開始 <対象名> のところへ 行け」 ・結果は表1のようになった 結果は認識率は98%と なった。 表1:音声認識テスト結果

考察 テストの結果の認識率が100%にならなかった理由としては自身が制限した辞書において先生の発音がSenseiに設定していたが、なっていたため無意識に発音した際にSense:になってしまっていたと考えられる。 結果としては、認識率98%というのは十分使用に耐えうるものだと考えられる。

2. ロボットの制御

組み込みシステム 組み込みシステムはデベロッパーの提供している以下のturtlebot3のパッケージ使用した。 ・turtlebot3_bringup :roscoreや各ノードと通信を行                   うモジュール ・turtlebot3_teleop  :キーボードからの入力を可能                                         にするモジュール ・turtlebot3_slam :teleopと用いることによってMAP               を作成するモジュール ・turtlebot3_navigation :自律運転を行うモジュール

Slamのテスト Slamには複数の方法が用意されているため、以下のGmapping,Hector Mapping,kartoを作成し、使用に耐えうるものをNavigationで使用することにした。 図4:Kartoで作成されたMap

Slamのテスト    図5:Gmappingで作成されたMap          図6:Hector Mappingで作成されたMap テストの結果、Kartoは自己位置推定がうまく言っておらず、使用できない制度のMapとなってしまったためHector MappingとGmappingでNavigationを行い精度を比較する。

Navigationのテスト テストの方法は、GmappingとHector Mappingで作成したそれぞれのMapを用いてNavigationを5回ずつ行い、対象からどれだけ近かったかを比較する。 テストの結果 のほうが総距離で [m]近く、平均では[m]近かった。 表2:音声認識テスト結果

画像認識システム 画像認識システムとしてfind_object_2dを利用した。 各対象をそれぞれ以下の画像とした。 音声認識で指示された対象の近くにマーカー(画像認識対象)を配置し、マーカーを対象として動作するように設定した。

考察 SLAMはテストの結果Gmappingを使用することになった。目標までの距離に差が出た原因はHector Mappingにはループがないため、以前ロボットが来た場所に来たとしてもMapを修正できないことが原因と考えられる。 画像認識モジュールのfind_object_2dは認識する角度によって認識しないことが多かったため複数の画像を用いなければならないと考えられる。

3. システムの統合

音声認識結果をロボットへ入力 音声認識結果をロボットに対する指示にするためにJuliusの認識結果のうち命令の部分のみを抽出する必要がある。 Pythonプログラムを作成し、問題を解決した。 23

システムテスト ・以下の文法で対象を山田として各10回ずつテストする。 「開始 山田 のところへ 行け」 ・結果は表3のようになった  「開始 山田 のところへ 行け」 ・結果は表3のようになった 結果は認識率はと なった。 また、音声認識の問題によって対象を発見できなかった件数は であった。 表3:システムテスト結果

考察 対象まで到達できた例、できなかった例について話す 原因として、画像認識、自己位置推定、MAP、カメラ位置

展望 ロボットにマイクを搭載し、顔認識のモジュールを搭載することが出来れば、様々な場面での運用が可能である。 車いすに搭載することが出来れば、手足が不自由な人でも一人で移動することを可能にすることが出来る。

以上で発表を終わります

参考文献 ・ピョ ユンソク他(2018) ROSロボットプログラミングバイブル オーム社 ・小倉 崇(2015) ROSではじめるロボットプログラミング 工学社 ・上田 隆一(2017) Raspberry Piで学ぶROSロボット入門 日経BP社