深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.

Slides:



Advertisements
Similar presentations
静脈画像を鍵とする暗号化手 法に関する研究 大山研究室 安藤のぞみ. 研究の背景、目的 近年、バイオメトリクス認証が注目されて いる 静脈は身体内部の情報 → 偽造に強い 環境に左右されることが少ない 利用者の心理的抵抗が軽減される オープンなネットワークへのバイオメトリ クス認証の適用 : Double.
Advertisements

高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第四回 演習課題 画像中からの物体抽出処理(背景情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/15.
ロボットビジョン(ロボットの視覚能力)のための デジタル画像処理
Deep learningによる 読唇システム
国内線で新千歳空港を利用している航空会社はどこですか?
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
芦田尚美*,髙田雅美*,木目沢司†,城和貴* *奈良女子大学大学院 †国立国会図書館
クロストーク成分の相互相関に 着目した音場再生システム
雑音重み推定と音声 GMMを用いた雑音除去
感情推測システム構築のための顔表情認識の実践
自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討
オントロジーを使用した プログラム開発支援システムの提案
パターン認識とニューラルネットワーク 栗田多喜夫 2018/11/8 早稲田大学大学院理工学研究科講義.
長岡技科大オープンハウス 岐阜高専4年電子制御工学科 森 永二郎.
7. 音声の認識:高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.
思考支援ツールを用いた 情報処理技術知識の学習方式
WIP中間発表 画像解析を用いた メイドの為の 無許可撮影通知システム
米山研究室紹介 -システム制御工学研究室-
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
5. 音声からの特徴抽出 5.1 特徴抽出の手順 5.2 音声信号のディジタル化 5.3 人の聴覚をまねて -スペクトル分析 5.4 もうひと工夫 -ケプストラム分析 5.5 雑音の除去.
広瀬啓吉 研究室 4.音声認識における適応手法の開発 1.劣条件下での複数音源分離 5.音声認識のための韻律的特徴の利用
音高による音色変化に着目した音源同定に関する研究
人工知能を動かしてみる(Keras を用いたニューラルネットワークの定義,コンパイル,学習,評価,予測)
あらまし アンサンブル学習の大きな特徴として,多数決などで生徒を組み合わせることにより,単一の生徒では表現できない入出力関係を実現できることがあげられる.その意味で,教師が生徒のモデル空間内にない場合のアンサンブル学習の解析は非常に興味深い.そこで本研究では,教師がコミティマシンであり生徒が単純パーセプトロンである場合のアンサンブル学習を統計力学的なオンライン学習の枠組みで議論する.メトロポリス法により汎化誤差を計算した結果,ヘブ学習ではすべての生徒は教師中間層の中央に漸近すること,パーセプトロン学習では
ai-1. 人工知能を演習と実践で学ぶ シリーズ
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第二回 演習課題
高度情報演習1C 実践 画像処理プログラミング 第二回 演習課題
雑音環境下における 非負値行列因子分解を用いた声質変換
確率的学習アルゴリズムを用いた有限状態オートマトンの抽出に関する研究
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
1-R-19 発話に不自由のある聴覚障害者の発話音声認識の検討
魚釣り寸法計測支援 アンドロイドアプリ の構築
中京大学 工学部 電気電子工学科 白井研究室 4年 T 為房直人
12. 意味・意図の解析 12.1 意味表現とは 12.2 規則による意味解析処理 12.3 統計的な意味解析処理 12.4 スマートフォンでの音声サービス ニューラルネットワークによる意味解析.
5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3
GPSを使わないBebop Droneの 自動飛行
決定木 Decision Tree DT 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
Data Clustering: A Review
AIを用いたドローンの 新たな姿勢制御方法に関する研究
交番における手話から日本語への 変換システムの検討
15K1117 下窪 聖人 15K1013 坂本 倖輝 15K1112 黒川 晶太 15K1015 関根 修斗
中京大学 電気電子工学科 白井研究室 T 久保田直樹
一方向画像からの 3Dモデル生成 電気電子工学科 白井研究室 T215049 田原 大輝.
工学部 電気電子工学科 白井研究室 T 山田 翔也
バイラテラルフィルタを用いた音声特徴量抽出 2-Q-6
物体検出による視覚補助システム T215085 若松大仁 白井研究室.
論文紹介: “Joint Embedding of Words and Labels for Text Classification”
Chapter5-2 その他の話題 15k1015 関根修斗.
Number of random matrices
手書き文字の自動認識アプリケーション 15K1013 坂本 倖輝
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
過学習を考慮した IS1-60 AAMパラメータの選択と回帰分析による 顔・視線方向同時推定 顔・視線同時推定 研究背景
ブースティングとキーワードフィルタリング によるシステム要求検出
ai-5. 人工知能の Python パッケージ TensorFlow と Keras の動作確認
設計情報の再利用を目的とした UML図の自動推薦ツール
ベイズ基準による 隠れセミマルコフモデルに基づく音声合成
ガイダンス 電子計算機 電気工学科 山本昌志 1E
バイラテラルフィルタによる実雑音下音声認識 のための音声特徴量抽出
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
誤差逆伝播法による ニューラルネットワーク (BackPropagation Neural Network, BPNN)
わかりやすいパターン認識 第3章 誤差評価に基づく学習 3.3 誤差逆伝播法.
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
視覚補助のための物体検出 白井研究室 T 若松大仁
イラストで学ぶ 音声認識 荒木雅弘 著 講談社 2015.
ニューラルネットワークの仕組み (Raspberry PI 演習で学ぶ) AI DATA VASSEL 資料
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
教師がコミティマシンの場合のアンサンブル学習 三好 誠司(神戸高専) 原 一之(都立高専) 岡田 真人(東大,理研,さきがけ)
Presentation transcript:

深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉

研究背景 近年、人工知能の分野は深層学習(Deep Learning)によって飛躍的な進歩を遂げている 深層学習は画像認識、音声認識において精度が格段に向上したという事に興味を持った

研究目的 深層学習を用いた単語の音声認識システムの作成 深層学習モデルの作成方法を学び、いろいろなモデルを作ることで認識率の改善方法を探る

音声認識 深層学習 人間が声で話す言葉を文字に変換し、コンピュータに認識させる技術 一般的に、文字認識や顔認識と同じようにパターン認識技術の分野 深層学習 機会学習手法の1つであり、ニューラルネットにおける中間層の数を増やした多層構造である 入力されたデータからクラス分類や回帰を行う手法

開発環境 OS Ubuntu 15.04 Linux 4.2 GPU NVIDIA Quadro M5000 Python 2.7

研究の流れ 学習データの作成 学習モデルの作成 学習モデルの層の工夫

1.学習データの作成

作成手順 音声データを用意する 音声データの特徴量を抽出する 音声データの大きさをそろえる(時間)

1.音声データの用意 音声コーパスを使用 さまざまな研究機関において共通に利用可能な音声データ 東北大-松下 単語音声データベース ・内容 東北大-松下 単語音声データベース ・内容 1.単語音声 音韻バランス212語     60名(男女各30名)各1回発音

2.特徴量抽出 特徴抽出とは、入力データからパターンの認識に役に立つ情報を取り出す処理 メル周波数スペクトラム(MFCC) 最も基本的な音声認識の特徴量 ケプストラムの低次部分の情報を取り出したもの

Mfccの視覚化画像 数値 視覚化

大きさをそろえる 音声データは、1つ1つの時間が異なる 学習モデルに入力させる場合大きさがそろっている必要がある データ補間により単語の時間をそろえた

2.学習モデルの作成

chainer オープンソースのディープラーニングのツール 〈特徴〉 Pythonで動かせる(Python 2.7) 様々なニューラルネットワークに対し高い柔軟性がある ネットワーク構造を直感的に記述できる GPUをサポートし、複数のGPUを使った学習が可能

CNNで層を構成 畳み込みニューラルネットワーク(CNN) 構成 画像認識を中心に幅広く利用されているディープラーニング手法の1つ 誤差逆伝搬法による学習を取り入れた手法 構成 入力層 畳み込み層 プーリング層 全結合層 出力層

畳み込み層 プーリング層 入力に対して重みフィルタをかける フィルタをかけた出力データは特徴マップと呼ばれる 畳み込み層から出力された特徴マップを縮小する 着目する領域を設定してその領域の特徴マップの値から新たな特徴マップの値を求める

全結合層 出力層 入力は畳み込み層またはプーリング層の特徴マップ 重み付き結合を計算し活性化関数によりユニットの値を求める 尤度関数を用いて分類クラス を出力する softmax関数を使用する

学習までの流れ ❶30種類の単語の学習データを用意 1つの単語につき60個のデータを用意 同じ単語は同じフォルダに入っている     同じ単語は同じフォルダに入っている フォルダ名がラベルとなっている ❷8.5:1.5の割合で学習データと評価データを分ける(バッチサイズ300、10epoch) 使用言語(30種類) MUKASI,MONAKA,NA=KYOKU,NIHO=,NUKIUCI,NOHARA,BA=*OO,BIZYUCU,BUQKYOO,BE=TOO,BOOSOO,DA*EKI,DIIZERU,DE*UCI,GAIKOKU,GI=KOO,GUUSUU,RAKUDA,RISOO,RE=ZOKU,ROODOO,ZAIRYOO,ZUIHICU,ZE=TAI,ZOOZEI,HAKASE,HIRA*ANA,HUUTOO,HE=DOO,SAISYOKU

3.学習モデルの層の工夫

層の構成 ドロップアウトを使用 畳み込み層 プーリング層 全結合層 1 2 ② ③ 3   MNIST(手書き文字)を参考 ドロップアウトを使用 汎化能力を向上させる方法であり、中間層のユニットの値を一定の割合で結合を欠落させ過学習を抑制させるツール   畳み込み層 プーリング層 全結合層 1 2 ②  ③  3

一般的なものより認識率が25%低い結果となった 結果・評価 3つのモデルの精度はほぼ60%となった 一般的に使用されている音声認識は、精度が約80%である 一般的なものより認識率が25%低い結果となった 学習モデル 精度(%) ① 57.77 ② 56.30 ③ 58.88

考察 改善案 今回作成した音声認識システムは一般的なものに比べて精度が低いという結果となった 作成したニューラルネットワークが十分に特徴量を得ることができなかったのではないか 改善案 学習済みのCNNを用いて音声認識システムを組む(fine tuning) 精度向上の可能性

展望 時系列を用いたニューラルネットの使用(LSTM) 単語の認識精度向上 今回作成した学習モデルを用いて連続音声認識システムの構築    単語の認識精度向上 今回作成した学習モデルを用いて連続音声認識システムの構築    文の構成も含めて単語を判断

以上で発表を終わります