複数の言語情報を用いたCRFによる音声認識誤りの検出

Slides:

Advertisements

Similar presentations

自動映像生成のためのパーティクルフィルタによるボールの追跡 2007 年 3 月 21 日神戸大学大学院自然科学研究科矢野一樹.

Advertisements

電子書籍の検索機能の改善木下研究室２０１００２７１３鴫原善寿. 背景スマートフォンなどの携帯端末の普及とともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も現れた。電子書籍はデータなので本棚もいらず、持ち運びも容易になるなど様々な恩恵をもたらした。

音声翻訳における機械翻訳・音声合成の性能評価および分析 ☆橋本佳，山岸順一， William Byrne ， Simon King ，徳田恵一名工大 University of Edinburgh Cambridge University

大規模コーパスから獲得した名詞の出現パターンを用いた事態名詞の項構造解析

顔表情クラスタリングによる映像コンテンツへのタギング

最大エントロピーモデルに基づく形態素解析と辞書による影響

Deep learningによる読唇システム

知識情報演習Ⅲ（後半第1回）辻慶太（水）

音響尤度を用いたマルチスピーカ音響エコーキャンセラの検討

「データ学習アルゴリズム」第３章複雑な学習モデル 3.1 関数近似モデル ….. … ３層パーセプトロン

テキストマイニング，データマイニングと社会活動のトレース

Web画像を用いたマルチモーダル情報による物体認識

雑音重み推定と音声ＧＭＭを用いた雑音除去

TextonBoost:Joint Appearance, Shape and Context Modeling for Multi-Class Object Recognition and Segmentation 伊原有仁.

状況の制約を用いることにより認識誤りを改善同時に野球実況中継の構造化

PSOLA法を用いた極低ビットレート音声符号化に関する検討

「データ学習アルゴリズム」第2章学習と統計的推測報告者佐々木稔 2003年5月21日 2.1 データと学習

ランダムプロジェクションを用いた音声特徴量変換

大阪教育大学大学院教育学研究科総合基礎科学専攻中窪仁

ベイズ基準によるHSMM音声合成の評価 ◎橋本佳，南角吉彦，徳田恵一（名工大）.

3次キュムラントのバイスペクトラムと PCAによる音声区間検出

メソッド名とその周辺の識別子の相関ルールに基づくメソッド名変更支援手法

Semi-Supervised QA with Generative Domain-Adaptive Nets

動詞の共起パターンを用いた動作性名詞の述語項構造解析

自閉症スペクトラム障害児と定型発達児の識別に関する音響特徴量選択の検討

非負値行列因子分解による構音障害者の声質変換

7. 音声の認識：高度な音響モデル 7.1 実際の音響モデル 7.2 識別的学習 7.3 深層学習.

識別子の命名支援を目的とした動詞-目的語関係の辞書構築

Bottom-UpとTop-Down アプローチの統合による単眼画像からの人体3次元姿勢推定

定兼邦彦今井浩東京大学理学系研究科情報科学専攻

広瀬啓吉研究室４．音声認識における適応手法の開発１．劣条件下での複数音源分離５．音声認識のための韻律的特徴の利用

雑音環境下における非負値行列因子分解を用いた声質変換

音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定

深層学習を用いた音声認識システム工学部　電気電子工学科　白井研究室 T213069　林健吉.

情報検索技術に基づくベクトル表現と深層学習を用いたコード片の類似性判定法

12. 意味・意図の解析 12.1 意味表現とは 12.2 規則による意味解析処理 12.3 統計的な意味解析処理 12.4 スマートフォンでの音声サービスニューラルネットワークによる意味解析.

2018/9/10 ACL読み会名古屋大学大学院　M２佐藤・松崎研土居裕典.

NMF と基底モデルを用いた多重楽音解析 2-P-10 中鹿亘･滝口哲也･有木康雄（神戸大）概要従来手法の問題点提案手法

5母音の認識率(wの本数5) フレーム幅5、シフト幅2 全音素の認識率(wの本数5) フレーム幅5、シフト幅3

複数特徴量の重み付け統合による一般物体認識

テキストマイニング，データマイニングと社会活動のトレース

1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出

構音障害者を対象とした混合正規分布モデルに基づく統計的声質変換に関する研究

論文紹介: “Joint Embedding of Words and Labels for Text Classification”

文書分類モデルの統計的性質に関する一考察

Number of random matrices

SIFTとGraph Cutsを用いた物体認識及びセグメンテーション

Bottom-UpとTop-Down アプローチの組み合わせによる単眼画像からの人体3次元姿勢推定

クロスバリデーションを用いたベイズ基準によるHMM音声合成

AdaBoostを用いたシステムへの問い合わせと雑談の判別

ブースティングとキーワードフィルタリングによるシステム要求検出

設計情報の再利用を目的とした UML図の自動推薦ツール

ベイズ基準による隠れセミマルコフモデルに基づく音声合成

バイラテラルフィルタによる実雑音下音声認識のための音声特徴量抽出

ベイズ音声合成における事前分布とモデル構造の話者間共有

A-17 検索履歴のプライバシーを秘匿したユーザクラスタリング

１ーQー１８音声特徴量抽出のための音素部分空間統合法の検討

音響伝達特性モデルを用いたシングルチャネル音源位置推定の検討 2-P-34 高島遼一，住田雄司，滝口哲也，有木康雄（神戸大）研究の背景

第５回音声ドキュメント処理ワークショップ (2011/3/7)

音響特徴量を用いた自閉症児と定型発達児の識別

制約付き非負行列因子分解を用いた音声特徴抽出の検討

音響伝達特性を用いた単一チャネル音源位置推定における特徴量選択の検討

Webページタイプによるクラスタリングを用いた検索支援システム

1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討

CSP係数の識別に基づく話者の頭部方向の推定

Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in

ランダムプロジェクションを用いた音響モデルの線形変換

雑音環境下における Sparse Coding声質変換 3-P-49d

1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討

プログラム依存グラフを用いたソースコードのパターン違反検出法

Presentation transcript:

複数の言語情報を用いたCRFによる音声認識誤りの検出神戸大学工学研究科情報知能学専攻 CS17　有木研究室松本智彦

研究の背景音声認識結果を用いたサービスを行う場合，音声認識誤りが性能に悪影響を与える例：音声検索発話文書A：民主党は野球に解散するよう・・・認識誤り Hit 検索結果野球・・・

研究の目的入力音声：”民主党は早急に解散するよう・・・” 認識結果：民主党は野球に解散するよう・・・誤り検出：正正誤正正　正　正・・・誤り検出ができると誤り部分を除外⇒音声検索などに利用誤り訂正へ　音声認識各単語が正解か誤りかラベリング

誤り検出に関する従来研究音声認識スコアを用いた手法誤り傾向を示す言語情報の学習意味情報を用いた手法音声認識器の出力する情報誤り部分で出現しやすい言語特徴意味情報を用いた手法周辺単語との類似度

誤り検出に関する従来研究音声認識スコアを用いた手法誤り傾向を示す言語情報の学習意味情報を用いた手法音声認識器の出力する情報誤り部分で出現しやすい言語特徴意味情報を用いた手法周辺単語との類似度

音声認識スコアを用いた誤り検出音声認識器の出力するなどから各単語の信頼度を算出 ⇒信頼度が閾値以下のものを誤りとする音響スコア：はっきりと発話されているかなど言語スコア：出現しやすいn-gramかどうか競合情報：競合候補単語の数など周辺のスコア：誤りの伝搬などから各単語の信頼度を算出 ⇒信頼度が閾値以下のものを誤りとする

誤り検出に関する従来研究音声認識スコアを用いた手法誤り傾向を示す言語情報の学習意味情報を用いた手法音声認識器の出力する情報誤り部分で出現しやすい言語特徴意味情報を用いた手法周辺単語との類似度

誤り傾向を示す言語情報の学習正解部分，誤り部分で出現しやすい特徴を学習する例学習には音声認識結果と対応する正解文書が必要不自然なn-gram ：「と-いう-ます」「し-き-まし」不自然な接続：「未然形-名詞」音素数の多い単語は正解の可能性が高い学習には音声認識結果と対応する正解文書が必要 ⇒出現頻度の低いn-gramについては適切に学習されない

誤り検出に関する従来研究音声認識スコアを用いた手法誤り傾向を示す言語情報の学習意味情報を用いた手法音声認識器の出力する情報誤り部分で出現しやすい言語特徴意味情報を用いた手法周辺単語との類似度

意味情報を用いた誤り検出周辺の認識結果を参照したときに，識別対象単語の出現が自然かどうか例：周辺の認識結果に「裁判」に関する単語が多い中で「大根」の出現は不自然⇒誤りである可能性が高い自然さを意味スコアとして算出する犯罪大根弁護士裁判無罪

意味スコアの算出（１/２） wi w 周辺の内容語との類似度の平均： SC(w) 文脈窓：N単語犯罪裁判大根無罪弁護士単語共起を用いた類似度（LSA）

意味スコアの算出（２/２） wi w SC(w)を窓内のSC(wi)の平均で正規化：SS(w) 犯罪裁判大根無罪弁護士・・・・　・　・・　・　・

意味スコア LSA：正しく書かれた文書のみから学習どの単語と共起しても不自然でない「は」「です」のような機能語に対しては効果がない ⇒内容語として，名詞，動詞，形容詞のみを対象

従来手法 CRFによる検出閾値による検出音声認識スコアを用いた手法誤り傾向を示す言語情報の学習意味情報を用いた手法音声認識器の出力する情報誤り傾向を示す言語情報の学習誤り部分で出現しやすい言語特徴意味情報を用いた手法周辺単語との類似度 CRFによる検出閾値による検出

提案手法 CRFによる検出音声認識スコアを用いた手法誤り傾向を示す言語情報の学習意味情報を用いた手法音声認識器の出力する情報誤り傾向を示す言語情報の学習誤り部分で出現しやすい言語特徴意味情報を用いた手法周辺単語との類似度＋単語重み内容語に対する誤り検出性能を向上させることはできないか CRFによる検出

意味スコアとidfとの組み合わせ（１/２）内容語の中にも「こと」「する」のような頻出単語が含まれる ⇒意味スコアがあまり意味をなさない特定の文書でのみ出現する単語⇒大

意味スコアとidfとの組み合わせ（２/２）意味スコアと誤り単語の割合（誤り率）の関係 idfが大きな単語ほど意味スコアの効果が大きい全体の誤り率

Conditional Random Fieldによる誤り検出素性関数：素性が存在するかしないか素性：特徴とラベルのペア（信頼度0=“0.1”，”誤”）（表層-1=“基本” && 表層0=“周波” ，”正”）（SS0=“-0.1” && idf0=“8”，”誤”）各素性の重みを学習 ⇒　0.315 ⇒　0.119 ⇒　0.359 表層単語所望の基本周波でおばラッパー・・・信頼度 0.7 0.2 0.8 0.0 0.1 品詞名詞助詞 SS * 0.05 -0.1 idf 9 3 6 8 正解ラベル正誤

実験条件（１/２）コーパス：日本語話し言葉コーパス（CSJ） LSA 意味スコアの算出 2,672講演の書き起こし文書（評価データを含まない）文書：内容語が30語程度出現するごとに区切ったもの文書数：76,767　語彙数：48,371　次元数：100 意味スコアの算出文脈窓：前10個，後ろ10個，対象単語の21個

実験条件（２/２）音声認識器：Julius（HMM+trigram）誤り検出モデル：CRF++ 学習評価講演数 150 10 発話数 52,692 2,667 単語数 484,405 22,522 語彙数 10,418 2,348 内容語数 187,154 8,782 機能語数 297,251 13,740 誤り率 23.6% 25.8%

用いた素性音声認識スコア言語情報意味情報信頼度（前後2単語のものを含む）表層単語1-gram，2-gram，3-gram 活用形-表層単語，活用形-品詞読み音素数1-gram，2-gram 意味情報 SC(w)，SS(w)をidfと組み合わせたもの

評価方法検出の正確性適合率＝（正解誤り検出数）/（全誤り検出数）検出の網羅性再現率＝（正解誤り検出数）/（全誤り数）適合率と再現率の調和平均 F値＝（2*適合率*再現率）/（適合率+再現率）全単語，内容語のみ，機能語のみ，それぞれで評価

実験結果誤り検出性能素性全単語内容語機能語 CM 言語意味 idf 適合率再現率 F値 ○ × 0.661 0.507 0.574 0.650 0.459 0.538 0.667 0.531 0.592 0.726 0.571 0.640 0.682 0.546 0.607 0.750 0.585 0.657 0.694 0.076 0.138 0.221 0.336 - 0.736 0.679 0.706 0.701 0.671 0.686 0.754 0.683 0.717 0.684 0.745 0.690 0.758 0.680 0.753 0.687 0.718 0.748 0.700 0.723 0.756 0.716

改善した具体例周辺に「接尾」「活用」「語彙」「助詞」 ⇒「丹後（単語）」「イチゴ（一語）」に誤りのラベル周辺に「対話」「発話」「時間」 ⇒「包帯（おー対話）」「冗談（上段）」に誤りのラベル周辺に「音楽」「歌っ」「弾い」 ⇒「ギター」に正解のラベル

考察意味をもった単語の割合が少ないため，全単語での評価では改善率は低い周辺に頻出単語や認識誤りが多いと意味スコアの性能が落ちる ⇒参照する単語の単語重みや認識スコアなども考慮

まとめと今後の予定まとめ今後の予定従来用いられていた情報に意味スコアを追加することで，特に内容語の誤り検出性能が向上した単語重みと組み合わせることで，意味スコアを有効に活用できた今後の予定他に誤り検出に有効な素性がないか検討 CRF以外の識別器を用いたときとの比較誤り検出から誤り訂正へ

ご清聴ありがとうございました

Latent Semantic Analysis (LSA) 単語文書行列を特異値分解学習データになかった共起関係も予測できる c1・・・ cj・・・ cN v1T・・・ vjT・・・ vNT r1 ・ ri rM W u1 ・ ui uM U S V T ＝ R×R R×N M×N M×R

条件付き確率場(Conditional Random Field) 以下の条件付確率の尤度が最大になるように学習 fa：素性関数　 λa：重み時系列を入力 ⇒グローバルな最適解学習では全てのラベル列を考慮 ⇒精度が安定

学習正解文書ラベリング素性の生成音声認識意味スコア算出認識結果入力音声誤り検出モデル (CRF)

検出検出結果音声認識意味スコア算出認識結果入力音声誤り検出モデル (CRF)

実験結果正解検出性能素性全単語内容語機能語 CM 言語意味 idf 適合率再現率 F値 ○ × 0.841 0.910 0.874 0.853 0.925 0.888 0.833 0.898 0.864 0.861 0.892 0.873 0.754 0.988 0.856 0.808 0.971 0.882 - 0.891 0.915 0.903 0.904 0.883 0.893 0.922 0.908 0.916 0.899 0.894 0.913 0.930

誤り訂正へ誤り情報を音声認識器にフィードバック⇒再認識複数仮設へのラベリング⇒誤りの少ないパスを選択正正正正誤誤誤誤誤

実験結果（１/２）誤り検出素性全単語内容語機能語 CM 言語意味 idf 適合率再現率 F値 ○ × 0.661 0.507 0.574 0.650 0.459 0.538 0.667 0.531 0.592 0.726 0.571 0.640 0.682 0.546 0.607 0.750 0.585 0.657 0.642 0.076 0.136 0.220 0.328 - 0.736 0.679 0.706 0.701 0.671 0.686 0.754 0.683 0.717 0.748 0.684 0.714 0.729 0.681 0.704 0.758 0.685 0.719 0.749 0.688 0.738 0.694 0.716 0.718

実験結果（２/２）正解検出素性全単語内容語機能語 CM 言語意味 idf 適合率再現率 F値 ○ × 0.841 0.910 0.874 0.853 0.925 0.888 0.833 0.898 0.864 0.861 0.892 0.873 0.754 0.985 0.854 0.807 0.964 0.878 - 0.891 0.915 0.903 0.904 0.883 0.893 0.920 0.906 0.908 0.916 0.899 0.894 0.907 0.911 0.927 0.919 0.914