2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典.

Slides:



Advertisements
Similar presentations
電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
Advertisements

音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
遺伝的アルゴリズムにおける ランドスケープによる問題のクラス分類
Building text features for object image classification
「わかりやすいパターン認識」 第1章:パターン認識とは
TF-IDF法とLSHアルゴリズムを用いた 関数単位のコードクローン検出法
国内線で新千歳空港を利用している航空会社はどこですか?
Scalable Collaborative Filtering Using Cluster-based Smoothing
圧縮類似度を用いた方言の自動分類 ~ライス符号を用いた前処理~ ~連結クラスタリング法~ ~余弦類似度を用いた方言分類木の評価~
「Self-Organizing Map 自己組織化マップ」 を説明するスライド
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
実験 関数・記号付き文型パターンを用いた機械翻訳の試作と評価 石上真理子 水田理夫 徳久雅人 村上仁一 池原悟 (鳥取大) ◎評価方法1
神奈川大学大学院工学研究科 電気電子情報工学専攻
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
4Y-4 印象に残りやすい日本語パスワードの合成法
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
Web画像を用いた マルチモーダル情報による物体認識
雑音重み推定と音声 GMMを用いた雑音除去
プログラムの動作を理解するための技術として
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
テキストの類似度計算
ランダムプロジェクションを用いた 音声特徴量変換
Semi-Supervised QA with Generative Domain-Adaptive Nets
Buried Markov Modelを用いた 構音障害者の音声認識の検討
非負値行列因子分解による 構音障害者の声質変換
複数尤度を用いた 3次元パーティクルフィルタによる選手の追跡 IS1-39
情報学研究科 通信情報システム専攻 小野寺研究室 M1 奥村 佳弘
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
複数の言語情報を用いたCRFによる音声認識誤りの検出
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
動的依存グラフの3-gramを用いた 実行トレースの比較手法
グラフアルゴリズムの可視化 数理科学コース 福永研究室 高橋 優子 2018/12/29.
利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成
第14章 モデルの結合 修士2年 山川佳洋.
雑音環境下における 非負値行列因子分解を用いた声質変換
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
コード片のベクトル表現に基づく 大規模コードクローン集合の特徴調査
主成分分析 Principal Component Analysis PCA
Data Clustering: A Review
複数特徴量の重み付け統合による一般物体認識
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
非負値行列因子分解に基づく唇動画像からの音声生成
論文紹介: “Joint Embedding of Words and Labels for Text Classification”
Number of random matrices
ベイジアンネットワーク概説 Loopy Belief Propagation 茨城大学工学部 佐々木稔
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
第3章 線形回帰モデル 修士1年 山田 孝太郎.
自己組織化マップ Self-Organizing Map SOM
AdaBoostを用いた システムへの問い合わせと雑談の判別
ブースティングとキーワードフィルタリング によるシステム要求検出
構造的類似性を持つ半構造化文書における頻度分析
データ工学特論 第六回 木村昌臣.
設計情報の再利用を目的とした UML図の自動推薦ツール
メソッドの同時更新履歴を用いたクラスの機能別分類法
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
クラスタリングを用いた ベイズ学習モデルを動的に更新する ソフトウェア障害検知手法
第5回音声ドキュメント処理ワークショップ (2011/3/7)
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
欠陥検出を目的とした類似コード検索法 吉田則裕,石尾隆,松下誠,井上克郎 大阪大学 大学院情報科学研究科
Webページタイプによるクラスタ リングを用いた検索支援システム
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
CSP係数の識別に基づく話者の 頭部方向の推定
識別子の読解を目的とした名詞辞書の作成方法の一試案
ベイジアンネットワークと クラスタリング手法を用いたWeb障害検知システムの開発
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
ランダムプロジェクションを用いた音響モデルの線形変換
雑音環境下における Sparse Coding声質変換 3-P-49d
Presentation transcript:

2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典

要点 タスク : Meeting speech summarization アノテーションや訓練データは必要ない Multi-Sentence compression graph(MSCG)に関する既存手法を統合 既存手法に加え、word embeddingsを利用 実験 : 音声認識テキストを入力,      ROUGEで評価 結果 : 既存手法より精度向上

meeting speech summarization タスクの特徴 自動音声認識(ASR)のテキストを入力とする要約タスク 発話は文法が不正確なこともある ASRの誤認識がノイズになる 訓練データを集めるのが大変

system pipeline 2.発話をいくつかのcommunityにクラスタリング 1.音声認識テキストを調整 4.圧縮文を選択して要約文をつくる 3.各communityから一つの圧縮文を生成

Text Preprocessing ASR (音声認識) のテキストを入力のしやすいように調整 連続するunigram, bigramをひとつに ASRタグ (vocalsound, pause, gap) を取り除く fillerwords (つなぎ言葉)を取り除く 短い発話(less than 3 non-stopword)を取り除く

Communityにクラスタリング それぞれの発話文を話題ごとにクラスタリング 発話文をTF-IDFで重みづけたベクトル空間にマッピング LSAで次元数を減らす k-平均法でクラスタリング 発話文はk個のcommunityに分けられた

Word importance scoring 単語の共起グラフから重要性スコアを決める エッジの重みは両端ノードの単語が共起した回数 (window size = 6) k-core : 周囲のエッジ重みの合計がk 以上あるノードを集めた部分グラフ Core number : そのノードが含まれる最高のk-core CoreRank score : 周囲のノードがもつCore numberの合計

TW-IDF 単語の重要度スコア TW-IDF 後のre-ranking score で使用 Core Rank スコア (TW) が高ければ重要 その単語が現れるcommunityが少なければ重要 後のre-ranking score で使用 t : 単語 d : community D : communityの集合 CoreRank score

Word graph 一つのcommunityを一つのグラフで表す 単語と品詞が同じなら共通のノード 同義語、上位概念なども共通のノード 一つの発話文の中では共通ノードはできない STARTからENDまで、K通りの最短経路を見つける

Edge Weight エッジの重み 小さいほどいい 共通ノードとされた数 頻度が少なく、 近い場所に現れるほどいい 経路Pの距離の逆数 意味が似ているほどいい 単語埋め込み空間の距離

re-ranking score K通りの経路のうち、スコアの最も低い経路がcommunityの圧縮文 Fluency (文法の自然さ) |P|:ノード数 Fluency (文法の自然さ) N-gram 言語モデル Coverage (情報の重要さ)

多様性 (Diversity) のスコア MSCGの単語を 単語埋め込み空間で クラスタリング なるべく多くのクラスタのノードを通る方が、多様性のある文 分子:通るクラスタの数

制約付き 劣モジュラ最大化 Communityの数だけある圧縮文から選択し、 要約文をつくる 目的関数の増加量が最大になるときの圧縮文を、要約文集合に順次加えていく(貪欲法) 制約の単語数を超えないように加える si:要約文の単語 目的関数 wsi:siのCoreRank score nsi:Siの個数 要約文に加わる圧縮文s’ 多様性のスコア

実験 AMIとICSIの2つのデータセットを使用 音声認識テキストのコーパスが入力 評価指標はROUGE-1, ROUGE-2, ROUGE-SU4 人の要約とのn-gram一致度を計算 提案手法の別パターン(MSCGが異なる) (Baseline) 最初のMSCG, 情報性と可読性が弱い (KeyRank) PageRankで情報性を考慮 (FluCovRank) 言語モデルで可読性を考慮

結果 全体的に提案手法がbaselineを上回った 音声認識テキストを入力としているため、ROUGEスコアが全体的に低い

まとめ タスク : Meeting speech summarization アノテーションや訓練データは必要ない Multi-Sentence compression graph(MSCG)に関する既存手法を統合 既存手法に加え、word embeddingsを利用 実験 : 音声認識テキストを入力,      ROUGEで評価 結果 : 既存手法より精度向上