2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典
要点 タスク : Meeting speech summarization アノテーションや訓練データは必要ない Multi-Sentence compression graph(MSCG)に関する既存手法を統合 既存手法に加え、word embeddingsを利用 実験 : 音声認識テキストを入力, ROUGEで評価 結果 : 既存手法より精度向上
meeting speech summarization タスクの特徴 自動音声認識(ASR)のテキストを入力とする要約タスク 発話は文法が不正確なこともある ASRの誤認識がノイズになる 訓練データを集めるのが大変
system pipeline 2.発話をいくつかのcommunityにクラスタリング 1.音声認識テキストを調整 4.圧縮文を選択して要約文をつくる 3.各communityから一つの圧縮文を生成
Text Preprocessing ASR (音声認識) のテキストを入力のしやすいように調整 連続するunigram, bigramをひとつに ASRタグ (vocalsound, pause, gap) を取り除く fillerwords (つなぎ言葉)を取り除く 短い発話(less than 3 non-stopword)を取り除く
Communityにクラスタリング それぞれの発話文を話題ごとにクラスタリング 発話文をTF-IDFで重みづけたベクトル空間にマッピング LSAで次元数を減らす k-平均法でクラスタリング 発話文はk個のcommunityに分けられた
Word importance scoring 単語の共起グラフから重要性スコアを決める エッジの重みは両端ノードの単語が共起した回数 (window size = 6) k-core : 周囲のエッジ重みの合計がk 以上あるノードを集めた部分グラフ Core number : そのノードが含まれる最高のk-core CoreRank score : 周囲のノードがもつCore numberの合計
TW-IDF 単語の重要度スコア TW-IDF 後のre-ranking score で使用 Core Rank スコア (TW) が高ければ重要 その単語が現れるcommunityが少なければ重要 後のre-ranking score で使用 t : 単語 d : community D : communityの集合 CoreRank score
Word graph 一つのcommunityを一つのグラフで表す 単語と品詞が同じなら共通のノード 同義語、上位概念なども共通のノード 一つの発話文の中では共通ノードはできない STARTからENDまで、K通りの最短経路を見つける
Edge Weight エッジの重み 小さいほどいい 共通ノードとされた数 頻度が少なく、 近い場所に現れるほどいい 経路Pの距離の逆数 意味が似ているほどいい 単語埋め込み空間の距離
re-ranking score K通りの経路のうち、スコアの最も低い経路がcommunityの圧縮文 Fluency (文法の自然さ) |P|:ノード数 Fluency (文法の自然さ) N-gram 言語モデル Coverage (情報の重要さ)
多様性 (Diversity) のスコア MSCGの単語を 単語埋め込み空間で クラスタリング なるべく多くのクラスタのノードを通る方が、多様性のある文 分子:通るクラスタの数
制約付き 劣モジュラ最大化 Communityの数だけある圧縮文から選択し、 要約文をつくる 目的関数の増加量が最大になるときの圧縮文を、要約文集合に順次加えていく(貪欲法) 制約の単語数を超えないように加える si:要約文の単語 目的関数 wsi:siのCoreRank score nsi:Siの個数 要約文に加わる圧縮文s’ 多様性のスコア
実験 AMIとICSIの2つのデータセットを使用 音声認識テキストのコーパスが入力 評価指標はROUGE-1, ROUGE-2, ROUGE-SU4 人の要約とのn-gram一致度を計算 提案手法の別パターン(MSCGが異なる) (Baseline) 最初のMSCG, 情報性と可読性が弱い (KeyRank) PageRankで情報性を考慮 (FluCovRank) 言語モデルで可読性を考慮
結果 全体的に提案手法がbaselineを上回った 音声認識テキストを入力としているため、ROUGEスコアが全体的に低い
まとめ タスク : Meeting speech summarization アノテーションや訓練データは必要ない Multi-Sentence compression graph(MSCG)に関する既存手法を統合 既存手法に加え、word embeddingsを利用 実験 : 音声認識テキストを入力, ROUGEで評価 結果 : 既存手法より精度向上