Presentation is loading. Please wait.

Presentation is loading. Please wait.

自然言語処理:第12回 音声翻訳 自動要約概論.

Similar presentations


Presentation on theme: "自然言語処理:第12回 音声翻訳 自動要約概論."— Presentation transcript:

1 自然言語処理:第12回 音声翻訳 自動要約概論

2 音声翻訳 音声認識の目的 声Aが聞こえた時、一番それらしい文W を見つける :文W がどんな声Aで言われるか 音としての性格
            音としての性格         :文W がまともな文か             言葉としての性格

3 音声翻訳 英日統計翻訳 与えられた英文 に対し、最も確率の高い 日本語文 を見つける問題 : 翻訳モデル 英文がその日本語文の
与えられた英文  に対し、最も確率の高い 日本語文   を見つける問題        : 翻訳モデル 英文がその日本語文の         翻訳としてふさわしいかどうか        : 言語モデル  日本語文らしいか

4 音声翻訳 音声認識と統計翻訳では出力が同じ。 特に、右辺の言語モデルは全く同じ。

5 音声翻訳 音声認識の入力 どうやって「あいうえお」を聞き分けているのか? 50音ごとに音色が違う 大きさ (振幅) 高さ(波長) 波の形
=音色 =50音

6 音声翻訳 声帯で音を出し、それを口の動きで加工して、 違う音色にする。 この、口の動きを数値化したものが 「音声特徴量」

7 音声翻訳 韻律等で意味が変わる場合がある そもそも韻律を正しく認識することが難しい 韻律で疑問、平常を表現した場合、これを考慮
しないと、意味が全くことなる 現状の音声翻訳での最大の問題の一つ 意味が反対になるぐらいなら、わからない 方がまし

8 音声翻訳 音声認識と統計翻訳の結合 どちらも統計をベースにしているので、相性がいい ルールベース  音声認識が文法に合わない結果を出す
    音声認識が文法に合わない結果を出す 音声認識で一番良いスコアの認識結果が 一番良い翻訳結果になるとは限らない

9 音声翻訳 音声認識と統計翻訳の結合 音声認識スコアと統計翻訳スコアの合計で評価 音声認識スコアが悪ければ、統計翻訳スコアの
合計で一位にはならないだろう 音声認識スコアの上位N位候補だけ翻訳する (パラメータ推定の時と同じ考え)

10 音声翻訳 音声認識と統計翻訳の結合 音声認識スコアと統計翻訳スコアの合計で評価 効果はあるが、大きくない
認識誤りをおこすと、翻訳結果に大きな影響を 及ぼす場所とそうでない場所がある 音声翻訳のこれからの大きな課題

11 自動要約とは 要約とは 元のテキスト(原文)の内容を、より短いテキストで 簡潔にまとめること、あるいはその結果のテキスト。 自動要約とは
元のテキストを、与えられた要約率で自動的に 要約すること 要約文の文字(文)数  要約率 =  原文の文字(文)数 

12 人間の要約手法 まず、重要な文を抽出し、その文に対し、 次の操作を行う。 不要な句の削除(文短縮) 短縮した文を他の分につなぐ(文結合)
構文的変形 句の言い換え(語彙の入れ替え) 句の具体化/抽象化 文の並び替え

13 人間の要約手法 まず、重要な文を抽出し、その文に対し、 次の操作を行う。 不要な句の削除(文短縮) 短縮した文を他の分につなぐ(文結合)
構文的変形 句の言い換え(語彙の入れ替え) 句の具体化/抽象化 文の並び替え

14 重要文抽出 何らかの情報をもとにして、各文に対して重要度を計算する。 重要度が上位の文から順に、指定された要約率に達するまで、文を選択する。
選択した文を出てきた順に並べる。

15 重要文抽出 重要度とは? テキスト中に含まれる単語の重要度を利用する(重要な単語が含まれる文ほど重要)。
テキスト中の文の位置を利用する(先頭や最後には重要な文が現れやすい)。 タイトル等を利用する(タイトルに現れる語を含む文は重要)。 手がかり表現を利用する(「本講義では...す る」とある場合、...の部分が重要)。

16 重要文抽出 重要度とは? テキスト中に含まれる単語の重要度を利用する(重要な単語が含まれる文ほど重要)。
テキスト中の文の位置を利用する(先頭や最後には重要な文が現れやすい)。 タイトル等を利用する(タイトルに現れる語を含む文は重要)。 手がかり表現を利用する(「本講義では...す る」とある場合、...の部分が重要)。

17 重要文抽出 単語の重要度 1) 文中に現れる名詞を対象とし、そのその出現回数を重要度にする

18 重要文抽出

19 重要文抽出 TF・IDF 特定の分野が与えられた時、その分野のキーワード を探す その分野にだけ、よく出てくる形態素が適切
IDF  log(全分野のドキュメント数 /その形態素が現れたドキュメント数)

20 重要文抽出 TF 全分野でのその形態素の出現数 多ければ、たくさんのドキュメントがヒット (しかし、ゴミが入るかもしれない)
IDF  log(全分野のドキュメント数 /その形態素が現れたドキュメント数)   ドキュメントと絞り込むことができる   (注:全てのドキュメントに現れれば0 重要度 = TF × IDF

21 文短縮 文から重要でない文節を取り除く。 ただし、重要な文節の係先(の係先)は取り除かない。
国民党、/ANC側は/今後も/交渉を/続け、/なお/選挙参加の/道を/開いておくという。 文から重要でない文節を取り除く。 ただし、重要な文節の係先(の係先)は取り除かない。 国民党、/ANC側は/選挙参加の/道を/開いておくという。

22 文短縮 言い換えによる短縮 動作の定義文 説得する:よく話して納得させる 納得する:物事を理解して承認する
承認する:相手の言い分を聞き入れる

23 文短縮 説得する:よく話して納得させる 納得する:物事を理解して承認する 承認する:相手の言い分を聞き入れる 私は彼女に事情を話し、
彼女は私のいうことを理解し、 聞き入れてくれた。 私は彼女を説得した

24 要約の評価 要約システムに改造を加え、その結果性能が 上がったかどうかを調べるためには? 人間が評価すると?
大量の要約結果の評価はコストが大変 公平な評価ができないかもしれない 自動評価

25 要約の評価 重要文抽出に対する評価 人間なら選ぶ文がたくさん選ばれている 人間なら選ばない文がなるべく含まれない
1)  再現率  2)  適合率 再現率と適合率を同時に評価する尺度がF値

26 要約の評価 要約に含まれる重要文数 再現率 = 人間が選んだ重要文数 要約に含まれる重要文数 適合率 = 要約の文数
要約に含まれる重要文数  再現率 =  人間が選んだ重要文数  要約に含まれる重要文数  適合率 =  要約の文数  しかしながら、要約率は予め与えられているので (つまり、文数は固定なので)どちらかだけでよい

27 要約の評価 Pseudo-utility 人間が選んだ重要文の中にも、非常に重要な文と、 そうでないものがあるのでは?
要約率の低い要約でも選ばれた重要文は、 重要度が高い。 要約率の逆数と文の重要度とする。 10%で選ばれれば、重要度1/10 50%なら1/50

28 要約の評価 50%で システム1= 3/5 システム2= 3/5 重みをかけると
人間:1/10+1/30+1/50+1/50+1/30 = 31/150 S1 : 1/ /30 = 13/150 S2 : 1/ /30 = 25/150

29 要約の評価 低い要約率に関しては怪しそう

30 要約の評価 BLEU(機械翻訳の自動評価基準) ある程度の長さの単語列が正しければ情報が 得られる ある程度の長さ = 4
BLEU = 4単語列(4-gram)の適合率 統計翻訳では、翻訳された単語の数は翻訳性能が 変わってもあまり変わらないので、適合率、再現率 どちらかでもいい

31 要約の評価 BLEU(機械翻訳の自動評価基準) ある程度の長さの単語列が正しければ情報が 得られる ある程度の長さ = 4
BLEU = 4単語列(4-gram)の適合率 要約も要約率が与えられれば、語数が同じなので 適合率、再現率どちらかでもいい

32 要約の評価 いい翻訳とは  原文(参照訳)と意味が近い いい要約とは  人間の要約と意味が近い
BLEUは翻訳性能の尺度だから、機械翻訳結果と 参照訳の意味の近さの尺度と言ってもよい だったら、自動要約結果と人手要約の意味の 近さの尺度に使っても良い

33 自動要約の現状 南アフリカの民間の自然動物保護区で、体長3.9メートルのアフリカロック
パイソン(アフリカニシキヘビ)が体重13.8キロの大型のヤマアラシを丸の みして、死んだ。保護区の管理者が26日、明らかにした。  エランド湖動物 保護区(Lake Eland Game Reserve)のジェニファー・フラー(Jennifer Fuller)氏はAFPの取材に、通常であれば、このニシキヘビはヤマアラシを 消化できていただろうと語った。だがこのヘビはヤマアラシを吐き出そうと して、トゲが刺さって死んだという。 フラー氏によると、ヘビはストレスを受けると、逃げるために丸のみにしたも のを吐き出す習性がある。ニシキヘビのお腹が膨れ上がってる様子に驚い て、同保護区を訪れていた多くの人々が集まったことから、ヘビはストレスを 感じたのではないかと同氏は推測している。 このヘビはヤマアラシをのみこんだ6日後に死んだ。 アフリカニシキヘビはアフリカ最大のヘビで、レイヨウなど、ヤマアラシよりも さらに大きな動物を丸のみすることで知られている。

34 自動要約の現状 50%に要約 南アフリカの民間の自然動物保護区で、体長3.9メートルのアフリカロック
パイソン(アフリカニシキヘビ)が体重13.8キロの大型のヤマアラシを丸の みして、死んだ。保護区の管理者が26日、明らかにした。  エランド湖動 物保護区(Lake Eland Game Reserve)のジェニファー・フラー(Jennifer Fuller)氏はAFPの取材に、通常であれば、このニシキヘビはヤマアラシを 消化できていただろうと語った。このヘビはヤマアラシをのみこんだ6日後 に死んだ。

35 自動要約の現状 25%に要約 南アフリカの民間の自然動物保護区で、体長3.9メートルのアフリカロック
パイソン(アフリカニシキヘビ)が体重13.8キロの大型のヤマアラシを丸の みして、死んだ。保護区の管理者が26日、明らかにした。  このヘビは ヤマアラシをのみこんだ6日後に死んだ。

36 複数テキストの要約 複数テキストの要約の必要性 Hogehoge について知りたいと思う。 ぐぐる。 大量にヒットする。

37 複数テキストの要約 大量にヒットする。 仕方がないので、とりあえず最初のテキストを読む(長ければ自動要約する)。
次も読んでみたら、最初のと言ってることが違う。 ????

38 複数テキストの要約 複数テキストの要約の必要性 複数のテキストをまとめて、それを要約として提示することが、非常に有効。

39 複数テキストの要約 単一テキストの要約との違い 関連するテキストを収集する必要がある。 要約率が圧倒的に低い。
重複した、あるいは矛盾した内容をまとめる必要がある。 文を並べる順序を考慮する必要がある。 何についてまとめるかで、結果を変える必要がある。(XXした結果について知りたい場合と、XXした原因につて知りたい場合では違う)

40 今後の応用 検索のためのナビゲーション 端末向けの情報圧縮 障害者への情報提示 議事録、発表資料の作成

41 質問&スライド


Download ppt "自然言語処理:第12回 音声翻訳 自動要約概論."

Similar presentations


Ads by Google