マルチメディア・コンテンツの 組織化機構 ー映像メディアに対する知的構造化ー 有木康雄 龍谷大学理工学部 電子情報学科 ariki@rins.kyukoku.ac.jp
映像メディアに対する知的構造化の目的 データベース 内容に基づく アクセス 構造化されたデータ 構造化されていないデータ 本 電子図書館 ディジタルミュージアム 映画 ドラマ ニュース 索引 要約 目次 内容の組織化 データベース 内容に基づく アクセス
今見ているニュースに関連したニュースを要約してみせて 映像メディアに対する知的構造化の課題 どうしてこんな事件が起こったの? (因果関係の説明) これまでの経過を分かりやすく解説して (複数トピックの編集) 映像データベース 首相が構造改革について 語っているところを見せて (話者+トピックの統合) 検索 編集 統合 今見ているニュースに関連したニュースを要約してみせて (解析: 検索+要約) 解析
解析と統合におけるアプローチ コンテンツ 内容記述 概念 トピック メディア解析・統合 記号 パターン 信号 データ 意味検索 記述の意味付け トピック検索 トピック 記号の関連付け メディア解析・統合 オブジェクト検索 記号 認識と索引付け パターン検索 パターン 分割と分類 信号検索 信号 データ
開発したシステム 話者と音声認識の統合システム 話者とトピックの総合検索システム テロップと音声の相互検索システム 映像要約システム 映像メディア編集支援システム
発話の切り出しとニュース記事の分類,検索 話者と音声認識の統合システム 話者認識と話者検索 音声認識による内容検索 発話の切り出しとニュース記事の分類,検索 入力音声 音声トランスクリプション Speaker 1: ………. Speaker 2: …… Speaker 1: …… Speaker 3: ………… Speaker 4: … .. Speaker 1: …….. 話者インデキシング Speaker 2 Speaker 3 Speaker 4 Speaker 1 トピックの抽出 要約
話者と音声認識の統合システム この画面は,アナウンサの音声の中から重要語を取り出してます.重要語の抽出はχ(カイ)2乗値を用いています.重要語は,右下に緑で表されています.この重要語をもとに,この記事を政治,経済,事件,国際など10の分野に分類しています.このニュースは 新潟の少女監禁事件なので,事件に分類されています.これを応用すれば, ミーティングで,特定の人の発言だけをテキストで読むとか,クリントン大統領の声だけを検索することができます. 重要語を多く含む文を抽出すれば,ニュースの要約が可能です.
話者とトピックの統合検索システム 話者とトピックの統合検索 話者モデルの学習 “Negotiation between・・・・” 話者名と発話内容を指定してビデオクリップを検索 “Negotiation between・・・・” 話者:クリントン 内容:中東和平 重要語:パレスチナ, エルサレム,・・・・ クリントンが中東和平について語っているところを見せて インデックス データ 話者モデルの学習 話者名と話者モデルを自動学習 アナウンサの発話から 人名クリントンを認識し, それ以後の音声から クリントンの話者モデル を作成する.これに クリントンという名前を 自動的に与える. “Clinton Speaks.” “Negotiation between・・・・” アナウンサ クリントン
テロップと音声の相互検索システム テロップフレームの検出と認識 音声ディクテーションによる内容検索 テロップによるニュース音声記事の検索 入力ビデオクリップ 音声ディクテーション 小渕総理大臣は,引き続き阪神 淡路大震災に対して,日本が継続 して援助することを約束しました. 画像インデキシング トピックの抽出 トピックの要約 オブジェクトの抽出 ニュース記事 データベース 検索結果
新規性と研究成果 話者と音声認識の統合システム,話者とトピックの統合検索システム 部分空間射影による話者認識 高精度,少量の個人情報,実時間 部分空間射影による話者認識 最尤単語バックオフ接続による音声認識 高精度,高速化 話者名と話者モデルの連想学習 話者モデルの自動学習,話者名の自動学習 テロップと音声の相互検索システム テロップの自動検出と認識 実時間検出, 高精度 テロップ認識と音声認識 テロップと音声のクロスメディア検索 単語空間法によるシソーラスの設計 異なる単語間の類似度計算,少数単語での検索 連続するパッセージ間の類似度計算,テロップとトピック空間 トピックセグメンテーションと要約
映像要約システム -シーン分割と重要シーンの検出- 言語情報 色情報 Closed Caption 色度数ヒストグラム メディアの解析と統合 演出知識の発見 映像の再構成 言語情報 色情報 Closed Caption 色度数ヒストグラム セリフの特徴に基づく会話分析 色変化パターンの検出 要約候補の選出 要約候補の選出 各候補を組み合わせて 最終的な要約を作成
映像要約システム 言語情報による要約候補 色情報による要約候補 1 色情報による要約候補 2 代表的な映画による実験結果 フレーム 一貫性のある会話部分 色情報による要約候補 1 色類似性大, 色変化小 ストーリが展開する場所 色情報による要約候補 2 色類似性小, 色変化大 映像の「華」となるシーン 要約結果 代表的な映画による実験結果 フレーム 要約前 要約後 StarWars V 11 分 1分30秒 MASK 60分 14分
映像要約システム 色情報の変化による重要シーンの推定 発話モデルによる重要シーンの推定 ストーリのある映画のダイジェスト化 演出知識の発見 色情報の変化から映像の変化パターンを発見 発話モデルによる重要シーンの推定 台詞を統計的に処理して発話パターンを推定 ストーリのある映画のダイジェスト化 色情報と言語情報の統合による要約シーンの抽出 演出知識の発見 色情報と言語情報からのデータマイニング 研究成果 色情報と言語情報による重要なシーンの推定
検索したビデオクリップを1つのビデオクリップに編集する 映像メディア編集 検索したビデオクリップを1つのビデオクリップに編集する ハイパーリンク 関連トピックの ニュースクリップ 映像データベース 関連トピックの ニュースクリップ トピック検索 集積 次の研究は,テロップ認識と音声認識を統合する研究です.これには,テロップフレームを実時間で自動検出して, テロップを認識する技術が含まれています.音声をテキストにする技術は,先ほどと同じものを使います.こうして テロップをもとにニュース音声を検索することができます.テロップを用いることで,ニュース記事が終わる前に,この記事を分類したり,関連する記事を検索することができます. 集積した映像 オーバーラップを除き,要約 編集した映像
映像メディア編集支援システム 映像文法の適用 カメラマン 指示 素材映像 指示 ディレクタ エディタ インデキシング 検索 映像作成 映像 絵コンテにあう映像の撮影 指示 素材映像 指示 素材映像 ディレクタ エディタ 映像文法の適用 絵コンテの作成 インデキシング 検索 映像作成 映像 データベース
映像文法の例1 ショットサイズが急激に変化するものは接続できない カメラワークの途中で映像を切ることはできない シーンの冒頭はマスターショットで始まる LS MS TS LS MS MS TS 遠距離 中距離 近距離 MS TS
映像文法の例2 対象物の位置関係が 不明になる接続はしない 対象物に逆の動きをさせない OK NG OK NG 向かい合っている 右に歩いている NG 可能な接続 混乱を生じる接続 可能な接続 混乱を生じる接続
映像の構成要素に関するショット間の相関関係 映像編集におけるルール抽出 映像の構成要素に関するショット間の相関関係 MS fix TS Shot size LS MS TS MS TS Camera- work fix pan fix pan fix ・・・ Motion static right static static Color
映像編集におけるルール抽出 映像の構成要素に関するショット間の相関関係 ・・・ 抽出される相関ルールは・・ MS fix TS Shot size LS MS TS MS TS Camera- work fix pan fix pan fix ・・・ Motion static right static static Color 抽出される相関ルールは・・ Shot size : MS,Camerawork : fix Shot size : TS
映像メディア編集支援システム 研究成果 映像文法の発見(演出知識の発見) 映像に対する索引付け 映像文法と索引を用いた編集支援システム テレビ局が用いている映像文法 映画監督が用いている映像文法 映像に対する索引付け カメラワークに基づくショットサイズの判定 顔と視線の検出,構図の判定 映像文法と索引を用いた編集支援システム PROLOGによる映像文法の表現 MySQLによる索引の表現 演出知識の発見 色情報と言語情報からのデータマイニング 研究成果 映像メディア編集支援システム
関連研究 メディアの解析技術 メディアの統合技術 メディアの編集技術 音声: 音声認識,話者認識,音声/音楽/雑音区間の検出 音声: 音声認識,話者認識,音声/音楽/雑音区間の検出 文字: ビデオキャプションの認識 言語: 重要語・文の抽出,トピック検出 映像: カット検出,シーン検出,カメラワークの検出,人の検出, 視線検出,動き検出,ショットサイズ判定,カメラの構図 メディアの統合技術 連想: 名前 顔 (Infomedia) 統合: 名前,発話内容,ビデオキャプション (BBN, SRI) 統合検索: (名前、トピック) ビデオクリップ 相互検索: ビデオキャプション 音声 (RWCP) 映像要約: シーン分割 重要なシーン抽出 (Infomedia) メディアの編集技術 映像編集: ショットの切り出しと接続 コラージュ: 複数の情報を見やすくする (Infomedia2) ディスティラー: 検索結果から重複を除いて要約する (Infomedia2) ズーミング: 特定のトピックを詳細化する (Infomedai2)
まとめ メディア解析と統合 メディア編集 話者と音声認識の統合システム(H9) 話者とトピックの統合検索システム(H10)