マルチメディア・コンテンツの 組織化機構 ー映像メディアに対する知的構造化ー 有木康雄 龍谷大学理工学部 電子情報学科

Slides:



Advertisements
Similar presentations
データベースの基礎知識 ACEESS の基本操作. データベースの基礎知識 データベース  特定のテーマや目的に毎のデータの集合体 データベースソフトウェア  データベースを作成、管理するソフトウェアの総 称 Oracle(Oracle) IBM(DB2) Microsoft(SQL Server)
Advertisements

音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
顔表情クラスタリングによる 映像コンテンツへのタギング
Building text features for object image classification
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第四回 演習課題 画像中からの物体抽出処理(背景情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/15.
聞き手の非言語的反応と 協調的アノテーションに基づく ミーティングキャプチャシステム
リアルタイム単語認識技術を利用した カメラベース情報取得システム
Deep learningによる 読唇システム
知能情報・高度情報処理 マルチメディア・コンテンツの 高次処理の研究
Intelligent Computing Systems Laboratory
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
DRMのコンセプト 2004/01/15 DRM 入江 伸.
音響尤度を用いた マルチスピーカ音響エコーキャンセラの検討
3-Q-28 話者交替を考慮したシステムへの問い合わせと雑談の判別
テキストマイニング, データマイニングと 社会活動のトレース
時空間データからのオブジェクトベース知識発見
ネットで百科 for Library の使いかた
NIIメタデータデータベースの構想 国立情報学研究所 開発・事業部 コンテンツ課 米 澤 誠
マルチメディア・コンテンツの高次処理の研究 マルチメディア・コンテンツの組織化機構
雑音重み推定と音声 GMMを用いた雑音除去
DB マルチメディア・コンテンツの組織化機構 マルチメディア・コンテンツ ①組織化機構 解体・整理の仕事 現実世界に流通するマルチ
異種センサを用いた人の行動検知 研究概要 研究の独自性 isi担当 高汐グループ成果 スライド到着待ち yasu担当.
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
テキストの類似度計算
有人撮影講義ビデオの閲覧・編集支援のための画像・音声切り出し手法の検討
セマンティクスを利用した 図書検索システム
3次キュムラントのバイスペクトラムと PCAによる音声区間検出
固定カメラ映像からの音声情報を 用いた映像コンテンツ生成
メソッド名とその周辺の識別子の 相関ルールに基づくメソッド名変更支援手法
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第三回 演習課題 画像中からの物体抽出処理(色情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/08.
Flashを使用した ミュージックビデオの作成
データ分析基礎c(2012年以降入学) 情報編集基礎c(2011年以前入学)
Microsoft Office クイックガイド ~OneNote 2013~
地理情報システム論演習 地理情報システム論演習
長岡技科大オープンハウス 岐阜高専4年電子制御工学科 森 永二郎.
情報管理論 2018/11/9 情報分析の道具 2018/11/9 情報分析の道具 情報分析の道具.
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
ビデオデータベース.
広瀬啓吉 研究室 4.音声認識における適応手法の開発 1.劣条件下での複数音源分離 5.音声認識のための韻律的特徴の利用
音高による音色変化に着目した音源同定に関する研究
只見町 インターネット・エコミュージアムの「キーワード」検索の改善
雑音環境下における 非負値行列因子分解を用いた声質変換
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
情報検索(6) メディア検索の仕組み 教員 岩村 雅一
テキストマイニング, データマイニングと 社会活動のトレース
1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出
1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出
物体検出による視覚補助システム T215085 若松大仁 白井研究室.
Number of random matrices
Spatial Linker - 空間コンテンツ融合の研究 -
東京工科大学 コンピュータサイエンス学部 亀田弘之
各会話シーン毎に、発話(音源)方向を推定
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
基礎技術ー3 : Webページの標準規格について
AdaBoostを用いた システムへの問い合わせと雑談の判別
ブースティングとキーワードフィルタリング によるシステム要求検出
構造的類似性を持つ半構造化文書における頻度分析
設計情報の再利用を目的とした UML図の自動推薦ツール
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
尤度最大化基準を用いたエコー推定に基づく 車室内音響エコーキャンセラの検討
動画を使って学校紹介クイズ をつくろう! 情報C課題 ⑫.
制約付き非負行列因子分解を用いた 音声特徴抽出の検討
窪田進太郎 有木康雄(神戸大) 熊野雅仁(龍谷大)
CSP係数の識別に基づく話者の 頭部方向の推定
mi-8. 自然言語処理 人工知能を演習で学ぶシリーズ(8)
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
雑音環境下における Sparse Coding声質変換 3-P-49d
1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討
Presentation transcript:

マルチメディア・コンテンツの 組織化機構 ー映像メディアに対する知的構造化ー 有木康雄 龍谷大学理工学部 電子情報学科 ariki@rins.kyukoku.ac.jp

映像メディアに対する知的構造化の目的 データベース 内容に基づく アクセス 構造化されたデータ 構造化されていないデータ 本 電子図書館 ディジタルミュージアム 映画 ドラマ ニュース 索引 要約 目次 内容の組織化 データベース 内容に基づく アクセス

今見ているニュースに関連したニュースを要約してみせて 映像メディアに対する知的構造化の課題 どうしてこんな事件が起こったの? (因果関係の説明) これまでの経過を分かりやすく解説して (複数トピックの編集) 映像データベース 首相が構造改革について 語っているところを見せて (話者+トピックの統合) 検索 編集 統合 今見ているニュースに関連したニュースを要約してみせて (解析: 検索+要約) 解析

解析と統合におけるアプローチ コンテンツ 内容記述 概念 トピック メディア解析・統合 記号 パターン 信号 データ 意味検索 記述の意味付け トピック検索 トピック 記号の関連付け メディア解析・統合 オブジェクト検索 記号 認識と索引付け パターン検索 パターン 分割と分類 信号検索 信号 データ

開発したシステム 話者と音声認識の統合システム 話者とトピックの総合検索システム テロップと音声の相互検索システム 映像要約システム 映像メディア編集支援システム

発話の切り出しとニュース記事の分類,検索 話者と音声認識の統合システム 話者認識と話者検索 音声認識による内容検索 発話の切り出しとニュース記事の分類,検索 入力音声 音声トランスクリプション Speaker 1: ………. Speaker 2: …… Speaker 1: …… Speaker 3: ………… Speaker 4: … .. Speaker 1: …….. 話者インデキシング Speaker 2 Speaker 3 Speaker 4 Speaker 1 トピックの抽出 要約

話者と音声認識の統合システム この画面は,アナウンサの音声の中から重要語を取り出してます.重要語の抽出はχ(カイ)2乗値を用いています.重要語は,右下に緑で表されています.この重要語をもとに,この記事を政治,経済,事件,国際など10の分野に分類しています.このニュースは 新潟の少女監禁事件なので,事件に分類されています.これを応用すれば, ミーティングで,特定の人の発言だけをテキストで読むとか,クリントン大統領の声だけを検索することができます. 重要語を多く含む文を抽出すれば,ニュースの要約が可能です.

話者とトピックの統合検索システム 話者とトピックの統合検索 話者モデルの学習 “Negotiation between・・・・” 話者名と発話内容を指定してビデオクリップを検索 “Negotiation between・・・・” 話者:クリントン 内容:中東和平 重要語:パレスチナ,  エルサレム,・・・・ クリントンが中東和平について語っているところを見せて インデックス データ 話者モデルの学習 話者名と話者モデルを自動学習 アナウンサの発話から 人名クリントンを認識し, それ以後の音声から クリントンの話者モデル を作成する.これに クリントンという名前を 自動的に与える. “Clinton Speaks.” “Negotiation between・・・・” アナウンサ クリントン

テロップと音声の相互検索システム テロップフレームの検出と認識 音声ディクテーションによる内容検索 テロップによるニュース音声記事の検索 入力ビデオクリップ 音声ディクテーション 小渕総理大臣は,引き続き阪神 淡路大震災に対して,日本が継続 して援助することを約束しました. 画像インデキシング トピックの抽出 トピックの要約 オブジェクトの抽出 ニュース記事 データベース 検索結果

新規性と研究成果 話者と音声認識の統合システム,話者とトピックの統合検索システム 部分空間射影による話者認識 高精度,少量の個人情報,実時間 部分空間射影による話者認識 最尤単語バックオフ接続による音声認識 高精度,高速化 話者名と話者モデルの連想学習 話者モデルの自動学習,話者名の自動学習 テロップと音声の相互検索システム テロップの自動検出と認識 実時間検出, 高精度 テロップ認識と音声認識 テロップと音声のクロスメディア検索 単語空間法によるシソーラスの設計 異なる単語間の類似度計算,少数単語での検索 連続するパッセージ間の類似度計算,テロップとトピック空間 トピックセグメンテーションと要約

映像要約システム -シーン分割と重要シーンの検出- 言語情報 色情報 Closed Caption 色度数ヒストグラム メディアの解析と統合 演出知識の発見 映像の再構成 言語情報 色情報 Closed Caption 色度数ヒストグラム セリフの特徴に基づく会話分析 色変化パターンの検出 要約候補の選出 要約候補の選出 各候補を組み合わせて 最終的な要約を作成

映像要約システム 言語情報による要約候補 色情報による要約候補 1 色情報による要約候補 2 代表的な映画による実験結果 フレーム    一貫性のある会話部分 色情報による要約候補 1 色類似性大, 色変化小    ストーリが展開する場所 色情報による要約候補 2 色類似性小, 色変化大 映像の「華」となるシーン 要約結果 代表的な映画による実験結果 フレーム 要約前 要約後 StarWars V 11 分 1分30秒 MASK 60分 14分

映像要約システム 色情報の変化による重要シーンの推定 発話モデルによる重要シーンの推定 ストーリのある映画のダイジェスト化 演出知識の発見 色情報の変化から映像の変化パターンを発見 発話モデルによる重要シーンの推定 台詞を統計的に処理して発話パターンを推定 ストーリのある映画のダイジェスト化 色情報と言語情報の統合による要約シーンの抽出 演出知識の発見 色情報と言語情報からのデータマイニング 研究成果 色情報と言語情報による重要なシーンの推定

検索したビデオクリップを1つのビデオクリップに編集する 映像メディア編集 検索したビデオクリップを1つのビデオクリップに編集する ハイパーリンク 関連トピックの ニュースクリップ 映像データベース 関連トピックの ニュースクリップ トピック検索 集積 次の研究は,テロップ認識と音声認識を統合する研究です.これには,テロップフレームを実時間で自動検出して, テロップを認識する技術が含まれています.音声をテキストにする技術は,先ほどと同じものを使います.こうして テロップをもとにニュース音声を検索することができます.テロップを用いることで,ニュース記事が終わる前に,この記事を分類したり,関連する記事を検索することができます. 集積した映像 オーバーラップを除き,要約 編集した映像

映像メディア編集支援システム 映像文法の適用 カメラマン 指示 素材映像 指示 ディレクタ エディタ インデキシング 検索 映像作成 映像 絵コンテにあう映像の撮影 指示 素材映像 指示 素材映像 ディレクタ エディタ 映像文法の適用 絵コンテの作成 インデキシング 検索 映像作成 映像 データベース

映像文法の例1 ショットサイズが急激に変化するものは接続できない カメラワークの途中で映像を切ることはできない シーンの冒頭はマスターショットで始まる LS MS TS LS MS MS TS 遠距離 中距離 近距離 MS TS

映像文法の例2 対象物の位置関係が 不明になる接続はしない 対象物に逆の動きをさせない OK NG OK NG 向かい合っている 右に歩いている NG 可能な接続 混乱を生じる接続 可能な接続 混乱を生じる接続

映像の構成要素に関するショット間の相関関係 映像編集におけるルール抽出 映像の構成要素に関するショット間の相関関係 MS fix TS Shot size LS MS TS MS TS Camera- work fix pan fix pan fix ・・・ Motion static right static static Color

映像編集におけるルール抽出 映像の構成要素に関するショット間の相関関係 ・・・ 抽出される相関ルールは・・ MS fix TS Shot size LS MS TS MS TS Camera- work fix pan fix pan fix ・・・ Motion static right static static Color 抽出される相関ルールは・・ Shot size : MS,Camerawork : fix Shot size : TS

映像メディア編集支援システム 研究成果 映像文法の発見(演出知識の発見) 映像に対する索引付け 映像文法と索引を用いた編集支援システム テレビ局が用いている映像文法 映画監督が用いている映像文法 映像に対する索引付け カメラワークに基づくショットサイズの判定 顔と視線の検出,構図の判定 映像文法と索引を用いた編集支援システム PROLOGによる映像文法の表現 MySQLによる索引の表現 演出知識の発見 色情報と言語情報からのデータマイニング 研究成果 映像メディア編集支援システム

関連研究 メディアの解析技術 メディアの統合技術 メディアの編集技術 音声: 音声認識,話者認識,音声/音楽/雑音区間の検出 音声:  音声認識,話者認識,音声/音楽/雑音区間の検出 文字:  ビデオキャプションの認識 言語:  重要語・文の抽出,トピック検出 映像:  カット検出,シーン検出,カメラワークの検出,人の検出, 視線検出,動き検出,ショットサイズ判定,カメラの構図 メディアの統合技術 連想:     名前      顔  (Infomedia) 統合:     名前,発話内容,ビデオキャプション (BBN, SRI) 統合検索:  (名前、トピック)     ビデオクリップ 相互検索:  ビデオキャプション     音声 (RWCP) 映像要約:  シーン分割     重要なシーン抽出  (Infomedia) メディアの編集技術 映像編集:      ショットの切り出しと接続 コラージュ:     複数の情報を見やすくする (Infomedia2) ディスティラー:  検索結果から重複を除いて要約する (Infomedia2) ズーミング:    特定のトピックを詳細化する (Infomedai2)

まとめ メディア解析と統合 メディア編集 話者と音声認識の統合システム(H9) 話者とトピックの統合検索システム(H10)