マルチメディア・コンテンツの組織化機構ー映像メディアに対する知的構造化ー有木康雄龍谷大学理工学部電子情報学科

マルチメディア・コンテンツの組織化機構ー映像メディアに対する知的構造化ー有木康雄龍谷大学理工学部電子情報学科

映像メディアに対する知的構造化の目的データベース内容に基づくアクセス構造化されたデータ構造化されていないデータ本電子図書館
ディジタルミュージアム映画ドラマニュース索引要約目次内容の組織化データベース内容に基づくアクセス

今見ているニュースに関連したニュースを要約してみせて
映像メディアに対する知的構造化の課題どうしてこんな事件が起こったの？（因果関係の説明）これまでの経過を分かりやすく解説して（複数トピックの編集）映像データベース首相が構造改革について語っているところを見せて（話者＋トピックの統合）検索編集統合今見ているニュースに関連したニュースを要約してみせて（解析：　検索＋要約）解析

解析と統合におけるアプローチコンテンツ内容記述概念トピックメディア解析・統合記号パターン信号データ意味検索
記述の意味付けトピック検索トピック記号の関連付けメディア解析・統合オブジェクト検索記号認識と索引付けパターン検索パターン分割と分類信号検索信号データ

開発したシステム話者と音声認識の統合システム話者とトピックの総合検索システムテロップと音声の相互検索システム映像要約システム
映像メディア編集支援システム

発話の切り出しとニュース記事の分類，検索
話者と音声認識の統合システム話者認識と話者検索音声認識による内容検索発話の切り出しとニュース記事の分類，検索入力音声音声トランスクリプション Speaker 1: ………. Speaker 2: …… Speaker 1: …… Speaker 3: ………… Speaker 4: … .. Speaker 1: …….. 話者インデキシング Speaker　２ Speaker　３ Speaker　４ Speaker　１トピックの抽出要約

話者と音声認識の統合システムこの画面は，アナウンサの音声の中から重要語を取り出してます．重要語の抽出はχ（カイ）２乗値を用いています．重要語は，右下に緑で表されています．この重要語をもとに，この記事を政治，経済，事件，国際など１０の分野に分類しています．このニュースは新潟の少女監禁事件なので，事件に分類されています．これを応用すれば，ミーティングで，特定の人の発言だけをテキストで読むとか，クリントン大統領の声だけを検索することができます．重要語を多く含む文を抽出すれば，ニュースの要約が可能です．

話者とトピックの統合検索システム話者とトピックの統合検索話者モデルの学習 “Negotiation between・・・・”
話者名と発話内容を指定してビデオクリップを検索 “Negotiation between・・・・” 話者：クリントン内容：中東和平重要語：パレスチナ，　エルサレム，・・・・クリントンが中東和平について語っているところを見せてインデックスデータ話者モデルの学習話者名と話者モデルを自動学習アナウンサの発話から人名クリントンを認識し，それ以後の音声からクリントンの話者モデルを作成する．これにクリントンという名前を自動的に与える． “Clinton Speaks.” “Negotiation between・・・・” アナウンサクリントン

テロップと音声の相互検索システムテロップフレームの検出と認識音声ディクテーションによる内容検索テロップによるニュース音声記事の検索
入力ビデオクリップ音声ディクテーション小渕総理大臣は，引き続き阪神淡路大震災に対して，日本が継続して援助することを約束しました．画像インデキシングトピックの抽出トピックの要約オブジェクトの抽出ニュース記事データベース検索結果

新規性と研究成果話者と音声認識の統合システム，話者とトピックの統合検索システム部分空間射影による話者認識
高精度，少量の個人情報，実時間部分空間射影による話者認識最尤単語バックオフ接続による音声認識高精度，高速化話者名と話者モデルの連想学習話者モデルの自動学習，話者名の自動学習テロップと音声の相互検索システムテロップの自動検出と認識実時間検出，　高精度テロップ認識と音声認識テロップと音声のクロスメディア検索単語空間法によるシソーラスの設計異なる単語間の類似度計算，少数単語での検索連続するパッセージ間の類似度計算，テロップとトピック空間トピックセグメンテーションと要約

映像要約システム－シーン分割と重要シーンの検出－言語情報色情報 Closed Caption 色度数ヒストグラム
メディアの解析と統合演出知識の発見映像の再構成言語情報色情報 Closed Caption 色度数ヒストグラムセリフの特徴に基づく会話分析色変化パターンの検出要約候補の選出要約候補の選出各候補を組み合わせて最終的な要約を作成

映像要約システム言語情報による要約候補色情報による要約候補 1 色情報による要約候補 2 代表的な映画による実験結果フレーム
　　　一貫性のある会話部分色情報による要約候補 1 色類似性大，　色変化小　　　ストーリが展開する場所色情報による要約候補 2 色類似性小，　色変化大映像の「華」となるシーン要約結果代表的な映画による実験結果フレーム要約前要約後 StarWars V 11 分 1分30秒 MASK 60分 14分

映像要約システム色情報の変化による重要シーンの推定発話モデルによる重要シーンの推定ストーリのある映画のダイジェスト化演出知識の発見
色情報の変化から映像の変化パターンを発見発話モデルによる重要シーンの推定台詞を統計的に処理して発話パターンを推定ストーリのある映画のダイジェスト化色情報と言語情報の統合による要約シーンの抽出演出知識の発見色情報と言語情報からのデータマイニング研究成果色情報と言語情報による重要なシーンの推定

検索したビデオクリップを１つのビデオクリップに編集する
映像メディア編集検索したビデオクリップを１つのビデオクリップに編集するハイパーリンク関連トピックのニュースクリップ映像データベース関連トピックのニュースクリップトピック検索集積次の研究は，テロップ認識と音声認識を統合する研究です．これには，テロップフレームを実時間で自動検出して，テロップを認識する技術が含まれています．音声をテキストにする技術は，先ほどと同じものを使います．こうしてテロップをもとにニュース音声を検索することができます．テロップを用いることで，ニュース記事が終わる前に，この記事を分類したり，関連する記事を検索することができます．集積した映像オーバーラップを除き，要約編集した映像

映像メディア編集支援システム映像文法の適用カメラマン指示素材映像指示ディレクタエディタインデキシング検索映像作成映像
絵コンテにあう映像の撮影指示素材映像指示素材映像ディレクタエディタ映像文法の適用絵コンテの作成インデキシング検索映像作成映像データベース

映像文法の例１ショットサイズが急激に変化するものは接続できないカメラワークの途中で映像を切ることはできない
シーンの冒頭はマスターショットで始まる LS MS TS LS MS MS TS 遠距離中距離近距離 MS TS

映像文法の例２対象物の位置関係が不明になる接続はしない対象物に逆の動きをさせない OK NG OK NG 向かい合っている
右に歩いている NG 可能な接続混乱を生じる接続可能な接続混乱を生じる接続

映像の構成要素に関するショット間の相関関係
映像編集におけるルール抽出映像の構成要素に関するショット間の相関関係 MS fix TS Shot size LS MS TS MS TS Camera- work fix pan fix pan fix ・・・ Motion static right static static Color

映像編集におけるルール抽出映像の構成要素に関するショット間の相関関係・・・抽出される相関ルールは・・
MS fix TS Shot size LS MS TS MS TS Camera- work fix pan fix pan fix ・・・ Motion static right static static Color 抽出される相関ルールは・・ Shot size : MS，Camerawork : fix Shot size : TS

映像メディア編集支援システム研究成果映像文法の発見(演出知識の発見) 映像に対する索引付け映像文法と索引を用いた編集支援システム
テレビ局が用いている映像文法映画監督が用いている映像文法映像に対する索引付けカメラワークに基づくショットサイズの判定顔と視線の検出，構図の判定映像文法と索引を用いた編集支援システム PROLOGによる映像文法の表現 MySQLによる索引の表現演出知識の発見色情報と言語情報からのデータマイニング研究成果映像メディア編集支援システム

関連研究メディアの解析技術メディアの統合技術メディアの編集技術音声：音声認識，話者認識，音声／音楽／雑音区間の検出
音声：　　音声認識，話者認識，音声／音楽／雑音区間の検出文字：　　ビデオキャプションの認識言語：　　重要語・文の抽出，トピック検出映像：　　カット検出，シーン検出，カメラワークの検出，人の検出，視線検出，動き検出，ショットサイズ判定，カメラの構図メディアの統合技術連想：　　　　　名前　　　　　顔　(Infomedia) 統合：　　　　　名前，発話内容，ビデオキャプション (BBN, SRI) 統合検索：　　（名前、トピック）　　　　　ビデオクリップ相互検索：　　ビデオキャプション　　　　　音声　(RWCP）映像要約：　　シーン分割　　　　　重要なシーン抽出　 (Infomedia）メディアの編集技術映像編集：　　　　ショットの切り出しと接続コラージュ：　　　　複数の情報を見やすくする (Infomedia2）ディスティラー：　　検索結果から重複を除いて要約する (Infomedia2) ズーミング：　　　　特定のトピックを詳細化する (Infomedai2)

まとめメディア解析と統合メディア編集話者と音声認識の統合システム(H9) 話者とトピックの統合検索システム(H10)

マルチメディア・コンテンツの組織化機構ー映像メディアに対する知的構造化ー有木康雄龍谷大学理工学部電子情報学科

Similar presentations

Presentation on theme: "マルチメディア・コンテンツの組織化機構ー映像メディアに対する知的構造化ー有木康雄龍谷大学理工学部電子情報学科"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

マルチメディア・コンテンツの 組織化機構 ー映像メディアに対する知的構造化ー 有木康雄 龍谷大学理工学部 電子情報学科

Similar presentations

Presentation on theme: "マルチメディア・コンテンツの 組織化機構 ー映像メディアに対する知的構造化ー 有木康雄 龍谷大学理工学部 電子情報学科"— Presentation transcript:

Similar presentations

About project

フィードバック

マルチメディア・コンテンツの組織化機構ー映像メディアに対する知的構造化ー有木康雄龍谷大学理工学部電子情報学科

Presentation on theme: "マルチメディア・コンテンツの組織化機構ー映像メディアに対する知的構造化ー有木康雄龍谷大学理工学部電子情報学科"— Presentation transcript: