マルチメディア・コンテンツの組織化機構ー映像メディアに対する知的構造化ー有木康雄龍谷大学理工学部電子情報学科

Slides:

Advertisements

Similar presentations

データベースの基礎知識 ACEESS の基本操作. データベースの基礎知識データベース  特定のテーマや目的に毎のデータの集合体データベースソフトウェア  データベースを作成、管理するソフトウェアの総称 Oracle(Oracle) IBM(DB2) Microsoft(SQL Server)

Advertisements

音声翻訳における機械翻訳・音声合成の性能評価および分析 ☆橋本佳，山岸順一， William Byrne ， Simon King ，徳田恵一名工大 University of Edinburgh Cambridge University

大規模コーパスから獲得した名詞の出現パターンを用いた事態名詞の項構造解析

顔表情クラスタリングによる映像コンテンツへのタギング

Building text features for object image classification

高度情報演習1A　“テーマＣ” 実践画像処理プログラミング〜画像認識とＣＧによる画像生成〜第四回　演習課題画像中からの物体抽出処理（背景情報を手がかりとして）芝浦工業大学工学部　情報工学科青木　義満 2006/05/15.

聞き手の非言語的反応と協調的アノテーションに基づくミーティングキャプチャシステム

リアルタイム単語認識技術を利用したカメラベース情報取得システム

Deep learningによる読唇システム

知能情報・高度情報処理マルチメディア・コンテンツの高次処理の研究

Intelligent Computing Systems Laboratory

知識情報演習Ⅲ（後半第1回）辻慶太（水）

DRMのコンセプト 2004/01/15 ＤＲＭ　入江　伸.

音響尤度を用いたマルチスピーカ音響エコーキャンセラの検討

3-Q-28 話者交替を考慮したシステムへの問い合わせと雑談の判別

テキストマイニング，データマイニングと社会活動のトレース

時空間データからのオブジェクトベース知識発見

ネットで百科 for Library の使いかた

NIIメタデータデータベースの構想国立情報学研究所　開発・事業部コンテンツ課　米澤誠

マルチメディア・コンテンツの高次処理の研究マルチメディア・コンテンツの組織化機構

雑音重み推定と音声ＧＭＭを用いた雑音除去

ＤＢマルチメディア･コンテンツの組織化機構マルチメディア･コンテンツ ①組織化機構解体・整理の仕事現実世界に流通するマルチ

異種センサを用いた人の行動検知研究概要研究の独自性 isi担当高汐グループ成果スライド到着待ち yasu担当.

状況の制約を用いることにより認識誤りを改善同時に野球実況中継の構造化

テキストの類似度計算

有人撮影講義ビデオの閲覧・編集支援のための画像・音声切り出し手法の検討

セマンティクスを利用した図書検索システム

3次キュムラントのバイスペクトラムと PCAによる音声区間検出

固定カメラ映像からの音声情報を用いた映像コンテンツ生成

メソッド名とその周辺の識別子の相関ルールに基づくメソッド名変更支援手法

高度情報演習1A　“テーマＣ” 実践画像処理プログラミング〜画像認識とＣＧによる画像生成〜第三回　演習課題画像中からの物体抽出処理（色情報を手がかりとして）芝浦工業大学工学部　情報工学科青木　義満 2006/05/08.

Flashを使用したミュージックビデオの作成

データ分析基礎ｃ（2012年以降入学）情報編集基礎ｃ（2011年以前入学）

Microsoft Office クイックガイド～OneNote 2013～

地理情報システム論演習地理情報システム論演習

長岡技科大オープンハウス岐阜高専４年電子制御工学科森　永二郎.

情報管理論 2018/11/9 情報分析の道具 2018/11/9 情報分析の道具情報分析の道具.

大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換

ビデオデータベース.

広瀬啓吉研究室４．音声認識における適応手法の開発１．劣条件下での複数音源分離５．音声認識のための韻律的特徴の利用

音高による音色変化に着目した音源同定に関する研究

只見町インターネット・エコミュージアムの「キーワード」検索の改善

雑音環境下における非負値行列因子分解を用いた声質変換

音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定

情報検索(６) メディア検索の仕組み教員岩村雅一

テキストマイニング，データマイニングと社会活動のトレース

1-P-25 3次キュムラントバイスペクトラム特徴とReal AdaBoostによる音声区間検出

1-Q-9 SVMとCARTの組み合わせによる AdaBoostを用いた音声区間検出

物体検出による視覚補助システム T215085　若松大仁　白井研究室.

Number of random matrices

Spatial Linker - 空間コンテンツ融合の研究 -

東京工科大学コンピュータサイエンス学部亀田弘之

各会話シーン毎に、発話（音源）方向を推定

SIFTとGraph Cutsを用いた物体認識及びセグメンテーション

基礎技術ー３ : Ｗｅｂページの標準規格について

AdaBoostを用いたシステムへの問い合わせと雑談の判別

ブースティングとキーワードフィルタリングによるシステム要求検出

構造的類似性を持つ半構造化文書における頻度分析

設計情報の再利用を目的とした UML図の自動推薦ツール

１ーQー１８音声特徴量抽出のための音素部分空間統合法の検討

尤度最大化基準を用いたエコー推定に基づく車室内音響エコーキャンセラの検討

動画を使って学校紹介クイズをつくろう！情報Ｃ課題　⑫.

制約付き非負行列因子分解を用いた音声特徴抽出の検討

窪田進太郎有木康雄（神戸大）熊野雅仁（龍谷大）

CSP係数の識別に基づく話者の頭部方向の推定

mi-8. 自然言語処理人工知能を演習で学ぶシリーズ（８）

グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識

Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in

雑音環境下における Sparse Coding声質変換 3-P-49d

1-P-2 フィッシャー重みマップに基づく不特定話者音素認識の検討

Presentation transcript:

マルチメディア・コンテンツの組織化機構ー映像メディアに対する知的構造化ー有木康雄龍谷大学理工学部電子情報学科 ariki@rins.kyukoku.ac.jp

映像メディアに対する知的構造化の目的データベース内容に基づくアクセス構造化されたデータ構造化されていないデータ本電子図書館ディジタルミュージアム映画ドラマニュース索引要約目次内容の組織化データベース内容に基づくアクセス

今見ているニュースに関連したニュースを要約してみせて映像メディアに対する知的構造化の課題どうしてこんな事件が起こったの？（因果関係の説明）これまでの経過を分かりやすく解説して（複数トピックの編集）映像データベース首相が構造改革について語っているところを見せて（話者＋トピックの統合）検索編集統合今見ているニュースに関連したニュースを要約してみせて（解析：　検索＋要約）解析

解析と統合におけるアプローチコンテンツ内容記述概念トピックメディア解析・統合記号パターン信号データ意味検索記述の意味付けトピック検索トピック記号の関連付けメディア解析・統合オブジェクト検索記号認識と索引付けパターン検索パターン分割と分類信号検索信号データ

開発したシステム話者と音声認識の統合システム話者とトピックの総合検索システムテロップと音声の相互検索システム映像要約システム映像メディア編集支援システム

発話の切り出しとニュース記事の分類，検索話者と音声認識の統合システム話者認識と話者検索音声認識による内容検索発話の切り出しとニュース記事の分類，検索入力音声音声トランスクリプション Speaker 1: ………. Speaker 2: …… Speaker 1: …… Speaker 3: ………… Speaker 4: … .. Speaker 1: …….. 話者インデキシング Speaker　２ Speaker　３ Speaker　４ Speaker　１トピックの抽出要約

話者と音声認識の統合システムこの画面は，アナウンサの音声の中から重要語を取り出してます．重要語の抽出はχ（カイ）２乗値を用いています．重要語は，右下に緑で表されています．この重要語をもとに，この記事を政治，経済，事件，国際など１０の分野に分類しています．このニュースは新潟の少女監禁事件なので，事件に分類されています．これを応用すれば，ミーティングで，特定の人の発言だけをテキストで読むとか，クリントン大統領の声だけを検索することができます．重要語を多く含む文を抽出すれば，ニュースの要約が可能です．

話者とトピックの統合検索システム話者とトピックの統合検索話者モデルの学習 “Negotiation between・・・・” 話者名と発話内容を指定してビデオクリップを検索 “Negotiation between・・・・” 話者：クリントン内容：中東和平重要語：パレスチナ，　エルサレム，・・・・クリントンが中東和平について語っているところを見せてインデックスデータ話者モデルの学習話者名と話者モデルを自動学習アナウンサの発話から人名クリントンを認識し，それ以後の音声からクリントンの話者モデルを作成する．これにクリントンという名前を自動的に与える． “Clinton Speaks.” “Negotiation between・・・・” アナウンサクリントン

テロップと音声の相互検索システムテロップフレームの検出と認識音声ディクテーションによる内容検索テロップによるニュース音声記事の検索入力ビデオクリップ音声ディクテーション小渕総理大臣は，引き続き阪神淡路大震災に対して，日本が継続して援助することを約束しました．画像インデキシングトピックの抽出トピックの要約オブジェクトの抽出ニュース記事データベース検索結果

新規性と研究成果話者と音声認識の統合システム，話者とトピックの統合検索システム部分空間射影による話者認識高精度，少量の個人情報，実時間部分空間射影による話者認識最尤単語バックオフ接続による音声認識高精度，高速化話者名と話者モデルの連想学習話者モデルの自動学習，話者名の自動学習テロップと音声の相互検索システムテロップの自動検出と認識実時間検出，　高精度テロップ認識と音声認識テロップと音声のクロスメディア検索単語空間法によるシソーラスの設計異なる単語間の類似度計算，少数単語での検索連続するパッセージ間の類似度計算，テロップとトピック空間トピックセグメンテーションと要約

映像要約システム－シーン分割と重要シーンの検出－言語情報色情報 Closed Caption 色度数ヒストグラムメディアの解析と統合演出知識の発見映像の再構成言語情報色情報 Closed Caption 色度数ヒストグラムセリフの特徴に基づく会話分析色変化パターンの検出要約候補の選出要約候補の選出各候補を組み合わせて最終的な要約を作成

映像要約システム言語情報による要約候補色情報による要約候補 1 色情報による要約候補 2 代表的な映画による実験結果フレーム　　　一貫性のある会話部分色情報による要約候補 1 色類似性大，　色変化小　　　ストーリが展開する場所色情報による要約候補 2 色類似性小，　色変化大映像の「華」となるシーン要約結果代表的な映画による実験結果フレーム要約前要約後 StarWars V 11 分 1分30秒 MASK 60分 14分

映像要約システム色情報の変化による重要シーンの推定発話モデルによる重要シーンの推定ストーリのある映画のダイジェスト化演出知識の発見色情報の変化から映像の変化パターンを発見発話モデルによる重要シーンの推定台詞を統計的に処理して発話パターンを推定ストーリのある映画のダイジェスト化色情報と言語情報の統合による要約シーンの抽出演出知識の発見色情報と言語情報からのデータマイニング研究成果色情報と言語情報による重要なシーンの推定

検索したビデオクリップを１つのビデオクリップに編集する映像メディア編集検索したビデオクリップを１つのビデオクリップに編集するハイパーリンク関連トピックのニュースクリップ映像データベース関連トピックのニュースクリップトピック検索集積次の研究は，テロップ認識と音声認識を統合する研究です．これには，テロップフレームを実時間で自動検出して，テロップを認識する技術が含まれています．音声をテキストにする技術は，先ほどと同じものを使います．こうしてテロップをもとにニュース音声を検索することができます．テロップを用いることで，ニュース記事が終わる前に，この記事を分類したり，関連する記事を検索することができます．集積した映像オーバーラップを除き，要約編集した映像

映像メディア編集支援システム映像文法の適用カメラマン指示素材映像指示ディレクタエディタインデキシング検索映像作成映像絵コンテにあう映像の撮影指示素材映像指示素材映像ディレクタエディタ映像文法の適用絵コンテの作成インデキシング検索映像作成映像データベース

映像文法の例１ショットサイズが急激に変化するものは接続できないカメラワークの途中で映像を切ることはできないシーンの冒頭はマスターショットで始まる LS MS TS LS MS MS TS 遠距離中距離近距離 MS TS

映像文法の例２対象物の位置関係が不明になる接続はしない対象物に逆の動きをさせない OK NG OK NG 向かい合っている右に歩いている NG 可能な接続混乱を生じる接続可能な接続混乱を生じる接続

映像の構成要素に関するショット間の相関関係映像編集におけるルール抽出映像の構成要素に関するショット間の相関関係 MS fix TS Shot size LS MS TS MS TS Camera- work fix pan fix pan fix ・・・ Motion static right static static Color

映像編集におけるルール抽出映像の構成要素に関するショット間の相関関係・・・抽出される相関ルールは・・ MS fix TS Shot size LS MS TS MS TS Camera- work fix pan fix pan fix ・・・ Motion static right static static Color 抽出される相関ルールは・・ Shot size : MS，Camerawork : fix Shot size : TS

映像メディア編集支援システム研究成果映像文法の発見(演出知識の発見) 映像に対する索引付け映像文法と索引を用いた編集支援システムテレビ局が用いている映像文法映画監督が用いている映像文法映像に対する索引付けカメラワークに基づくショットサイズの判定顔と視線の検出，構図の判定映像文法と索引を用いた編集支援システム PROLOGによる映像文法の表現 MySQLによる索引の表現演出知識の発見色情報と言語情報からのデータマイニング研究成果映像メディア編集支援システム

関連研究メディアの解析技術メディアの統合技術メディアの編集技術音声：音声認識，話者認識，音声／音楽／雑音区間の検出音声：　　音声認識，話者認識，音声／音楽／雑音区間の検出文字：　　ビデオキャプションの認識言語：　　重要語・文の抽出，トピック検出映像：　　カット検出，シーン検出，カメラワークの検出，人の検出，視線検出，動き検出，ショットサイズ判定，カメラの構図メディアの統合技術連想：　　　　　名前　　　　　顔　(Infomedia) 統合：　　　　　名前，発話内容，ビデオキャプション (BBN, SRI) 統合検索：　　（名前、トピック）　　　　　ビデオクリップ相互検索：　　ビデオキャプション　　　　　音声　(RWCP）映像要約：　　シーン分割　　　　　重要なシーン抽出　 (Infomedia）メディアの編集技術映像編集：　　　　ショットの切り出しと接続コラージュ：　　　　複数の情報を見やすくする (Infomedia2）ディスティラー：　　検索結果から重複を除いて要約する (Infomedia2) ズーミング：　　　　特定のトピックを詳細化する (Infomedai2)

まとめメディア解析と統合メディア編集話者と音声認識の統合システム(H9) 話者とトピックの統合検索システム(H10)