Download presentation
Presentation is loading. Please wait.
1
知能情報・高度情報処理 マルチメディア・コンテンツの 高次処理の研究
1999年10月13日(京大会館) で開催の拡大推進委員会にて報告 知能情報・高度情報処理 マルチメディア・コンテンツの 高次処理の研究 田中 克己 神戸大学自然科学研究科 情報メディア科学専攻
2
本プロジェクトのねらい マルチメディアデータベースの新しいソフトウエア・ プラットフォームの確立 新分野の開拓の可能性
データ中心的なプラットフォーム マルチメディアコンテンツの特性を重視 従来のDBが扱っていない側面を重視 新分野の開拓の可能性 連続メディアの科学,放送とデータベース,演出の科学 「高次処理」=マルチメディアデータベースとしての高度機能(連続メディア・半構造メディア処理機能など)
3
本プロジェクトのターゲット コンテンツの流通基盤としてのデータベース技術 デジタル放送環境のためのデータベース
アクセス管理(版権,課金,CM飛ばし防止など) ユーザ管理(ユーザプロファイル,インタラクション) デジタル放送環境のためのデータベース リアルタイムインデキシング デジタルビデオ(蓄積型)のデータベース インターネット情報資源の活用 サイバースペースを支えるデータベース 情報検索支援のための空間メディア(デジタルミュジアム,都市空間DBなど)
4
関連プロジェクト DVLプロジェクト IBLプロジェクト 「デジタル放送+インターネット」をターゲット
分散オブジェクト技術によるミドルウエア データ放送フォーマット(ビーコン)やEC用メディエータなど IBLプロジェクト リアルタイムインデキシング,ビデオダイジェスト,番組インデックスのデータモデル,など
5
データベース DB構造設計 スキーマ 関係, オブジェクト 部品化 蓄積 出力 検索・管理
検索言語SQL, OQL,… 質問処理,アクセス管理
6
マルチメディア・コンテンツの特性 連続性(どこでも情報単位になり得る!) 半構造性(不確定な情報単位・非定型的な構造)
多様性・多重性(メディア,解釈の多様性) 3次元データ 静止画像 音楽 動画像 身体動作
7
メディアの連続性 (continuous) メディアの連続性 従来の文字数値データ 240.133 ABC
ビデオ映像(1次元),地図(2次元),コンピュータグラフィックス(3次元)など 情報単位があらかじめ決定し難く,かつ,どの部分も検索単位になり得る. 密な索引を付与することが困難. 事実上無限の詳細度レベルがある.
8
“There are no basic units of meaning in film”
連続メディアの情報単位の不確定性 “There are no basic units of meaning in film” - James Monaco (1981) How to Read a Film : The Art, Technology, Language, History and Theory of Film and Media
9
メディアの半構造性 メディアの半構造性 (semi-structured) 従来のDB Web DB 構造的に厳密に定義
構造全体を厳密に定義することが難しい. 情報単位や分類構造が不確定 関係データベース形式 メディアの半構造性 (semi-structured)
10
メディアの多様性・多重性 マルチストリーム性 メディアの多様性 映像,音声, 多地点 ビデオ テロップ SMIL 文書 身体動作 データ
制裁 期限 を 目的 に 控えた 日米 自動車 問題 を めぐる 身体動作 データ SMIL 文書
11
連続メディアと半構造メディア のためのデータベース
?検索結果視覚化 ?加工・再構造化 ?情報単位は ?スキーマ ?関連付け ?リアルタイム性 部品化 蓄積 出力 検索・管理 ?情報ブラウジング? ?索引生成 ?質問形成,ビュー ?アクセス管理
12
本プロジェクトのアプローチと 新規性 配信・提示 情報組織化と概覧 出力 部品化 蓄積 管理 検索・管理 索引付けと検索
・放送メディア・空間メディアによる提示 ・フィルタリングと合成 時系列データの新鮮度判定 デジタル放送のsocial filtering 視聴者のインタラクション リアルタイム編集 同期化・ダイジェスト化・番組化 出力 部品化 蓄積 検索・管理 情報組織化と概覧 ・複数メディアの解析結果 の統合 ・マルチメディアスキミング (要約,圧縮) ・番組化 ・複数メディア情報の重畳 表示と詳細度制御 ・情報単位の推定と自動 分類 管理 ・詳細度制御 ・自律的な版権・課金管理 ・データ放送の有効時間管理・版管理 ・アクセス管理 依存関係のあるデータの アクセス権管理や巡行履歴に 基づくリンク活性化 索引付けと検索 疎で軽い索引モデルと代数的検索モデル 質問形成支援(空間内でのユーザ振舞)
13
マルチメディア・コンテンツの 統合とメディア変換
マルチメディア・スキミング 単なる要約技術との差異 文章→要約文章 ビデオ→要約ビデオ Webからガイドマップ,略地図と行き先案内 WebのTV番組化 多地点ビデオのスキミング
14
対象データのイメージとデータモデル 連続メディアと半構造メディアの統合とこれに基づく索引モデルや検索モデル
1次元:ビデオ+半構造情報(XML索引) 2次元:地図+半構造情報(XML索引) 3次元:3D空間+半構造情報(XML索引) 情報組織化,結果提示(マルチメディア・スキミング等)にまで広げたプラットフォーム
15
組織化と概覧 映像 空間 半構造(Web) 複数メディアの統合による組織化 スキミング
2次元画像による断片的表現+アバタによるwalkthrough 多メディア情報の重畳表示 空間に依存した詳細度制御 空間情報の抽象化(ランドマーク計算) 半構造(Web) 情報単位(部分グラフ)の推定と分類
16
索引付けと検索 疎で軽い索引モデル(Light and Sparse Index Model)
空間内での人間やアバタの振る舞いに基づく質問形成
17
管理 管理 詳細度制御 自律的な版権・課金管理 (放送型)ハイパーメディア情報の有効時間管理・版管理 アクセス管理
依存関係のあるデータのアクセス権管理 巡行履歴に基づくリンク活性化
18
配信におけるフィルタリングと合成 映像のsocial filtering 同期化,ダイジェスト化,番組化 視聴者のインタラクション
放送データのフィルタリング・合成 (時系列データからの新鮮度計算含む) リアルタイムオーサリングとリアルタイム編集・配送
19
映像の組織化 情報単位(トピック)の 抽出・分類・関連付けと要約(スキミング) 複数メディアの活用 音声メディア
ディクテーション,重要語抽出,記事分類 文字メディア テロップ切出し,認識,重要語抽出,記事分類 映像メディア シーンカット検出,記事切出し,スポーツニュースの分類
20
映像の組織化 ニュース記事の切り出し スポーツ映像の分類 音声認識による記事分類 テロップ文字認識による記事分類 TV
ニュース映像の情報検索 Loop Point Cut Point A1 A2 A3 ディジタルビデオ 記事クラスタ この単語は? この人は誰? スポーツ・野球? PKOって何? 画像指示 音声入力 PKO TV WS 音声認識による記事分類 分類表索引 自動車 キャスター音声 制裁 大蔵 日米 問題 ニュース記事 10分類 分類結果 政治 分 類 確 率 時間 ディクテーション 経済 政治 テロップ文字認識による記事分類 (a)ニュース映像 (b)文字領域の 切り出し (c)認識 (d)形態素 (e)キーワード (f) 分類 北朝鮮浬不届 コメ援 *北朝鮮、15-浬、 10-不、 10-届、 北朝鮮、コメ、援助、要請 国際、経済
21
内容記述間のコサイン相関による意味的構造の発見メカニズム
映像の組織化と概覧 内容記述間のコサイン相関による意味的構造の発見メカニズム Unchanged Multiplexing 疎で軽い索引モデル カット区間の類似性に基づく意味構造の発見 代表カットの抽出とスキミング Unchanged 互いに類似 映像データ 現在のショットにつけられた内容記述 意味的構造 類似度閾値 キーワード Video interval ショットの再生方法 通常 早送り ( ) 代表ショット a a+1 a+2 b Gradually changing a a+1 a+2 b Multiplexing (多重度= 2) Subsequence 1: a a+2 b-1 Subsequence 2: a+1 a+3 b
22
映像の索引付けと検索 疎で軽い索引モデル グラフ理論的アプローチ 時刻印付きオーサリンググラフ
検索インタフェース 検索文 サイボーグ が 敵 と 戦っている シーン サイボーグ 009 敵 と 戦う ビデオ 時間 敵 に囲まれる 周りの 敵 に乱射 敵 を撃つ 敵 を投げ飛ばす 00:00:49:12 00:00:51:19 00:00:53:10 00:00:56:09 00:00:57:10 00:00:54:24 キーワード カット一覧 検索結果 の映像 記述インタフェース すべてのキーワードを含む極小部分グラフに対応する映像部分の検索
23
映像の検索 検索モデル グルー操作 フィルター操作 疎で軽い索引モデルと検索の情報単位の不確定性を前提 検索モデルの理論的基盤の確立を目指す
与えられた区間群を含む最小区間を求める演算. フィルター操作 グルー操作の結果,得られた区間をさらにフィルタリング(区間長,ノイズ長,区間の前後関係など) キーワードxを持つ区間集合Xと キーワードyを持つ区間集合Yの グルー演算式
24
空間メディアの組織化と概覧 静止画とアバタ画像を用いた擬似三次元空間の構築 アバタ画像操作に基づくウォークスルー
XMLに基づく柔軟性の高いシーン記述言語
25
空間メディアの組織化と概覧 拡張現実ハイパーメディアName-at 距離による空間記述データの詳細度制御と重畳表示
Zoom-Out & LoD Zoom-In LoD : Levels of Detail オブジェクトまでの距離による情報量の御 拡張現実ハイパーメディアName-at ビデオデータ(遠隔制御可能な定点観測カメラ) 空間データ基盤 空間記述データ(名前,URL等) 距離による空間記述データの詳細度制御と重畳表示 [基本機能] ・ カメラの遠隔操作 ・ 注釈; 文字の配置 ・ 拡張現実空間への情報のエントリと削除 ・ クリック可能な拡張現実空間 ・ 情報の詳細度の自動調整 (LoD) ・ プライバシを考慮する機構 ・ WWWブラウザとの連携
26
空間メディアの組織化と概覧 領域内のランドマーク計算 距離・方向・視野による詳細度制御
tf/idf法の拡張(特徴的な属性情報+大きな面積占有率) 距離・方向・視野による詳細度制御 階層的な空間記述(XML等) サンプル選択からの質問形成と結果の空間配置 領域呈示 + ランドマーク 鉄製 木製 アメリカ 日本 机 A社 B社 ゾーン呈示 ランドマーク選択 視野に依存した差別化呈示 ランドマーク呈示
27
空間メディアの組織化と概覧 空間メディアへのビデオ映像の統合 ビデオデータ検索のための仮想空間ブラウジング
仮想時空間における時間ウォークスルー LoD の時間軸拡張
28
空間メディアを用いた検索 ガイドペット アバタの時空間行動分析とその応用 注目時間による空間の動的生成(個人化)
時空間行動ログによるスキミング再生 “注目”した時間から人の好みを求める 仮想空間の動的生成 何かに“注目”しているシーンは重要と考える スキミング再生
29
空間メディアを用いた検索 ウオークスルーとサンプル選択による質問形成 検索結果の空間配置 Query
30
空間メディアを用いた検索 融合 映像データベース 映像 パラメータ 利用者 場 現実世界 マルチモーダルインタフェース 意図理解
SQLの生成とシーン検索 周囲環境 検索シーン 融合 場の状況 動コンテンツの姿勢 位置、速度、色、形状等 実時間での動コンテンツ データ蓄積 場 現実世界のシーン 現実世界 検索データと場との連続性を重視した提示 (3次元モーフィング、パラメータ利用)
31
半構造メディア(Web情報)の 組織化 不確定な意味的情報単位の抽出 Web文書群の自動分類
ユーザの視点や目的に応じた自動分類と段階的修正 Kohonen の自己組織化マップと既存の検索エンジンを利用
32
半構造メディア(Web情報)の組織化 「Web」 「組織化」 Webグラフ中の意味的単位の検索 トピックB トピックA トピックC
検索={ Web,組織化 } {multimedia, content}での検索結果の自動分類
33
マルチメディア・コンテンツの管理: 詳細度制御
自律的な版権・課金管理機構 カプセル化コンテンツ方式とサービスレンジ課金方式 配送時間制御機能を持つWWWサーバー 配送時間とQoS 20秒 狭帯域クライアント (ダイヤルアップ接続 等) 広帯域クライアント (LAN接続 等) 動的な 品質調整 配送時間指定 ブラウザ画面 オリジナルページ 詳細度低下 詳細度向上 サービスレンジ課金
34
マルチメディア・コンテンツの管理 版権・課金処理のプログラムロジックとデータをカプセル化して流通させる方式と.詳細度とbehaviorを課金額に応じて選択できるサービスレンジ課金方式(課金範囲内で詳細度や振る舞いを変更可能) VRMLデータ 付加情報 ObjectStoreDB 詳細度レベル制御機能 コンテンツが,そのユーザの課金コスト内で多様なサービスを提供 authorized 永続化 カプセル化 unauthorized サービスの利用・変更 データ VRMLデータ カプセル化コンテンツが,ユーザ認証により版権を管理 付加情報 ユーザ認証 ユーザ認証 メソッド 課金管理 Permission Denied 版権管理 課金管理 サービス レンジ LOS制御 etc… 版権管理・課金管理 VRMLデータとユーザ認証等のメソッドを一体化
35
マルチメディア・コンテンツの管理: 一貫性制御
C10 6月の予定 6/1 … 6/15 … C10 C11 6月の予定 6/1 … 6/15 … 6月の予定 6/1 … 6/15 … [6/1,6/30] [6/1,6/30] [6/1,6/10] C20 C11 6月の予定 6/1 … 6/15 中止 6月の予定 6/1 … 6/15 … (起動していないため 受信できない) [6/1,6/30] [6/1,6/10] C30 7月の予定 7/1 … 7/2 … C30 内容の更新 7月の予定 7/1 … 7/2 … 有効時間の変更 [7/1,7/31] [7/1,7/31] サーバ側:バージョンを2分木で管理 クライアント側:バージョンをリストで管理
36
マルチメディア・コンテンツの管理: アクセス制御
各ユーザのアクセス権の一貫性の判定 依存関係を有するデータのアクセス権管理 AND-ORグラフと排他関係による依存関係のモデル化 ユーザのアクセス権に応じた動的なビュー生成 アクセス権の与え方の一貫性判定.逆向き閉包を用いた効率の良い計算法 一部のデータのアクセス権から残りのデータのアクセス権を補完 ユーザ1:{a, b, c, d} →× ユーザ2:{a, b, d, e} →○ ユーザ3:{d, e} →○ a or b c d or e f アクセス権に応じた ビューの動的生成 (3D-CADデータの例)
37
放送型配信環境における フィルタリングと合成
ユーザ プロファイル ニュース フィードバック News on Demand + Social Filtering 利用者が興味を持つニュースは高品質で再生できるよう,フィルタリングによって興味の高いニュースは事前転送 それ以外はストリーミングによる配送 コミュニティによるフィルタリング コミュニティC3 コミュニティC1 コミュニティC2 従来の自分中心のフィルタリング ユーザ
38
放送型配信環境における フィルタリングと合成
野球でのダイジェスト生成機構 テレビ映像 映像DB 電子スコアブック生成 プレゼン用 テキスト生成 プロファイル シナリオ選択 入力 プレゼンテーション イベント生成 映像とテキストをSMILで 同期化させたオンデマンド マルチメディア プレゼンテーション
39
放送型配信環境における フィルタリングと合成
Internet AgentCast Scenario Manager AgentStudio 対話型テレビ番組作成システム 対話型テレビ番組をソフトウェアエージェントとして放送波で配信する機構 AgentCast エージェントによりスタジオを半自動化する AgentStudio シナリオ記述言語で記述されたシナリオにしたがってAgentCast と AgentStudio に対して要求を出し,映像・音声とエージェントをタイミング良く配信する機構を実現
40
放送型配信環境における フィルタリングと合成
プッシュ型情報提供システムのための仮想チャネル ・Pointcastデータのフィルタリング・合成により,ユーザ独自のチャネル定義が可能 ・複数チャンネルの配分比率が可能な,「アナログチャネル」を実現 ・XMLを用いて実装, TVMLを用いた自動番組化(種々の番組メタファー) control panel filter & synthesizer real channel filtered channel virtual TV channel TVMLによる自動番組化 articles of real channel
41
放送型配信環境における フィルタリングと合成
索引付きライブ映像の放送型配信とフィルタリング・編集 ・映像データのリアルタイムな索引付け機構の実現(音声認識,該当区間の推定) ・複数のライブ映像と索引などのメタデータを一体化してマルチキャストで配送 ・索引の重要度に応じて放映中の番組に挿入 進行スケルトン 音声認識による索引付け
42
連続メディアの代数的検索モデル 検索モデル グルー操作 フィルター操作 疎で軽い索引モデルと検索の情報単位の不確定性を前提
検索モデルの理論的基盤の確立を目指す グルー操作 与えられた区間群を含む最小区間を求める演算. フィルター操作 グルー操作の結果,得られた区間をさらにフィルタリング(区間長,ノイズ長,区間の前後関係など) キーワードxを持つ区間集合Xと キーワードyを持つ区間集合Yの グルー演算式
43
連続メディアの代数的検索モデル 犬 犬 人 人 グルー操作は,ペアワイズなグルー操作式に還元可能
フィルタ操作Fw(区間長によるフィルタ) Fwは以下の式を満たすため処理の効率化可能.
44
連続メディアの代数的検索モデル F(XY)=F(F(XX)F(YY)) 最適化フィルタの利点 演算処理の効率化 フィルタの順序が自由
フィルタの分配化可能な必要十分条件 任意の区間 i に対し,F(i)= iであるならば,i のすべての部分区間 i’ においてF(i’)= i’ であること。 F(XY)=F(F(XX)F(YY)) 最適化フィルタの利点 演算処理の効率化 フィルタの順序が自由 フィルタの合成が可能 F2(F1(I))=F1(F2(I)) 2つの最適化フィルタF1,F2を F3(I)=F1(I)F2(I)、F3(I)=F1(I)F2(I) のように合成したとき F3 も最適化フィルタ
45
連続メディアの代数的検索モデル 3つの最適化可能フィルタ タイムウィンドウフィルタ 最長ノイズフィルタ 順序関係フィルタ ka
kb FS(kakb) ka kb FE(kakb) 3つのキーワード間 の順序関係 FS(kakbkc)(I)=FS(kbkc)(FS(kakb)(I)) 順序関係フィルタと最長ノイズフィルタを組み合わせると 2つのキーワードの時間関係を11種類に分けられる
46
連続メディアの代数的検索モデル グルー演算を2次元に拡張可能 1次元 区間集合X,Y XY=XXYY
F(XY)=F(F(XX)F(YY)) 2次元 領域集合X,Y XY=XXXXYYYY F(XY)=F(F(XXXX)F(YYYY))
47
連続メディアの代数的検索モデル cey csy cex csx a1 a2 a3 a4 a1 a2 a3 a4 Y 空間グルー X
領域 r a1 a2 a3 a4 オブジェクト={a1,a2,a3,a4} 空間グルー a a a a4 = r[csx,csy,cex,cey]
48
連続メディアの代数的検索モデル cey(a1) csy(b1) cex(b1) csx(a1) a1 b1
空間グルー演算 オブジェクト a1 属性:office X Y cey(a1) csy(b1) cex(b1) csx(a1) a b1 オブジェクト b1 属性:restaurant office と restaurant が存在する領域 a b1 = r[csx(a1),csy(b1),cex(b1),cey(a1)]
49
連続メディアの代数的検索モデル ペアワイズグルー演算 Y X office : A={a1,a2,…,am}
restaurant : B={b1,b2,b3…,bn} X Y a1 b1 b2 b3 b4 a2 a4 a3 ・・ ・ A B = A B = { r | ∃a∈A.∃b∈B. r = a b }
50
連続メディアの代数的検索モデル パワーセットグルー演算 Y X office : A={a1,a2,…,am}
restaurant : B={b1,b2,…,bn} a1 b1 b2 b3 b4 a2 a4 a3 a b b b3 a b b2 a b b4 a b b b4 a a b b b4 A B = { r | ∃A’⊆A.∃B’⊆B. A’≠φ. B’≠φ r = ( A’∪B’) }
51
連続メディアの代数的検索モデル A={a1,…,am} B={b1,…,bn} パワーセットグルー演算の効率化
A B パワーセットグルー演算 グルーの組み合わせ:2 ×2 m n 計算量:O(2 2 ) m n A B = (A A A A) (B B B B) 計算量:O(m n ) 4
52
連続メディアの代数的検索モデル フィルタリングによる演算の効率化 F (A B) = F((A A A A) (B B B B))
F (A B) = F ( F (A A A A) F (B B B B)) 計算の初期段階で不適切な解をあらかじめ除去 この式変換が成立すれば演算の効率化が可能
53
? 連続メディアの代数的検索モデル 空間ノイズフィルタ 検索中のオブジェクトが占める面積 ノイズ = 1 - 空間グルーの面積
apartment office restaurant ? 検索中のオブジェクトが占める面積 ノイズ = 1 - 空間グルーの面積 空間ノイズフィルタ ノイズを閾値とするフィルタ
54
連続メディアの代数的検索モデル 空間ノイズフィルタの場合,補償が必要 A B = (A A A A) (B B B B)
FN(A B) =FN ( FN (A A A A) FN (B B B B)) ∪ FN ( FN (A A B B) FN (A A B B))
55
連続メディアの代数的検索モデル フィルタの満たす必要十分条件 F ( I J ) = Z
である領域集合 Z が存在し,任意の z ∈ Z が z = i j (ただし i ∈ I , j ∈ J) であるとき,全ての領域 i , j に おいて,F(i) = I かつ F( j) = J である. フィルタ関数がこの条件を満たすとき 演算の効率化が可能
56
本プロジェクトのデータベース的側面 The Network Is the Multimedia Database!
検索(retrieval)から探査(exploration) データモデルから検索モデル 検索単位の不確定性,索引の断片性 連続メディア,半構造データ 情報組織化(information organization) ≧ data mining コンテンツの内容と構造両者に基づく組織化 複数メディアにまたがる組織化
57
データベースプロジェクトとしての ポイント
スキーマ主導パラダイムからの脱却 情報の構造化,組織化 データモデルから検索モデル 新しい情報提示技術
58
Asilomarレポート(98/9) Bernstein, Brodie, Ceri, DeWitt, Franklin, Garcia-Molna, Gray, Held, Hellerstein, Jagadish, Lesk, Maier, Naughton Pirahesh, Stonebraker, Ullman 今後10年のDB研究のあり方: delta-Xからforward looking Webがすべてを変えた. DBコミュニティの貢献少ない. Webの変貌(動的コンテンツ,XML) Web情報の発見と解析技術が重要
59
Asilomarレポート:重要テーマ Plug & Play DBMS (self-tuning, information discovery) 何百万のDBSの連邦化 伝統的DBSアーキテクチャの見直し データとプログラムの同等の扱い 構造データと半構造データの統合 ゴール Make it easy for everyone to store, organize, access and analyze the majority of human information online
60
開拓分野 連続メディア工学,時空間データ工学,コンテンツ工学 演出の科学,プレゼンテーションの科学,ドラマツルギー
放送環境のデータベース,DB家電
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.