マルチメディア・コンテンツの高次処理の研究 マルチメディア・コンテンツの組織化機構 目的 マルチメディア・コンテンツから,重要なトピックや関心の高いトピックを検索するために,マルチメディア・コンテンツを構成要素に分解して構造化し,トピックに組み立てる. 内容 放送メディアでは,速報性の高いニュース番組を対象として音声・画像・文字を認識し,インデクスを抽出して記事(トピック)を分類した.通信メディアでは,膨大なWeb文書を対象に意味的にまとまりのあるトピック構造を抽出した.ビデオ映像では,空間記述データを基にトピックを抽出し,映像データと空間データの統合方法を研究した. ディジタル放送 インターネット ライブ映像 トピックのブラウジング と検索 トピック(イベント) の検出 音声,画像,文字 テキスト 空間記述データ マルチメディア ・コンテンツ
ニュース映像の組織化 目 的 放送のディジタル化により多チャンネル化が進むと,聞きたいニュースだけを選択して見たり,要約したり,関連する情報を検索したりする機能が要求される.これらの要求に答えるため,①連続的に放映されているニュース番組の中からトピック(ニュースの話題)を自動的に切り出す,②切り出したトピックをクラスタリングして関連づける,③トピックの重要な部分だけを抜き出して要約する機構の開発を目的としている. 内 容 音声メディアに対してディクテーションを行い,重要語を抽出してインデクスとし,これを基に記事を分類した.文字メディアに対しては,テロップを切り出して認識し,重要語をインデクスとして付与し,これを基に記事を分類した.映像メディアに対しては,シーンカットを検出して記事を切り出した.また,スポーツニュースの分類を行った. ニュース映像の情報検索 Loop Point Cut Point A1 A2 A3 ディジタルビデオ 記事クラスタ この単語は? この人は誰? スポーツ・野球? PKOって何? 画像指示 音声入力 PKO TV WS ニュース記事の切り出し スポーツ映像の分類 音声認識による記事分類 分類表索引 自動車 キャスター音声 制裁 大蔵 日米 問題 ニュース記事 10分類 分類結果 政治 分 類 確 率 時間 ディクテーション 経済 政治 テロップ文字認識による記事分類 (a)ニュース映像 (b)文字領域の 切り出し (c)認識 (d)形態素 (e)キーワード (f) 分類 北朝鮮浬不届 コメ援 *北朝鮮、15-浬、 10-不、 10-届、 北朝鮮、コメ、援助、要請 国際、経済
Web文書の組織化 「Web」 「組織化」 Webグラフ中の意味的単位の検索 目 的 トピックB 目 的 Web文書は,情報単位や分類体系が不確定であり,これを補うための組織化機構の確立を目的とする. 内容(I) 意味的情報単位の抽出 Web文書やネットニュースのグラフ構造からの「意味的な情報単位」にあたる部分グラフの発見 部分グラフ単位の検索 Web文書グラフ中の文脈構造の抽出 内容(II) Web文書群の自動分類 インターネットで動的に収集されたWeb文書群の,ユーザの視点や目的に応じた自動分類 Kohonen の自己組織化マップと既存の検索エンジンを利用 ユーザの視点や目的に応じて自動分類結果を段階的に修正可能 トピックA トピックC トピックB 「組織化」 Webグラフ中の意味的単位の検索 検索={ Web,組織化 } {multimedia, content}での検索結果の自動分類
空間記述データを用いたビデオデータの組織化と応用 目 的 現実世界の事象を記録するビデオは,その事象発生の位置と撮影したカメラの位置(以下,空間記述データ)で特徴付けることができる.この空間記述データは,将来,センサーを用いて生成できる安価な情報と考えられる.一方,現在,世界規模でインターネット上での地球・都市空間データの流通のための「空間データ基盤」の標準化・実用化が産官学から進められている.ビデオデータの組織化のために,空間記述データと空間データ基盤とを高度利用できる枠組みの研究を行っている. 内 容 遠隔から制御可能な定点観測カメラからのライブビデオに映っている地物に対して対話的に「名前」そして「アンカー」を付けることにより,ビデオの中の内容を組織化する拡張現実ハイパーメディアシステムName-at の研究を行っている. Zoom-Out & LoD Zoom-In LoD : Levels of Detail オブジェクトまでの距離による情報量の制御 [基本機能] ・ カメラの遠隔操作 ・ 注釈; 文字の配置 ・ 拡張現実空間への情報のエントリと削除 ・ クリック可能な拡張現実空間 ・ 情報の詳細度の自動調整 (LoD) ・ プライバシを考慮する機構 ・ WWWブラウザとの連携
マルチメディア・コンテンツの高次処理の研究 マルチメディア・コンテンツの内容記述・検索モデル はじめに マルチメディア・コンテンツをデータベース化し,効率的に検索・再利用を行うためには,いかにコンテンツを内容記述するかということが重要である.また,どのような検索モデルを実現するかということも重要である. 内容記述モデルのアプローチ 検索モデルのアプローチ 研究成果 内容記述の詳細度について2通り,目的について2通りに分け,合計4通りのアプローチについて検討した. また,ビデオ映像コンテンツの連続性・解釈の多様性を考慮に入れた代数的検索モデル,3次元空間オブジェクトの特性である位置・方向・形を考慮に入れた方向依存型内容記述モデル,データベースのデータ分布と類似検索を統合した部分一致検索モデルについて研究した.
時刻印付オーサリンググラフによるビデオ映像のシーン検索 目的 ミディアム・ショット フル・ショット クロース・ショット 構図の一致 (ジャンプカット) 構図の一致 (カット・アウェイ) 映像の断片的な内容記述と記述間の意味的な関連性に基づいてシーンを検索する. 00:01:28:15 00:01:41:22 00:01:56:22 馬方 馬方 戸 映画言語によるカ ットの連続性の判断基準に基づいてカット列を生成する 馬方 戸 馬方 馬方 時刻印付オーサリンググラフ 動きの一致 連続した映像部分 断片的な内容記述と記述間の関連を表すグラフによって映像の内容記述を行う. シーンの区切り (フェイド) カット列 時間 検索文 サイボーグ が 敵 と 戦っている シーン サイボーグ 009 敵 と 戦う ビデオ 時間 敵 に囲まれる 周りの 敵 に乱射 敵 を撃つ 敵 を投げ飛ばす 00:00:49:12 00:00:51:19 00:00:53:10 00:00:56:09 00:00:57:10 00:00:54:24 時間区間の連続性に基づいてキーワード検索の結果を比較し,最も簡潔な映像を提示する. 検索インタフェース キーワード カット一覧 検索結果 の映像 連続性をもった映像部分の検出 グラフの構造的特徴から連続性をもった映像部分を見つけ出す. 記述インタフェース
連続メディアのための代数的検索モデル 犬 犬 人 人 目 的 ビデオ映像データ等の連続メディアの効果的な検索 目 的 ビデオ映像データ等の連続メディアの効果的な検索 情報単位の不確定性や索引情報の断片性を前提とした検索モデルの理論的基盤の確立 内 容 グルー(glue)操作 犬 犬 人 人 グルー操作は,ペアワイズなグルー操作式に還元可能 フィルタ操作Fwを右式のように早い段階で処理可能. Fwが上式を満たす必要十分条件を得た. 区間長制限のフィルタなどがこれを満たす.
映像の意味的構造の発見と動的 skimming への応用 目的 意味的情報を表現する映像区間を特定するために,区間発見メカニズムを導入する. 内容記述間のコサイン相関による意味的構造の発見メカニズム Unchanged Multiplexing 映像区間パターンの定義 意味的な映像区間として,内容の類似によって以下の3パターンを定義する. Unchanged Gradually changing Multiplexing a a+1 b a+2 a+3 b-1 Subsequence 1: Subsequence 2: (多重度= 2) 互いに類似 ショット 動的 Video Skimming Video Interval ごとに代表ショットを抜き出し,映像を意味的まとまりごとに要約する. 映像データ 現在のショットにつけられた内容記述 意味的構造 類似度閾値 キーワード Video interval ショットの再生方法 通常 早送り ( ) 代表ショット Video Interval の発見 ショットの内容記述間の類似度をもとに意味的構造となる Video Interval を検出する.
ストーリを持つビデオ映像の内容記述と要約 目 的 ビデオ映像には典型的なシーンが多く含まれている。これをプロトタイプと呼ぶ.本研究で提案した内容記述モデルでは,プロトタイプを再利用して,映像のストーリを容易に記述できるようにしている. ビデオの再構成(要約) Storyboard Scene Selector Scene Cut Detector 実験結果 ストーリの内容を損うことなく,映像を要約することができた.圧縮率は最高で約22%である。今後は,クローズドキャプションを用いた記述の自動化について検討する. Characters in the story Skimming Procedure Skim Rate Video Controls 内 容 ビデオ映像の要約を行う際には,各シーンの出現頻度を利用して,ストーリの要となるシーンの発見し,因果関係的かつ時間的に関連性のあるシーンを発見している.
マルチメディア・コンテンツの高次処理の研究 マルチメディア・コンテンツの管理機構 目 的 コンテンツの流通のために,版権・課金管理,有効時間管理,アクセス権管理などの管理機構の確立を目的とする. (1) 自律的な版権・課金管理機構 カプセル化コンテンツ方式の提案試作 サービスレンジ課金方式の提案試作 (2) 放送型ハイパーメディアの時間管理機構 2分木を用いた版管理方式の提案試作 (3) 依存関係を有するデータのアクセス権管 理機構 CADデータなど,データ間に複雑な依存関係のあるデータに対する,アクセス権の一貫性管理やビュー機構の技術を開発 サービスレンジ課金 詳細度低下 詳細度向上 C30 C20 7月の予定 7/1 … 7/2 … 6月の予定 6/1 … 6/15 中止 C11 6月の予定 6/1 … 6/15 … C10 6月の予定 6/1 … 6/15 … [7/1,7/31] [6/1,6/30] [6/1,6/10] [6/1,6/30] 放送型ハイパーメディアの版管理
カプセル化コンテンツとサービスレンジ課金による管理機構 コンテンツ流通のために,コンテンツデータと権利処理・課金処理などを自律的に行える管理機構の確立を目的とする. データのみの流通ではなく,権利処理や課金処理のプログラムロジックとデータを一体化(カプセル化)して流通させる方式を開発.3次元CGコンテンツを対象として,さまざまなbehaviorを課金額に応じて選択できるサービスレンジ課金方式を実現.課金の範囲内で詳細度や振る舞いを変更可能. VRMLデータ 付加情報 ObjectStoreDB LOS制御機能 コンテンツが,そのユーザの課金コスト内で多様なサービスを提供 authorized 永続化 カプセル化 unauthorized サービスの利用・変更 データ VRMLデータ カプセル化コンテンツが,ユーザ認証により版権を管理 付加情報 ユーザ認証 ユーザ認証 メソッド 課金管理 Permission Denied 版権管理 課金管理 サービス レンジ LOS制御 etc… 版権管理・課金管理 VRMLデータとユーザ認証等のメソッドを一体化
放送型ハイパーメディアの一貫性管理 [6/1,6/30] [6/1,6/30] [6/1,6/10] [6/1,6/30] 時間と共に更新されながら時々刻々配信されるハイパーメディア情報の内容の一貫性維持を行なうための有効時間管理・版管理方式の確立を目的とする. サーバ側:バージョンを2分木で管理 クライアント側:バージョンをリストで管理 C10 6月の予定 6/1 … 6/15 … C10 6月の予定 6/1 … 6/15 … C11 6月の予定 6/1 … 6/15 … [6/1,6/30] [6/1,6/30] [6/1,6/10] C20 C11 6月の予定 6/1 … 6/15 中止 6月の予定 6/1 … 6/15 … (起動していないため 受信できない) [6/1,6/30] [6/1,6/10] C30 7月の予定 7/1 … 7/2 … C30 7月の予定 7/1 … 7/2 … 内容の更新 有効時間の変更 [7/1,7/31] [7/1,7/31]
依存関係を有するデータのアクセス権管理 AND-ORグラフと排他関係による依存関係のモデル化 ユーザのアクセス権に応じた動的なビュー生成 目 的 CADデータやプログラムモジュールなど,データ間に複雑な依存関係のあるデータに対するアクセス権の管理技術の開発 内 容 AND-ORグラフと排他関係による依存関係のモデル化 ユーザのアクセス権に応じた動的なビュー生成 各ユーザへのアクセス権の与え方の一貫性の判定.逆向き閉包を用いた効率の良い計算法 一部のデータのみにセキュリティレベルが与えられている時に残りのデータのセキュリティレベルを依存関係に基づいて補完 ユーザ1:{a, b, c, d} →× ユーザ2:{a, b, d, e} →○ ユーザ3:{d, e} →○ 各ユーザのアクセス権 の一貫性の判定 a or b c d or e f アクセス権に応じた ビューの動的生成 (3D-CADデータの例)
マルチメディア・コンテンツの高次処理の研究 マルチメディア・コンテンツの配送およびフィルタリング機構 今後のデータベースで必要となるネットワークを効率的に利用しながらマルチメディアデータを配送する機構の開発 利用者の嗜好に合わせた情報のフィルタリング技術の開発 サブテーマ QoSを考慮したマルチメディア・コンテンツの配送機構 放送データのための配送機構とフィルタリング 放送データの配送機構とその応用 (AgentCast) アクティブルールを用いた放送データの受信・フィルタリング機構 放送型情報提供システムにおける仮想チャネルとXMLによる実装 ライブ映像・内容記述の一体化放送とフィルタリング・編集 News on Demandの配送機構とフィルタリング
配送時間制御機構をもつWWWサーバ 目 的 現在,インターネット接続の手段が多様化しており,家庭や外出先からのインターネットアクセスなど,マルチメディア・コンテンツにアクセスするのに十分な帯域幅が提供されていないユーザが多い.このようなユーザに対して,WWW (World Wide Web)上のマルチメディア・コンテンツを効果的に提供するためには,その配送にかかる時間をユーザが我慢できる時間内に抑える必要がある. 内 容 WWWで提供する各ページに対して,情報提供者が配送時間や各画像の品質優先度等をHTMLファイル内に指定することにより,クライアント・サーバ間の実効帯域幅に応じてページに含まれる画像の品質を自動的に調整し,指定された配送時間に近い時間でページを配送することができるWWWサーバを構築した. システム構成 帯域幅 情報 WWW サーバ httpd (HTTP daemon) msd (media scaling daemon) WWW クライアント インターネット コンテンツ ブラウザ画面 配送時間指定 広帯域クライアント (LAN接続 等) 20秒 動的な 品質調整 オリジナルページ 狭帯域クライアント (ダイヤルアップ接続 等)
対話型テレビ番組作成システム 目 的 テレビ放送のディジタル化に向けて,対話型のテレビ番組を記述するための言語とその言語にしたがって対話型のテレビ番組を作成する機構を構築する. AgentStudio Scenario Manager AgentCast Internet Scenario 内 容 対話型テレビ番組をソフトウェアエージェントとして放送波で配信する機構 AgentCast と,エージェントによりスタジオを半自動化する AgentStudio を考案し,対話型テレビ番組を実現するのに必要な「対話」の処理と映像・音声の配信のタイミングを記述することが出来るシナリオ記述言語を設計した. 上記の言語で記述されたシナリオにしたがってAgentCast と AgentStudio に対して要求を出し,映像・音声とエージェントをタイミング良く配信する機構を実現した.
News on Demandの配送機構とフィルタリング 目 的 現在,多種多様なニュースの放送が行われているが,TVで見るには時間的制約が大きく,見たいニュースをダイジェストなどの形で見ることができない.News on Demandでは見たい時に見たいニュースを提供することを目的とする.その際,利用者の興味の多様性を考慮し,多面的な見方を提供する. 内 容 ネットワークを通じてニュースの配送を行う場合,利用者によって利用できる帯域が異なる.本研究では,利用者が興味を持つニュースは高品質で再生できるよう,フィルタリングによって興味の高いニュースは事前に転送し,それ以外はストリーミングによる配送を行うことでネットワーク帯域の有効利用を行う.多面的な見方としてコミュニティによるフィルタリングを行う. フィルタリング ユーザ プロファイル ニュース フィードバック コミュニティC1 従来の自分中心のフィルタリング ユーザ コミュニティC2 コミュニティC3
放送型情報配信のための仮想チャネル 索引付き映像の放送型配信とフィルタリング 利用者の視点に立った放送型情報の受信環境と,利用者参加型の放送型情報 配信環境の実現を目的とする. ライブ映像・内容記述の一体化放送と フィルタリング・編集 ・映像データのリアルタイムな索引付け機構の実現 (音声認識,該当区間の推定) ・複数のライブ映像と索引などのメタデータを一体 化してマルチキャストで配送 ・索引の重要度に応じて放映中の番組に挿入 プッシュ型情報提供システムのための 仮想チャネル ・Pointcastデータのフィルタリング・合成により, ユーザ独自のチャネル定義が可能 ・複数チャンネルの配分比率が可能な,「アナログ チャネル」を実現 ・XMLを用いて実装中 進行スケルトン 音声認識による索引付け
マルチメディア・コンテンツの高次処理の研究 マルチメディア・コンテンツの提示機構 目的 マルチメディア・コンテンツの提示に構造的な特徴を反映することによって,より直観的な理解ができるようにする. マルチメディア・コンテンツの構造的特徴 時間的特徴―複数のコンテンツの同期など 空間的特徴―現実空間の一部を表現する情報,三次元可視化技法など 仮想空間を用いたコンテンツ提示の課題 マルチメディア情報を提示するための仮想空間を効率良く構築すること. マルチメディア情報空間を効率良く探索すること. ユーザの探索情報を活用し将来の探索に生かすこと. 現実空間を用いたコンテンツ提示 現実空間にわかりやすく情報を提示し,それを操作すること. マルチメディア情報を活用して人間同士でコミュニケーションをとること. 必要なマルチメディア情報のある場所にたどり着けること.
静止画を用いた擬似三次元空間の構築方法 目 的 WWW上でウォークスルーできる3次元空間を手軽に構築できるようにすること 内 容 目 的 WWW上でウォークスルーできる3次元空間を手軽に構築できるようにすること 内 容 背景に静止画を用い,アバタ画像を合成する.ユーザのインタラクションにより画像の位置・大きさを調整して,擬似的に3次元空間を表現する. ポイント ① 写真を利用した簡便なシーン作成 ② アバタ画像の合成による擬似3次元空間の表現 ③ シーン間の独立性 ④ XMLに基づく柔軟性の高いシーン記述言語 シーン記述 ① シーン情報:背景画像,床領域情報,リンク情報 ② アバタ情報:ファイル名,回転角,移動量,大きさ ③ オブジェクト情報:人や物など,動き ④ その他の表示効果:文字表示,タイマ設定,クッキー設定
カメラ画像を利用した拡張デスクトップ環境 目 的 現実空間に手軽に計算リソースを配置し,それを利用できるような環境を提供する. 内 容 PCにカメラを装着し,カメラで映しているリアルタ イム画像を計算機のデスクトップとして利用する. ポイント ① 画像連想検索によるアイコン情報の保持 ② 代表点検索によるリアルタイムアイコン表示の 実現 ③ 空間ドラッグア ンドドロップによ る柔軟な実空間 アイコン移動 ④ XMLに基づく柔 軟なアイコン情 報記述言語 ドラッグ アンド ドロップ ダブルクリックで アプリケーション を起動 file アイコン を配置 プリンタから印刷
現実空間と仮想空間の統合によるコミュニケーション支援環境 目 的 現実空間および仮想空間でのリアルなリモートコミュニケーションを可能にすること. 内 容 遠隔の人は現実空間を忠実に反映する仮想空間を訪れる.現実空間ではコンピュータを利用して仮想空間の状況を反映した現実空間を利用できるようにする. ポイント ① できるだけ普通の環境で ワークステーション+カメラ+マイク+スピーカ ② コミュニケーションツールとして必要な機能に限定 ③ インターネットで公開 VRML+Java 利用方法 遠隔会議,旅行,マネージャ,警備員,工事の監 督,アンパイア,オークション
空間メディアを用いた情報検索機構の研究 検索質問自身が不確定な利用者に対する効果的なデータベースの概覧(ブラウジング)機能,質問を自動的に形成する機能,密集ゾーンの検索機能の実現 Region Retrieval (Spatial Glue) + Landmark 条件を満たすオブジェクト群を含む領域を,2次元グルー 演算で算出する(下図では,office, restaurantを含む領域). 得られた領域内で,ランドマーク(他に比して特徴的な属性 情報を持ち,かつ,面積占有率の大きいもの)を計算して 表示する. Walkthrough + Differentiation 仮想空間上でウオークスルーしつつ複数のサンプ ルオブジェクト群を選択.これから積和形の問合せ を自動生成し,解を仮想空間に自動配置. ウオークスルー時に視野内のオブジェクト群を互い に差別化する属性情報を自動生成して提示. object a1: office X Y a1 b1 object b1: restaurant 鉄製 木製 アメリカ 日本 家具 机 日本製 C社 XX円 アメリカ製 A社 B社 “Differentiation” 領域呈示 + ランドマーク ゾーン呈示 視野内のオブジェクトの違いを表示 ランドマーク選択 ランドマーク呈示
マルチメディア・コンテンツの高次処理の研究 マルチメディア・コンテンツの生成支援機構 物体の属性や 振舞いの統一 コンテンツ(物体) ベースの操作 バーチャルリアリティ マルチモーダルインタフェース 直感的 直接操作 新たなコンテンツ創出 人工的データ Virtual Object データベースの活用 現実空間データ Real Object DB 現実空間データ Real Object 融合空間 融合空間における仮想・現実物体の統一的操作法の実現 映像コンテンツに対するインタラクティブ操作 Interactive Digital Fishtank 仮想・現実物体に作用する物理法則を考慮した統一的物体操作の実現 磁石のメタファを利用
仮想・現実物体に作用する物理法則を考慮した統一的物体操作 目 的 仮想・現実物体の融合環境における両物体の振舞いの違いをなくし,統一的な物体操作環境を実現する アプローチ 現実世界 仮想世界 表面に磁石を添付 仮想的な磁石の模擬 衝突検出 磁石 メタファ 物体表面で運動を拘束 非透過性 操作補助 snap snap threshold approach snap unsnap constraint on face
映像コンテンツに対するインタラクティブ操作 目 的 映像から得られる物体の情報を,実時間で仮想物体と同様の形式に取り込むことで,利用者の操作にインタラクティブに対応させる. アプローチ 現実空間の映像 カメラ2 コンテンツの抽出 実映像入力 カメラ1 カメラ1 抽出データ 拡張仮想空間の構築 テクスチャ 3次元モデリング インタラクション制御 描画 振る舞い制御 実映像コンテンツの抽出 共有メモリ コンテンツの抽出 実映像入力 カメラ2 抽出データ テクスチャ インタラクション ユーザ
インタラクティブ映像コンテンツにおけるデータベース 目 的 映像コンテンツに対するインタラクションに対応した映像を取り出すことのできる映像データベースのアーキテクチャを設計する. 内 容 実世界の単一の入力ソースのみで得られる仮想世界に加えて,さらに多様なコンテンツの振舞いやインタラクションに対応させるために,データベースを利用する.従来の映像データベースと異なり,インタラクションに対応させた映像利用を行う. インタラクションデバイス の多様化 catch observation インタラクションの 多様化 contact feed 映像データベース 振舞いの 多様化 映像 パラメータ データ蓄積手法 表示切り替え手法 データ検索手法