聞き手の非言語的反応と 協調的アノテーションに基づく ミーティングキャプチャシステム

Slides:



Advertisements
Similar presentations
地図の重ね合わせに伴う 位相関係の矛盾訂正手法 萬上 裕 † 阿部光敏* 高倉弘喜 † 上林彌彦 ‡ 京都大学工学研究科 † 京都大学工学部 * 京都大学情報学研究科 ‡
Advertisements

VQSコラボBusiness VQSコラボLearning ご提案資料 2014/4. Windows版 iPad版 iPhone版 交流タイプ 2 ◆シンプル設計でどの端末からも 議長or講師+5映像付発言 参加者最大:30接続(内25視聴者) (*)Android版は開発中です シンプル設計のインターフェイスはWindowsパソコン、iPad、iPhoneと.
自動映像生成のための パーティクルフィルタによるボールの追 跡 2007 年 3 月 21 日 神戸大学大学院自然科学研究科 矢野 一樹.
Imagire Day CEDEC 2009続・レンダリスト養成講座 田村 尚希 川瀬 正樹 シリコンスタジオ株式会社.
Determining Optical Flow. はじめに オプティカルフローとは画像内の明る さのパターンの動きの見かけの速さの 分布 オプティカルフローは物体の動きの よって変化するため、オプティカルフ ローより速度に関する情報を得ること ができる.
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
顔表情クラスタリングによる 映像コンテンツへのタギング
静止画ファイル形式 小林 康三.
研修のめあて 授業記録、授業評価等に役立てるためのICT活用について理解し、ディジタルカメラ又はビデオカメラのデータ整理の方法について研修します。 福岡県教育センター 教員のICT授業活用力向上研修システム.
コンピュータビジョン特論 OpenCVについて
画像処理学習用RTコンポーネントライブラリ 田窪 朋仁,大原 賢一,吉岡 健伸(大阪大学)
状況に応じたサービスを 提供するための人や物に 共通の情報管理
点対応の外れ値除去の最適化によるカメラの動的校正手法の精度向上
HOG特徴に基づく 単眼画像からの人体3次元姿勢推定
静止背景における動物体の検出と追跡 陳 謙 2004年10月19日.
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第四回 演習課題 画像中からの物体抽出処理(背景情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/15.
パノラマ動画像モデルによる 仮想空間表現システムの研究
聞き手の非言語的反応と 協調的アノテーションに基づく ミーティングキャプチャシステム
「わかりやすいパターン認識」 第1章:パターン認識とは
Deep learningによる 読唇システム
画像処理論.
Aided Eyes: Eye Activity Sensing for Daily Life
ライフログデータとしての笑顔の蓄積システムの提案
異種センサを用いた人の行動検知 研究概要 研究の独自性 isi担当 高汐グループ成果 スライド到着待ち yasu担当.
OpenCV を使った画像処理コンポーネントの作成例 田窪 朋仁(大阪大学)
VideoOnDemand型 e-Learningシステムのご提案
CV輪講 姿勢変化に対応したSoft Decision Featureと Online Real Boostingによる人物追跡
ストリーム処理エンジンを用いた 顔映像に対する 補助情報提供システム
Webを使ったナレッジマネジメントとビジネス展開*
固定カメラ映像からの音声情報を 用いた映像コンテンツ生成
ZigBeeノードの受信信号強度を利用した 屋内での人の活動範囲検出法
センサネットワークにおける グルーピング機構
Java ソフトウェア部品検索システム SPARS-J のための リポジトリ自動更新機能の実現
長岡技科大オープンハウス 岐阜高専4年電子制御工学科 森 永二郎.
Astro-E2衛星搭載 XISの データ処理方法の最適化
独立成分分析 1.問題は何か:例:解法:全体の見通し 2007/10/17 名雪 勲.
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
ビデオデータベース.
WIP中間発表 画像解析を用いた メイドの為の 無許可撮影通知システム
位相カメラの進捗状況 京都大学修士1回 横山 洋海.
プロジェクト演習III,V <インタラクティブ・ゲーム制作> プログラミングコース
音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定
構造情報に基づく特徴量を用いた グラフマッチングによる物体識別 情報工学科 藤吉研究室  EP02086 永橋知行.
情報検索(6) メディア検索の仕組み 教員 岩村 雅一
高度情報演習1A “テーマC” 実践 画像処理プログラミング 第六回 最終課題 画像処理による動物体自動抽出、モーションキャプチャ
議事録作成支援 Webアプリケーションの開発 リアルタイム通信を用いた合意形成を目指して
Shimatterシステムの トップダウン分析
12. 意味・意図の解析 12.1 意味表現とは 12.2 規則による意味解析処理 12.3 統計的な意味解析処理 12.4 スマートフォンでの音声サービス ニューラルネットワークによる意味解析.
物履歴に基づいた ユーザプロファイリング機構の構築
迷子問題を考慮した 地図閲覧システムの構築
GPSを使わないBebop Droneの 自動飛行
ロボットの協調動作の研究: マップ作成とマップ情報を利用した行動計画
Data Clustering: A Review
一方向画像からの 3Dモデル生成 電気電子工学科 白井研究室 T215049 田原 大輝.
工学部 電気電子工学科 白井研究室 T 山田 翔也
Spatial Linker - 空間コンテンツ融合の研究 -
各会話シーン毎に、発話(音源)方向を推定
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
資料2-2 平成26年度 第2回技術委員会資料 次年度検討テーマ案
Webからの 人間関係ネットワークの抽出と 情報支援
ブースティングとキーワードフィルタリング によるシステム要求検出
プロジェクト演習III,V <インタラクティブ・ゲーム制作> プログラミングコース
ロボットから人に話しかける 判断モデルの構築
2018年度ビジョン研究室 ゼミナール・卒研紹介 指導教員:張善俊 6月20日(水) 6-209.
  情報に関する技術       情報モラル授業   .
Webページタイプによるクラスタ リングを用いた検索支援システム
窪田進太郎 有木康雄(神戸大) 熊野雅仁(龍谷大)
CSP係数の識別に基づく話者の 頭部方向の推定
AAMと回帰分析による視線、顔方向同時推定
P2Pによる協調学習システム 唐澤 信介   北海道工業大学 電気工学専攻.
Presentation transcript:

聞き手の非言語的反応と 協調的アノテーションに基づく ミーティングキャプチャシステム 京都大学大学院情報学研究科 勝木弘,角康之,西田豊明

はじめに ミーティング 参加者の非言語インタラクションと、メモや書き込み といった聞き手の行う協調的アノテーションをもとに、 知識交流や新たな知を創造する重要な場 記録・構造化による知的活動支援 参加者への負担、制限が厳しい 話し手の発話内容や振る舞いに注目 グループ内の知識交流や、議論によって新たな知を創造する場としてミーティングは有用 記録・構造化を行うことで知的活動支援を行なおうという試み AMI,VASE, 参加者の非言語インタラクションと、メモや書き込み といった聞き手の行う協調的アノテーションをもとに、 ミーティングの知識コンテンツ化をおこなう

知識流通 実世界会話場 DB 支援システム ミーティング 会話記録 提示・支援 知識コンテンツ化 ・会話シーン認識 ・インデクス付与 対象とするミーティング:5,6人程度の参加者がテーブルに座り、スライド、ビデオ、配布資料などを参照しながら議論を行う対面議論型ミーティング まず実世界会話場で行われている会話をカメラやセンサを用いて記録します。 センサを用いて、視線やうなずきなどと言った 記録された会話を重要シーンの獲得やシーンの関連付けによって知識コンテンツ化します。 それを実世界に提示することによって新たな会話の促進や知識の共有の支援を行います。 さらに新たに行われた会話を記録していくことで,知識の流通サイクルを実現します。 ミーティング DB 支援システム 知識コンテンツ化 ・会話シーン認識 ・インデクス付与

対象とするミーティング 5人前後(4~8人)によるグループミーティング プレゼンテーションによる研究発表 負担にならない程度のセンサ 写真撮影・書き込みようの端末を保持

獲得する非言語行動 視線検出、顔認識 音声検出 -環境マイク うなずき検出 -加速度センサを利用 (本棚,ホワイトボードの利用 )  全方位カメラorカメラ  +モーションキャプチャ 音声検出 -環境マイク うなずき検出 -加速度センサを利用 (本棚,ホワイトボードの利用 ) 協調的アノテーション Photochatで行われる写真撮影や書き込み

◯◯◯について ・xxxxxxx ・vvvvvvv ・tttttttttt AAAABBBBCCC Aaa bbb ccc ・・・・・・ スクリーン 俯瞰映像用 本棚監視用 ホワイトボード ホワイトボード監視用 ・・・・・・ 加速度センサ PhotoChat 全方位カメラ・マイク 本棚 ネットワークカメラ モーションキャプチャ ミーティング収録環境について説明します 対面議論型ミーティング 参加者:各々のパソコン、Photochat テーブル ネットワークカメラ ワイヤレスマイク

システム構成図 Photochat カメラアレイ 全方位カメラ 加速度センサ マイク フレーム補完 マスク処理 正規化 顔認識 首振り検出 発話区間検出 同期処理 顔認識 首振り検出 映像圧縮 動作検出 顔追跡 ノイズ除去 操作抽出 文字認識 3次元ベクトル化 パターン分類 キーワード抽出 視線   うなずき  発話   協調的アノテーション 非言語インタラクションパターン検出 複数ネットワークカメラ 欠損したフレームの補完 会話シーン認識 知識コンテンツ化

協調的アノテーション チャットの性質[1,2] デジタル的なバックチャネル 対面議論に対して時間的・内容的な制約をうける Photochatをによる写真撮影・書き込み デジタルバックチャネルとしての利用(聞き手の興味・関心などの反応を見る) 単語を拾うことによるキーワード取得 [1]Digital backchannels in shared physical spaces: experiences at an academic conference (McCarthy CHI2005) [2]超メディア参照機能を有するチャット併用会議のためのチャットシステム (小林・西本 ,wiss2009)

Photochat 写真撮影・手書きメモ機能 リアルタイム共有 写真上での仮想的な会話 ⇒参加者の興味や感心を反映 [角 et al. 08]

メモ 会話 疑問・応答 マーク・感想

非言語行動の検出-視線1- 全方位カメラLadybug2 OKAO Visionによる顔認識・視線方向認識 顔追跡とエラー訂正処理 2次元情報→3次元上の顔の位置と視線方向  1024 (ピクセル)  2048 (ピクセル) 全方位カメラ あ 「CAMshift」は「Continually Adaptive Meanshit」(連続適応的meanshift)の略で、重心以外に重量とモーメントが計算されます。重量とモーメントの値によって検索範囲の形が調整されます。 。「meanshift」アルゴリズムでは、roiの様に検索範囲がしてされます。その範囲内の重心が計算され、範囲の中心がその重心と重なるように移動されます。範囲が動かないまでそれを繰り返します。 まず, meanShift() を用いて物体の中心を求め,物体サイズに合わせて窓サイズを調整して,さらに最適な方向を検出します.この関数は,物体の位置,サイズ,姿勢を含む,回転した矩形を表現する構造体を返します.探索窓の次の位置は, RotatedRect::boundingRect() から得ることができます 物体の中心,サイズ,姿勢を求めます. Ladybug2

非言語行動の検出-視線2- モーションキャプチャによる顔方向計算 頭の中心線を通るfront – back の2点を下に傾けた方向 傾きは約40度 帽子の被り具合  で多少変動あり Head_back Head_front

衝突判定 顔方向≠視線方向 上下左右に範囲を持たせる必要がある 状況によって範囲は変動する 要:妥当性の検証 例:左右20度、上下10度 立場の違い:話し手、聞き手、… 対象の距離:近い、遠い、… 要:妥当性の検証

非言語行動の検出-うなずき- 頭部につけた加速度センサからうなずき動作を検出する 加速度センサの傾きを補正 鉛直方向の動きを窓幅600ミリ秒で分散をとり,抽出する 首振り動作以外の動きを除去する -顔方向を変える動作 顔方向を変える動作 首振り動作区間 加速度の二乗和 傾きの変化量の大きいところ 分散 垂直方向の動作区間 [斎賀 et al. 10]

非言語行動の検出-その他- 発話 協調的アノテーション 本棚、ホワイトボードの利用 各自が身につけたマイクによる発話区間検出(パワー) 撮影、書き込み、閲覧といった操作 操作パターンなどによる仮想会話の分類 撮影時の頭部方向より対象物の推定(スライド、人) 本棚、ホワイトボードの利用 カメラ映像の差分による行動検出

知識コンテンツ化:会話シーン認識 再利用性の高い重要シーンの獲得 特徴的な会話シーンの獲得 再利用性の高いシーンを得るには参加者の意図に沿うことが重要 非言語情報から会話の状況や参加者の意図を掴む 意味情報までは踏み込まない(キーワード単語の利用程度) ・参加者間の非言語インタラクション 発話交替、視線集中,うなずきの同期,… ・参加者のつける意味的アノテーション メモ・写真情報+それ自体の持つデジタルチャット的な反応 久保田や長尾らによって会話から再利用性の高い知識を獲得するには参加者の意図が重要という知見が得られています また,非言語情報は会話の状況や参加者の意図を掴む手がかりになると言われており, 我々のグループでもいくつかの会話について,非言語情報による会話分析を行ってきました. 本研究では,顔認識,視線検出などによって参加者の非言語情報を取得し,またホワイトボードに書き込みされた, などの会話場の情報とあわせて, 「いつ,どこで,だれが,何をしている」といった状況インデキシングを行います これに参加者によるメモなどの意味的アノテーションを付加させて,重要シーンを獲得します 30 特徴的な会話シーンの獲得

知識コンテンツ化:会話シーン認識 重要なスライド スライドに対してみんなが目をむけている Photochat上での注目が高い 振り返りが多い (盛り上がったシーンが含まれている) (議論が活発に行われた) (説明が長く行われた)

知識コンテンツ化:インデクス付与 会話シーンのもつ情報インデクス これらのインデクスを利用してミーティングの構造化や、  会話シーンのもつ情報インデクス スライドやメモから得たシーンに出てきたキーワード 会話状況 盛り上がり、注目が集まっているなどの特徴的な会話状況 非言語インタラクション 協調的アノテーション ミーティング・参加者情報: 誰が発表しているのか、どんなミーティングなのか これらのインデクスを利用してミーティングの構造化や、 現在の状況と照らし合わせた提示を行う

収録 7人による勉強会の様子を収録 10分程度の発表+議論 × 3人 Photochatは6名が使用 10分程度の発表+議論 × 3人 Photochatは6名が使用 ネットワークカメラ不具合により環境カメラは3視点のみ 加速度センサ不使用

例 盛り上がってるシーン(16:54) 一番盛り上がっていた?(ぱっと見)Photochatの写真がとられたあたり(29:31) 発表者の発言に何人かがどっと反応したシーン 発表論文を「なんか実装してみたかったらしい」みたいな感じでばさっと 一番盛り上がっていた?(ぱっと見)Photochatの写真がとられたあたり(29:31) 発表論文のデモビデオを流すシーン 論文読む前にまずは見てくださいと紹介されてる

まとめ 聞き手反応に着目した知識コンテンツ化をおこなうミーティングキャプチャシステム 視線、うなずき、などといった非言語行動の検出 参加者の非言語インタラクション、協調的アノテーションを利用したインデキシング

今後の課題 収録した知識コンテンツを閲覧するためのブラウジング環境 実世界に対しての提示 ⇒DBと閲覧用ブラウジングサイトの構築    Photochatによるリンク提示 インデキシングの充実・体系化

Backとfrontを結んだ線 Head_front Head_back 約40度 真正面を見ている時の視線 モーションキャプチャによる顔方向取得 ・福間さんの方法:  -帽子の4点をもとに、眉間(or目の間)の点を変換行列で求める -計算が多い -ずれが大きくなる(?) -4点(3点?)が常に必要 現在帽子のマーカーは全て同じ位置 Head_frontとHead_backは頭の中心を通っている →frontとbackを結んだ線は顔方向と左右は同じになる →上下にどれだけずれるのか(上の図) よって顔方向はback – frontの線を下に約40度傾けた方向 ※帽子のかぶる深さによって多少変動する ※首をかしげる場合はずれは下方向でなくなるがとりあえず無視 Backとfrontがとれなかった場合、他の点を使って顔方向を計算する -まだ行っていない リアルタイムでトラックする時には、人物指定だけでなく、上下左右のずれのパラメータ調節ができるようにする

Real Line / Virtual Line C君 6月の学会で似た研究がありましたね http://www.kuis.kyoto….. RT @A君 似た研究を..  Live Bさん RW @A君  ID:0001#photo-20100113  Capture! A君 似た研究をどこかで.. A君 ID:0001 #photo-20100113  @ミーティング記録ビューア 要求仕様:動画 上:リアルのデモやら+話し手,聞き手の様子 ユーザorサーバのエージェントが操作 下:プレゼン用のPCのストリーム Event Line :Ustみたく Tweet Line:過去のも見れる どういう風に使うのか(けんきゅうしつ?外部も?) 大部分:裏でタグ付け(イベントと対応) PhotoChatの写真は複数人のつぶやき どういうデータを集めるのか ←殺し文句を意識しながら! Capture! つぶやき →