聞き手の非言語的反応と協調的アノテーションに基づくミーティングキャプチャシステム

聞き手の非言語的反応と協調的アノテーションに基づくミーティングキャプチャシステム
京都大学大学院情報学研究科勝木弘，角康之，西田豊明

はじめにミーティング参加者の非言語インタラクションと、メモや書き込みといった聞き手の行う協調的アノテーションをもとに、
知識交流や新たな知を創造する重要な場記録・構造化による知的活動支援参加者への負担、制限が厳しい話し手の発話内容や振る舞いに注目グループ内の知識交流や、議論によって新たな知を創造する場としてミーティングは有用記録・構造化を行うことで知的活動支援を行なおうという試み AMI,VASE, 参加者の非言語インタラクションと、メモや書き込みといった聞き手の行う協調的アノテーションをもとに、ミーティングの知識コンテンツ化をおこなう

知識流通実世界会話場 DB 支援システムミーティング会話記録提示・支援知識コンテンツ化・会話シーン認識・インデクス付与
対象とするミーティング：5,6人程度の参加者がテーブルに座り、スライド、ビデオ、配布資料などを参照しながら議論を行う対面議論型ミーティングまず実世界会話場で行われている会話をカメラやセンサを用いて記録します。センサを用いて、視線やうなずきなどと言った記録された会話を重要シーンの獲得やシーンの関連付けによって知識コンテンツ化します。それを実世界に提示することによって新たな会話の促進や知識の共有の支援を行います。さらに新たに行われた会話を記録していくことで，知識の流通サイクルを実現します。ミーティング DB 支援システム知識コンテンツ化・会話シーン認識・インデクス付与

対象とするミーティング 5人前後（4～8人）によるグループミーティングプレゼンテーションによる研究発表負担にならない程度のセンサ
写真撮影・書き込みようの端末を保持

獲得する非言語行動視線検出、顔認識音声検出－環境マイクうなずき検出－加速度センサを利用（本棚，ホワイトボードの利用）
　全方位カメラorカメラ　＋モーションキャプチャ音声検出－環境マイクうなずき検出－加速度センサを利用（本棚，ホワイトボードの利用）協調的アノテーション Photochatで行われる写真撮影や書き込み

◯◯◯について・xxxxxxx ・vvvvvvv ・tttttttttt AAAABBBBCCC Aaa bbb ccc ・・・・・・
スクリーン俯瞰映像用本棚監視用ホワイトボードホワイトボード監視用・・・・・・加速度センサ PhotoChat 全方位カメラ・マイク本棚ネットワークカメラモーションキャプチャミーティング収録環境について説明します対面議論型ミーティング参加者：各々のパソコン、Photochat テーブルネットワークカメラワイヤレスマイク

システム構成図 Photochat カメラアレイ全方位カメラ加速度センサマイクフレーム補完マスク処理正規化顔認識首振り検出
発話区間検出同期処理顔認識首振り検出映像圧縮動作検出顔追跡ノイズ除去操作抽出文字認識 3次元ベクトル化パターン分類キーワード抽出視線　　　うなずき　　発話　　協調的アノテーション非言語インタラクションパターン検出複数ネットワークカメラ欠損したフレームの補完会話シーン認識知識コンテンツ化

協調的アノテーションチャットの性質[1,2] デジタル的なバックチャネル対面議論に対して時間的・内容的な制約をうける
Photochatをによる写真撮影・書き込みデジタルバックチャネルとしての利用（聞き手の興味・関心などの反応を見る）単語を拾うことによるキーワード取得 [1]Digital backchannels in shared physical spaces: experiences at an academic conference (McCarthy CHI2005) [2]超メディア参照機能を有するチャット併用会議のためのチャットシステム (小林・西本 ,wiss2009)

Photochat 写真撮影・手書きメモ機能リアルタイム共有写真上での仮想的な会話 ⇒参加者の興味や感心を反映
[角 et al. 08]

メモ会話疑問・応答マーク・感想

非言語行動の検出－視線1－全方位カメラLadybug2 OKAO Visionによる顔認識・視線方向認識顔追跡とエラー訂正処理
2次元情報→3次元上の顔の位置と視線方向　1024 (ピクセル) 　2048 (ピクセル) 全方位カメラあ「CAMshift」は「Continually Adaptive Meanshit」（連続適応的meanshift）の略で、重心以外に重量とモーメントが計算されます。重量とモーメントの値によって検索範囲の形が調整されます。。「meanshift」アルゴリズムでは、roiの様に検索範囲がしてされます。その範囲内の重心が計算され、範囲の中心がその重心と重なるように移動されます。範囲が動かないまでそれを繰り返します。まず， meanShift() を用いて物体の中心を求め，物体サイズに合わせて窓サイズを調整して，さらに最適な方向を検出します．この関数は，物体の位置，サイズ，姿勢を含む，回転した矩形を表現する構造体を返します．探索窓の次の位置は， RotatedRect::boundingRect() から得ることができます物体の中心，サイズ，姿勢を求めます． Ladybug2

非言語行動の検出－視線2－モーションキャプチャによる顔方向計算頭の中心線を通るfront – back の2点を下に傾けた方向
傾きは約40度帽子の被り具合　で多少変動あり Head_back Head_front

衝突判定顔方向≠視線方向上下左右に範囲を持たせる必要がある状況によって範囲は変動する要：妥当性の検証例：左右20度、上下10度
立場の違い：話し手、聞き手、… 対象の距離：近い、遠い、… 要：妥当性の検証

非言語行動の検出－うなずき－頭部につけた加速度センサからうなずき動作を検出する加速度センサの傾きを補正
鉛直方向の動きを窓幅600ミリ秒で分散をとり，抽出する首振り動作以外の動きを除去する－顔方向を変える動作顔方向を変える動作首振り動作区間加速度の二乗和傾きの変化量の大きいところ分散垂直方向の動作区間 [斎賀 et al. 10]

非言語行動の検出－その他－発話協調的アノテーション本棚、ホワイトボードの利用各自が身につけたマイクによる発話区間検出（パワー）
撮影、書き込み、閲覧といった操作操作パターンなどによる仮想会話の分類撮影時の頭部方向より対象物の推定（スライド、人）本棚、ホワイトボードの利用カメラ映像の差分による行動検出

知識コンテンツ化：会話シーン認識再利用性の高い重要シーンの獲得特徴的な会話シーンの獲得
再利用性の高いシーンを得るには参加者の意図に沿うことが重要非言語情報から会話の状況や参加者の意図を掴む意味情報までは踏み込まない（キーワード単語の利用程度）・参加者間の非言語インタラクション発話交替、視線集中，うなずきの同期，… ・参加者のつける意味的アノテーションメモ・写真情報＋それ自体の持つデジタルチャット的な反応久保田や長尾らによって会話から再利用性の高い知識を獲得するには参加者の意図が重要という知見が得られていますまた，非言語情報は会話の状況や参加者の意図を掴む手がかりになると言われており，我々のグループでもいくつかの会話について，非言語情報による会話分析を行ってきました．本研究では，顔認識，視線検出などによって参加者の非言語情報を取得し，またホワイトボードに書き込みされた，などの会話場の情報とあわせて，「いつ，どこで，だれが，何をしている」といった状況インデキシングを行いますこれに参加者によるメモなどの意味的アノテーションを付加させて，重要シーンを獲得します 30 特徴的な会話シーンの獲得

知識コンテンツ化：会話シーン認識重要なスライドスライドに対してみんなが目をむけている Photochat上での注目が高い振り返りが多い
（盛り上がったシーンが含まれている）（議論が活発に行われた）（説明が長く行われた）

知識コンテンツ化：インデクス付与会話シーンのもつ情報インデクスこれらのインデクスを利用してミーティングの構造化や、
　会話シーンのもつ情報インデクススライドやメモから得たシーンに出てきたキーワード会話状況盛り上がり、注目が集まっているなどの特徴的な会話状況非言語インタラクション協調的アノテーションミーティング・参加者情報：誰が発表しているのか、どんなミーティングなのかこれらのインデクスを利用してミーティングの構造化や、現在の状況と照らし合わせた提示を行う

収録 7人による勉強会の様子を収録 10分程度の発表＋議論 × 3人 Photochatは6名が使用
10分程度の発表＋議論 × 3人 Photochatは6名が使用ネットワークカメラ不具合により環境カメラは3視点のみ加速度センサ不使用

例盛り上がってるシーン（１６：５４）一番盛り上がっていた？（ぱっと見）Photochatの写真がとられたあたり（29:31）
発表者の発言に何人かがどっと反応したシーン発表論文を「なんか実装してみたかったらしい」みたいな感じでばさっと一番盛り上がっていた？（ぱっと見）Photochatの写真がとられたあたり（29:31）発表論文のデモビデオを流すシーン論文読む前にまずは見てくださいと紹介されてる

まとめ聞き手反応に着目した知識コンテンツ化をおこなうミーティングキャプチャシステム視線、うなずき、などといった非言語行動の検出
参加者の非言語インタラクション、協調的アノテーションを利用したインデキシング

今後の課題収録した知識コンテンツを閲覧するためのブラウジング環境実世界に対しての提示 ⇒DBと閲覧用ブラウジングサイトの構築
　　　Photochatによるリンク提示インデキシングの充実・体系化

Backとfrontを結んだ線 Head_front Head_back 約40度真正面を見ている時の視線
モーションキャプチャによる顔方向取得・福間さんの方法：　-帽子の4点をもとに、眉間（or目の間）の点を変換行列で求める -計算が多い -ずれが大きくなる（？） -4点（3点？）が常に必要現在帽子のマーカーは全て同じ位置 Head_frontとHead_backは頭の中心を通っている →frontとbackを結んだ線は顔方向と左右は同じになる →上下にどれだけずれるのか（上の図）よって顔方向はback – frontの線を下に約40度傾けた方向 ※帽子のかぶる深さによって多少変動する ※首をかしげる場合はずれは下方向でなくなるがとりあえず無視 Backとfrontがとれなかった場合、他の点を使って顔方向を計算する -まだ行っていないリアルタイムでトラックする時には、人物指定だけでなく、上下左右のずれのパラメータ調節ができるようにする

Real Line / Virtual Line
C君　6月の学会で似た研究がありましたね Live ID:0001#photo 　 Capture! A君似た研究をどこかで．． A君　ID：0001 #photo 　 @ミーティング記録ビューア要求仕様：動画上：リアルのデモやら＋話し手，聞き手の様子ユーザorサーバのエージェントが操作下：プレゼン用のPCのストリーム Event Line ：Ustみたく Tweet Line：過去のも見れるどういう風に使うのか（けんきゅうしつ？外部も？）大部分：裏でタグ付け（イベントと対応） PhotoChatの写真は複数人のつぶやきどういうデータを集めるのか　←殺し文句を意識しながら！ Capture! つぶやき →

聞き手の非言語的反応と協調的アノテーションに基づくミーティングキャプチャシステム

Similar presentations

Presentation on theme: "聞き手の非言語的反応と協調的アノテーションに基づくミーティングキャプチャシステム"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

聞き手の非言語的反応と 協調的アノテーションに基づく ミーティングキャプチャシステム

Similar presentations

Presentation on theme: "聞き手の非言語的反応と 協調的アノテーションに基づく ミーティングキャプチャシステム"— Presentation transcript:

Similar presentations

About project

フィードバック

聞き手の非言語的反応と協調的アノテーションに基づくミーティングキャプチャシステム

Presentation on theme: "聞き手の非言語的反応と協調的アノテーションに基づくミーティングキャプチャシステム"— Presentation transcript: