聞き手の非言語的反応と 協調的アノテーションに基づく ミーティングキャプチャシステム 京都大学大学院情報学研究科 勝木弘,角康之,西田豊明
はじめに ミーティング 参加者の非言語インタラクションと、メモや書き込み といった聞き手の行う協調的アノテーションをもとに、 知識交流や新たな知を創造する重要な場 記録・構造化による知的活動支援 参加者への負担、制限が厳しい 話し手の発話内容や振る舞いに注目 グループ内の知識交流や、議論によって新たな知を創造する場としてミーティングは有用 記録・構造化を行うことで知的活動支援を行なおうという試み AMI,VASE, 参加者の非言語インタラクションと、メモや書き込み といった聞き手の行う協調的アノテーションをもとに、 ミーティングの知識コンテンツ化をおこなう
システムの流れ 実世界会話場 DB 支援システム ミーティング 会話記録 提示・支援 知識コンテンツ化 ・会話シーン認識 ・インデクス付与 対象とするミーティング:5,6人程度の参加者がテーブルに座り、スライド、ビデオ、配布資料などを参照しながら議論を行う対面議論型ミーティング まず実世界会話場で行われている会話をカメラやセンサを用いて記録します。 センサを用いて、視線やうなずきなどと言った 記録された会話を重要シーンの獲得やシーンの関連付けによって知識コンテンツ化します。 それを実世界に提示することによって新たな会話の促進や知識の共有の支援を行います。 さらに新たに行われた会話を記録していくことで,知識の流通サイクルを実現します。 ミーティング DB 支援システム 知識コンテンツ化 ・会話シーン認識 ・インデクス付与
獲得する非言語行動 視線検出、顔認識 音声検出 -環境マイク うなずき検出 -加速度センサを利用 本棚,ホワイトボードの利用 全方位カメラorカメラ +顔認識ソフトウェアOKAO VISION 音声検出 -環境マイク うなずき検出 -加速度センサを利用 本棚,ホワイトボードの利用 協調的アノテーション Photochatで行われる写真撮影や書き込み
Photochat による協調的アノテーション 写真撮影・手書きメモ機能 リアルタイム共有 写真上での仮想的な会話 ⇒参加者の興味や感心を反映 [角 et al. 08]
◯◯◯について ・xxxxxxx ・vvvvvvv ・tttttttttt AAAABBBBCCC Aaa bbb ccc ・・・・・・ スクリーン 俯瞰映像用 参加者撮影用 本棚監視用 ホワイトボード ホワイトボード監視用 ・・・・・・ 加速度センサ PhotoChat 全方位カメラ・マイク 本棚 ネットワークカメラ ミーティング収録環境について説明します 対面議論型ミーティング 参加者:各々のパソコン、Photochat テーブル ネットワークカメラ
システム構成図 Photochat カメラアレイ 全方位カメラ 加速度センサ マイク フレーム補完 マスク処理 正規化 顔認識 首振り検出 発話区間検出 同期処理 顔認識 首振り検出 映像圧縮 動作検出 顔追跡 ノイズ除去 操作抽出 文字認識 3次元ベクトル化 パターン分類 キーワード抽出 視線 うなずき 発話 複数ネットワークカメラ 欠損したフレームの補完 協調的アノテーション 非言語インタラクションパターン検出 会話シーン認識 知識コンテンツ化
非言語行動の検出-視線- 全方位カメラLadybug2 OKAO Visionによる顔認識・視線方向認識 顔追跡とエラー訂正処理 2次元情報→3次元上の顔の位置と視線方向 1024 (ピクセル) 2048 (ピクセル) 全方位カメラ あ 「CAMshift」は「Continually Adaptive Meanshit」(連続適応的meanshift)の略で、重心以外に重量とモーメントが計算されます。重量とモーメントの値によって検索範囲の形が調整されます。 。「meanshift」アルゴリズムでは、roiの様に検索範囲がしてされます。その範囲内の重心が計算され、範囲の中心がその重心と重なるように移動されます。範囲が動かないまでそれを繰り返します。 まず, meanShift() を用いて物体の中心を求め,物体サイズに合わせて窓サイズを調整して,さらに最適な方向を検出します.この関数は,物体の位置,サイズ,姿勢を含む,回転した矩形を表現する構造体を返します.探索窓の次の位置は, RotatedRect::boundingRect() から得ることができます 物体の中心,サイズ,姿勢を求めます. Ladybug2
非言語行動の検出-うなずき- 頭部につけた加速度センサからうなずき動作を検出する 加速度センサの傾きを補正 鉛直方向の動きを窓幅600ミリ秒で分散をとり,抽出する 首振り動作以外の動きを除去する -顔方向を変える動作 顔方向を変える動作 首振り動作区間 加速度の二乗和 傾きの変化量の大きいところ 分散 垂直方向の動作区間 [斎賀 et al. 10]
非言語行動の検出-その他- 発話 協調的アノテーション 本棚、ホワイトボードの利用 テーブル中心に設置した環境マイクの音声から発話区間検出 撮影、書き込み、閲覧といった操作 操作パターンなどによる仮想会話の分類 本棚、ホワイトボードの利用 カメラ映像の差分による行動検出
知識コンテンツ化:会話シーン認識 再利用性の高い重要シーンの獲得 特徴的な会話シーンの獲得 再利用性の高いシーンを得るには参加者の意図に沿うことが重要 非言語情報から会話の状況や参加者の意図を掴む 意味情報までは踏み込まない(キーワード単語の利用程度) ・参加者間の非言語インタラクション 発話交替、視線集中,うなずきの同期,… ・参加者のつける意味的アノテーション メモ・写真情報+それを書き込む(撮る)という行為 久保田や長尾らによって会話から再利用性の高い知識を獲得するには参加者の意図が重要という知見が得られています また,非言語情報は会話の状況や参加者の意図を掴む手がかりになると言われており, 我々のグループでもいくつかの会話について,非言語情報による会話分析を行ってきました. 本研究では,顔認識,視線検出などによって参加者の非言語情報を取得し,またホワイトボードに書き込みされた, などの会話場の情報とあわせて, 「いつ,どこで,だれが,何をしている」といった状況インデキシングを行います これに参加者によるメモなどの意味的アノテーションを付加させて,重要シーンを獲得します 30 特徴的な会話シーンの獲得
知識コンテンツ化:インデクス付与 会話シーンのもつ情報インデクス これらのインデクスを利用してミーティングの構造化や、 会話シーンのもつ情報インデクス スライドやメモから得たシーンに出てきたキーワード 会話状況 話題転換や盛り上がり、注目が集まっているなどの特徴的な会話状況 非言語インタラクション 協調的アノテーション ミーティング・参加者情報 これらのインデクスを利用してミーティングの構造化や、 現在の状況と照らし合わせた提示を行う
まとめと今後 参加者の非言語インタラクションと、メモや書き込みといった協調的アノテーションをもとに、知識コンテンツ化をおこなうミーティングキャプチャシステムの提案 記録したミーティングを分析して会話シーン認識のモデルを構築し知識コンテンツ化を行う 日常的に運用し、有用性を確認する
まとめ グループ内の知識流通サイクルを実現する ミーティング,立ち話,本棚周辺における会話の獲得 非言語情報を用いた重要シーン切り出し 会話シーンの関連付けによるメタ構造の導入 有益な会話の促進や知識共有のための提示システム 研究室内において日常的に運用することで,グループ内における知識流通が促進される ことを確認する 今後の取り組みに関してですが,まず知識流通サイクルを実現する環境の構築を行います. また,研究室内において日常的に運用することで,グループ内などにおける知識流通が促進されることを確認します.