聞き手の非言語的反応と協調的アノテーションに基づくミーティングキャプチャシステム

Slides:

Advertisements

Similar presentations

地図の重ね合わせに伴う位相関係の矛盾訂正手法萬上裕 † 阿部光敏＊高倉弘喜 † 上林彌彦 ‡ 京都大学工学研究科 † 京都大学工学部＊京都大学情報学研究科 ‡

Advertisements

VQSコラボBusiness VQSコラボLearning ご提案資料 2014/4. Windows版 iPad版 iPhone版交流タイプ 2 ◆シンプル設計でどの端末からも議長or講師＋５映像付発言参加者最大：30接続（内25視聴者）（＊）Android版は開発中ですシンプル設計のインターフェイスはWindowsパソコン、iPad、iPhoneと.

自動映像生成のためのパーティクルフィルタによるボールの追跡 2007 年 3 月 21 日神戸大学大学院自然科学研究科矢野一樹.

Imagire Day CEDEC 2009続・レンダリスト養成講座田村尚希川瀬正樹シリコンスタジオ株式会社.

Determining Optical Flow. はじめにオプティカルフローとは画像内の明るさのパターンの動きの見かけの速さの分布オプティカルフローは物体の動きのよって変化するため、オプティカルフローより速度に関する情報を得ることができる.

大規模コーパスから獲得した名詞の出現パターンを用いた事態名詞の項構造解析

顔表情クラスタリングによる映像コンテンツへのタギング

静止画ファイル形式小林　康三.

研修のめあて授業記録、授業評価等に役立てるためのICT活用について理解し、ディジタルカメラ又はビデオカメラのデータ整理の方法について研修します。福岡県教育センター　教員のICT授業活用力向上研修システム.

コンピュータビジョン特論ＯｐｅｎＣＶについて

画像処理学習用RTコンポーネントライブラリ田窪朋仁，大原賢一，吉岡健伸（大阪大学）

状況に応じたサービスを提供するための人や物に共通の情報管理

点対応の外れ値除去の最適化によるカメラの動的校正手法の精度向上

HOG特徴に基づく単眼画像からの人体3次元姿勢推定

静止背景における動物体の検出と追跡陳　謙 2004年10月19日.

高度情報演習1A　“テーマＣ” 実践画像処理プログラミング〜画像認識とＣＧによる画像生成〜第四回　演習課題画像中からの物体抽出処理（背景情報を手がかりとして）芝浦工業大学工学部　情報工学科青木　義満 2006/05/15.

パノラマ動画像モデルによる仮想空間表現システムの研究

聞き手の非言語的反応と協調的アノテーションに基づくミーティングキャプチャシステム

「わかりやすいパターン認識」第１章：パターン認識とは

Deep learningによる読唇システム

画像処理論.

Aided Eyes: Eye Activity Sensing for Daily Life

ライフログデータとしての笑顔の蓄積システムの提案

異種センサを用いた人の行動検知研究概要研究の独自性 isi担当高汐グループ成果スライド到着待ち yasu担当.

OpenCV を使った画像処理コンポーネントの作成例田窪朋仁（大阪大学）

VideoOnDemand型 e-Learningシステムのご提案

CV輪講姿勢変化に対応したSoft Decision Featureと Online Real Boostingによる人物追跡

ストリーム処理エンジンを用いた顔映像に対する補助情報提供システム

Webを使ったナレッジマネジメントとビジネス展開*

固定カメラ映像からの音声情報を用いた映像コンテンツ生成

ZigBeeノードの受信信号強度を利用した屋内での人の活動範囲検出法

センサネットワークにおけるグルーピング機構

Java ソフトウェア部品検索システム SPARS-J のためのリポジトリ自動更新機能の実現

長岡技科大オープンハウス岐阜高専４年電子制御工学科森　永二郎.

Astro-E2衛星搭載 XISのデータ処理方法の最適化

独立成分分析１．問題は何か：例：解法：全体の見通し 2007/10/１７名雪　勲.

Bottom-UpとTop-Down アプローチの統合による単眼画像からの人体3次元姿勢推定

ビデオデータベース.

WIP中間発表画像解析を用いたメイドの為の無許可撮影通知システム

位相カメラの進捗状況京都大学修士1回横山　洋海.

プロジェクト演習III,V ＜インタラクティブ・ゲーム制作＞プログラミングコース

音響伝達特性を用いた単一マイクロホンによる話者の頭部方向の推定

構造情報に基づく特徴量を用いたグラフマッチングによる物体識別情報工学科藤吉研究室　EP02086　永橋知行.

情報検索(６) メディア検索の仕組み教員岩村雅一

高度情報演習1A “テーマＣ” 実践画像処理プログラミング第六回最終課題画像処理による動物体自動抽出、モーションキャプチャ

議事録作成支援Ｗｅｂアプリケーションの開発リアルタイム通信を用いた合意形成を目指して

Shimatterシステムのトップダウン分析

12. 意味・意図の解析 12.1 意味表現とは 12.2 規則による意味解析処理 12.3 統計的な意味解析処理 12.4 スマートフォンでの音声サービスニューラルネットワークによる意味解析.

物履歴に基づいたユーザプロファイリング機構の構築

迷子問題を考慮した地図閲覧システムの構築

GPSを使わないBebop Droneの自動飛行

ロボットの協調動作の研究：マップ作成とマップ情報を利用した行動計画

Data Clustering: A Review

一方向画像からの３Dモデル生成電気電子工学科　白井研究室 T215049　田原　大輝.

工学部電気電子工学科白井研究室 T 山田翔也

Spatial Linker - 空間コンテンツ融合の研究 -

各会話シーン毎に、発話（音源）方向を推定

Bottom-UpとTop-Down アプローチの組み合わせによる単眼画像からの人体3次元姿勢推定

資料2-2 平成26年度第2回技術委員会資料次年度検討テーマ案

Webからの人間関係ネットワークの抽出と情報支援

ブースティングとキーワードフィルタリングによるシステム要求検出

プロジェクト演習III,V ＜インタラクティブ・ゲーム制作＞プログラミングコース

ロボットから人に話しかける判断モデルの構築

２０１８年度ビジョン研究室ゼミナール・卒研紹介指導教員：張善俊６月20日（水） 6－209.

　　情報に関する技術　　　　　　情報モラル授業　　.

Webページタイプによるクラスタリングを用いた検索支援システム

窪田進太郎有木康雄（神戸大）熊野雅仁（龍谷大）

CSP係数の識別に基づく話者の頭部方向の推定

ＡＡＭと回帰分析による視線、顔方向同時推定

P2Pによる協調学習システム唐澤　信介　　北海道工業大学　電気工学専攻.

Presentation transcript:

聞き手の非言語的反応と協調的アノテーションに基づくミーティングキャプチャシステム京都大学大学院情報学研究科勝木弘，角康之，西田豊明

はじめにミーティング参加者の非言語インタラクションと、メモや書き込みといった聞き手の行う協調的アノテーションをもとに、知識交流や新たな知を創造する重要な場記録・構造化による知的活動支援参加者への負担、制限が厳しい話し手の発話内容や振る舞いに注目グループ内の知識交流や、議論によって新たな知を創造する場としてミーティングは有用記録・構造化を行うことで知的活動支援を行なおうという試み AMI,VASE, 参加者の非言語インタラクションと、メモや書き込みといった聞き手の行う協調的アノテーションをもとに、ミーティングの知識コンテンツ化をおこなう

知識流通実世界会話場 DB 支援システムミーティング会話記録提示・支援知識コンテンツ化・会話シーン認識・インデクス付与対象とするミーティング：5,6人程度の参加者がテーブルに座り、スライド、ビデオ、配布資料などを参照しながら議論を行う対面議論型ミーティングまず実世界会話場で行われている会話をカメラやセンサを用いて記録します。センサを用いて、視線やうなずきなどと言った記録された会話を重要シーンの獲得やシーンの関連付けによって知識コンテンツ化します。それを実世界に提示することによって新たな会話の促進や知識の共有の支援を行います。さらに新たに行われた会話を記録していくことで，知識の流通サイクルを実現します。ミーティング DB 支援システム知識コンテンツ化・会話シーン認識・インデクス付与

対象とするミーティング 5人前後（4～8人）によるグループミーティングプレゼンテーションによる研究発表負担にならない程度のセンサ写真撮影・書き込みようの端末を保持

獲得する非言語行動視線検出、顔認識音声検出－環境マイクうなずき検出－加速度センサを利用（本棚，ホワイトボードの利用）　全方位カメラorカメラ　＋モーションキャプチャ音声検出－環境マイクうなずき検出－加速度センサを利用（本棚，ホワイトボードの利用）協調的アノテーション Photochatで行われる写真撮影や書き込み

◯◯◯について・xxxxxxx ・vvvvvvv ・tttttttttt AAAABBBBCCC Aaa bbb ccc ・・・・・・スクリーン俯瞰映像用本棚監視用ホワイトボードホワイトボード監視用・・・・・・加速度センサ PhotoChat 全方位カメラ・マイク本棚ネットワークカメラモーションキャプチャミーティング収録環境について説明します対面議論型ミーティング参加者：各々のパソコン、Photochat テーブルネットワークカメラワイヤレスマイク

システム構成図 Photochat カメラアレイ全方位カメラ加速度センサマイクフレーム補完マスク処理正規化顔認識首振り検出発話区間検出同期処理顔認識首振り検出映像圧縮動作検出顔追跡ノイズ除去操作抽出文字認識 3次元ベクトル化パターン分類キーワード抽出視線　　　うなずき　　発話　　協調的アノテーション非言語インタラクションパターン検出複数ネットワークカメラ欠損したフレームの補完会話シーン認識知識コンテンツ化

協調的アノテーションチャットの性質[1,2] デジタル的なバックチャネル対面議論に対して時間的・内容的な制約をうける Photochatをによる写真撮影・書き込みデジタルバックチャネルとしての利用（聞き手の興味・関心などの反応を見る）単語を拾うことによるキーワード取得 [1]Digital backchannels in shared physical spaces: experiences at an academic conference (McCarthy CHI2005) [2]超メディア参照機能を有するチャット併用会議のためのチャットシステム (小林・西本 ,wiss2009)

Photochat 写真撮影・手書きメモ機能リアルタイム共有写真上での仮想的な会話 ⇒参加者の興味や感心を反映 [角 et al. 08]

メモ会話疑問・応答マーク・感想

非言語行動の検出－視線1－全方位カメラLadybug2 OKAO Visionによる顔認識・視線方向認識顔追跡とエラー訂正処理 2次元情報→3次元上の顔の位置と視線方向　1024 (ピクセル) 　2048 (ピクセル) 全方位カメラあ「CAMshift」は「Continually Adaptive Meanshit」（連続適応的meanshift）の略で、重心以外に重量とモーメントが計算されます。重量とモーメントの値によって検索範囲の形が調整されます。。「meanshift」アルゴリズムでは、roiの様に検索範囲がしてされます。その範囲内の重心が計算され、範囲の中心がその重心と重なるように移動されます。範囲が動かないまでそれを繰り返します。まず， meanShift() を用いて物体の中心を求め，物体サイズに合わせて窓サイズを調整して，さらに最適な方向を検出します．この関数は，物体の位置，サイズ，姿勢を含む，回転した矩形を表現する構造体を返します．探索窓の次の位置は， RotatedRect::boundingRect() から得ることができます物体の中心，サイズ，姿勢を求めます． Ladybug2

非言語行動の検出－視線2－モーションキャプチャによる顔方向計算頭の中心線を通るfront – back の2点を下に傾けた方向傾きは約40度帽子の被り具合　で多少変動あり Head_back Head_front

衝突判定顔方向≠視線方向上下左右に範囲を持たせる必要がある状況によって範囲は変動する要：妥当性の検証例：左右20度、上下10度立場の違い：話し手、聞き手、… 対象の距離：近い、遠い、… 要：妥当性の検証

非言語行動の検出－うなずき－頭部につけた加速度センサからうなずき動作を検出する加速度センサの傾きを補正鉛直方向の動きを窓幅600ミリ秒で分散をとり，抽出する首振り動作以外の動きを除去する－顔方向を変える動作顔方向を変える動作首振り動作区間加速度の二乗和傾きの変化量の大きいところ分散垂直方向の動作区間 [斎賀 et al. 10]

非言語行動の検出－その他－発話協調的アノテーション本棚、ホワイトボードの利用各自が身につけたマイクによる発話区間検出（パワー）撮影、書き込み、閲覧といった操作操作パターンなどによる仮想会話の分類撮影時の頭部方向より対象物の推定（スライド、人）本棚、ホワイトボードの利用カメラ映像の差分による行動検出

知識コンテンツ化：会話シーン認識再利用性の高い重要シーンの獲得特徴的な会話シーンの獲得再利用性の高いシーンを得るには参加者の意図に沿うことが重要非言語情報から会話の状況や参加者の意図を掴む意味情報までは踏み込まない（キーワード単語の利用程度）・参加者間の非言語インタラクション発話交替、視線集中，うなずきの同期，… ・参加者のつける意味的アノテーションメモ・写真情報＋それ自体の持つデジタルチャット的な反応久保田や長尾らによって会話から再利用性の高い知識を獲得するには参加者の意図が重要という知見が得られていますまた，非言語情報は会話の状況や参加者の意図を掴む手がかりになると言われており，我々のグループでもいくつかの会話について，非言語情報による会話分析を行ってきました．本研究では，顔認識，視線検出などによって参加者の非言語情報を取得し，またホワイトボードに書き込みされた，などの会話場の情報とあわせて，「いつ，どこで，だれが，何をしている」といった状況インデキシングを行いますこれに参加者によるメモなどの意味的アノテーションを付加させて，重要シーンを獲得します 30 特徴的な会話シーンの獲得

知識コンテンツ化：会話シーン認識重要なスライドスライドに対してみんなが目をむけている Photochat上での注目が高い振り返りが多い（盛り上がったシーンが含まれている）（議論が活発に行われた）（説明が長く行われた）

知識コンテンツ化：インデクス付与会話シーンのもつ情報インデクスこれらのインデクスを利用してミーティングの構造化や、　会話シーンのもつ情報インデクススライドやメモから得たシーンに出てきたキーワード会話状況盛り上がり、注目が集まっているなどの特徴的な会話状況非言語インタラクション協調的アノテーションミーティング・参加者情報：誰が発表しているのか、どんなミーティングなのかこれらのインデクスを利用してミーティングの構造化や、現在の状況と照らし合わせた提示を行う

収録 7人による勉強会の様子を収録 10分程度の発表＋議論 × 3人 Photochatは6名が使用 10分程度の発表＋議論 × 3人 Photochatは6名が使用ネットワークカメラ不具合により環境カメラは3視点のみ加速度センサ不使用

例盛り上がってるシーン（１６：５４）一番盛り上がっていた？（ぱっと見）Photochatの写真がとられたあたり（29:31）発表者の発言に何人かがどっと反応したシーン発表論文を「なんか実装してみたかったらしい」みたいな感じでばさっと一番盛り上がっていた？（ぱっと見）Photochatの写真がとられたあたり（29:31）発表論文のデモビデオを流すシーン論文読む前にまずは見てくださいと紹介されてる

まとめ聞き手反応に着目した知識コンテンツ化をおこなうミーティングキャプチャシステム視線、うなずき、などといった非言語行動の検出参加者の非言語インタラクション、協調的アノテーションを利用したインデキシング

今後の課題収録した知識コンテンツを閲覧するためのブラウジング環境実世界に対しての提示 ⇒DBと閲覧用ブラウジングサイトの構築　　　Photochatによるリンク提示インデキシングの充実・体系化

Backとfrontを結んだ線 Head_front Head_back 約40度真正面を見ている時の視線モーションキャプチャによる顔方向取得・福間さんの方法：　-帽子の4点をもとに、眉間（or目の間）の点を変換行列で求める -計算が多い -ずれが大きくなる（？） -4点（3点？）が常に必要現在帽子のマーカーは全て同じ位置 Head_frontとHead_backは頭の中心を通っている →frontとbackを結んだ線は顔方向と左右は同じになる →上下にどれだけずれるのか（上の図）よって顔方向はback – frontの線を下に約40度傾けた方向 ※帽子のかぶる深さによって多少変動する ※首をかしげる場合はずれは下方向でなくなるがとりあえず無視 Backとfrontがとれなかった場合、他の点を使って顔方向を計算する -まだ行っていないリアルタイムでトラックする時には、人物指定だけでなく、上下左右のずれのパラメータ調節ができるようにする

Real Line / Virtual Line C君　6月の学会で似た研究がありましたね http://www.kuis.kyoto….. RT @A君　似た研究を．．　 Live Bさん　RW　@A君　 ID:0001#photo-20100113　 Capture! A君似た研究をどこかで．． A君　ID：0001 #photo-20100113　 @ミーティング記録ビューア要求仕様：動画上：リアルのデモやら＋話し手，聞き手の様子ユーザorサーバのエージェントが操作下：プレゼン用のPCのストリーム Event Line ：Ustみたく Tweet Line：過去のも見れるどういう風に使うのか（けんきゅうしつ？外部も？）大部分：裏でタグ付け（イベントと対応） PhotoChatの写真は複数人のつぶやきどういうデータを集めるのか　←殺し文句を意識しながら！ Capture! つぶやき →