人間の社会的関係を考慮した情報支援 学会や講演会の会場では、人の関係が重要。 人同士の社会的関係を記述することは困難 センサにより得られた絶対位置よりも、相対的に近くにいる人との社会的関係がユーザの文脈として大きな意味を持つ。 人同士の社会的関係を記述することは困難 Web上の情報から人間関係をマイニングする。 ここでの人間関係とは、研究者間の協働関係 将来的には、人間関係を考慮した出会い支援、位置情報通知サービスなど。 松尾豊 and (東京大学 or 東大 or 産業技術総合研究所 or 産総研 or 科学技術振興事業団) 産総研=産業技術総合研究所は登録しておく
Web上の情報からの人間関係の抽出 ノードは人、エッジは人と人の関係。 赤いエッジは共起頻度が高い、黒いエッジは共起の割合(Simpson係数)が高い、点線はSimpson係数がやや高い。 エッジの種類には、共(共著関係)、研(同研究室、同研究所関係:同じ組織)、プ(同プロジェクト、同委員会関係:組織をまたがった組織)、発(同じ研究会や全国大会プで発表:一時的に出会った可能性がある)。 共、研は比較的強い関係。発は弱い関係と言えるだろう。 共、研などの文字をクリックすると、その根拠となったWebページを表示する。 ●をクリックすると、その人の発表情報(スケジュールおよび論文概要やPDF)に、星をクリックするとその人の位置情報に飛ぶことができる。 (裏機能:ノードの重なりによって、このネットワーク上のPageRankによるオーソリティ度が分かる。上に来るほどオーソリティ度が高い。)
全部で約150ノード。(人工知能学会全国大会 過去5年の発表者500人中、エッジが多く張られている人、今年の発表者を中心にノードとしている。)
2003年度 人工知能学会全国大会で運用 (期間中519アクセス)
抽出の方法 検索エンジン(Google)を使って、共起関係の強さを測る。 共起が強ければ、エッジを張る。 例)79件 同姓同名に対応するため、実際は、 松尾豊 and (東京大学 or 東大 or 産業技術総合研究所 or 産総研 or 科学技術振興事業団)で検索。 産総研=産業技術総合研究所は登録しておく 他にも、Jaccard係数なども他の係数も試したが、単独でのヒット数が大きなものが有利になる、小さなものが有利になるなどの問題があり、 閾値に基づくSimpson係数を使用 検索エンジン(Google)を使って、共起関係の強さを測る。 共起が強ければ、エッジを張る。 #(X∩Y): “X and Y”での検索ヒット数 #(X): “X”での検索ヒット数 例) 79 / min(285,652)
関係の種類の判別 (zero, yes, one, zero, no, no, yes, no, no, …) コンテンツの属性を抽出 “X and Y”で検索された上位ページ コンテンツの属性を抽出 (zero, yes, one, zero, no, no, yes, no, no, …) 語群とは A:業績 論文 成果 発表 活動 テーマ 著者 publicationなど B:グループ 研究室 研究所 チームなど C:プロジェクト 委員会など D:研究会 定例 講演 報告など これらはあらかじめクラスわけした文書の上位TFIDF語から選んでいる。 クロスバリデーションによる評価(エラー率):共著4%、研究室26%、プロジェクト6%、発表11% 共著 研究室 プロジェクト 発表 適合率:93.9 56.3 85.7 84.7 再現率:91.2 60.0 46.2 62.1 機械学習で得られた判別ルール 共著 研究室 プロジェクト 発表 該当するクラスが得られる
技術の要点 人間関係(研究者の協働関係)がWeb上の情報だけから自動的に抽出できる。 位置情報からの人間関係ネットワーク http://www.carc.aist.go.jp/~y.matsuo/humannet/ 9割程度の精度(再現率は5割弱) Web上の情報は新しく、しかも豊富である。ゴミも多く含まれているが、非常に多くの情報を抽出することができる。好むと好まざるとに関わらず情報が公開され、結果的に研究分野が俯瞰できる。 位置情報からの人間関係ネットワーク http://www.miv.t.u-tokyo.ac.jp/~matsuo/carc/CoBIT/ 会ったかどうかは9割程度の精度(再現率は2割程度) センサが多く配置されているユビキタス環境において重要 Yahoo!掲示板からの投資家から見た企業関係ネットワーク http://www.miv.t.u-tokyo.ac.jp/~matsuo/tmp/all_rel.html
人間関係ネットワークに関する他からの打診 政治家のネットワークを抽出(中島) アメリカの政治家のネットワーク 人工知能学会の研究者検索システム(人工知能学会企画委員) 人間関係ネットワークを使って、どういう研究者がどういう研究をしているのかを外(産業界)から見て分かりやすくし、産業界との連携を促進し、学会を活性化する ロボカップ研究者の関係図の提示(ロボカップ国際委員会事務局長) NPO型分散研究システム 多分野の研究者が集まってひとつの目標に向かって研究をする新しい研究のあり方を、人間関係ネットワークをもとにして実施したい。 企業の掲示板からのネットワークをビジネスに展開(GBRC 社会ネットワーク研究所所長) 企業にとっては有用な情報。実際に必要とする企業は非常に多い。人間関係ネットワークもビジネスに利用できる 人間関係ネットワークとパフォーマンスとの関連。 共同研究中
現状 「人間関係データの作成方法、人間関係データの作成プログラム及び人間関係データの作成プログラムを記録したコンピュータ読取可能な記録媒体」、松尾 豊、橋田 浩一、特願2003-141093、平成15年5月19日 「共同研究者を検索する新技術」、日経新聞、2003年8月31日 インパクトもあり、多くの実用化システムへの打診があるが、開発体制が弱く、十分に応えられていない。 潜在市場の試算? すべての研究分野において学会活動(研究者の協働促進、外からの研究者検索)の基礎技術として使われうる。諸外国の研究者ネットワークを抽出することもできる。 特に、市場規模が大きい研究分野(医療、遺伝子、材料、宇宙など)では、この技術により研究を促進することができれば、経済効果は非常に大きい。 研究者以外に、会社等の関係を抽出し、Web上の新しい情報に基づくネットワークを表示できれば、企業の戦略立案に有用 政治家のネットワーク(特に諸外国のネットワーク)は政治的に重要?