I-Scoverチャレンジ2013 ~I-Scoverでできる こんなこと、あんなこと~ データ分析/可視化カテゴリ 論文キーワードの特徴分析 ~どんなキーワードを付けているのか~ GOMI Hiroshi.

Slides:



Advertisements
Similar presentations
画像処理・実習 第十四回:パターン認識 東海大学 情報理工学部 情報メディア学科 濱本和彦. 今回の内容 5. パターン認識 5.1 マッチングの原理 5.2 テンプレートマッチング 実習 相互相関とテンプレートマッチング.
Advertisements

5 章 標本と統計量の分布 湯浅 直弘. 5-1 母集団と標本 ■ 母集合 今までは確率的なこと これからは,確率や割合がわかっていないとき に, 推定することが目標. 個体:実験や観測を行う 1 つの対象 母集団:個体全部の集合  ・有限な場合:有限母集合 → 1つの箱に入っているねじ.  ・無限な場合:無限母集合.
『わかりやすいパターン認 識』 第 5 章 特徴の評価とベイズ誤り確率 5.4 ベイズ誤り確率と最近傍決定則 発表日: 5 月 23 日(金) 発表者:時田 陽一.
ヒストグラム5品種 松江城 出雲大社 石見銀山 三瓶山 アクアス しかしグラフで比較するのはめんどうなところがある 端的に1つの数字(代表値)で品種の特徴を表したい.
電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
●母集団と標本 母集団 標本 母数 母平均、母分散 無作為抽出 標本データの分析(記述統計学) 母集団における状態の推測(推測統計学)
データ分析入門(12) 第12章 単回帰分析 廣野元久.
国内線で新千歳空港を利用している航空会社はどこですか?
プロ野球観客動員数の 要因分析.
代表値と散らばり.
P2P SIP的な世界とは? Rev. 0.
仮想マシンの並列処理性能に対するCPU割り当ての影響の評価
4Y-4 印象に残りやすい日本語パスワードの合成法
因子分析や3相因子分析による分析の問題点を整理する 狩野裕+原田章(行動工学講座)
小学校における英語指導は、中学校での英語学習にどのような影響を与えるか?
酒井哲郎:海岸工学入門,森北出版 第3章(pp.27-36)
PSOLA法を用いた極低ビットレート音声符号化に関する検討
計測工学 -測定の誤差と精度2- 計測工学 2009年5月17日 Ⅰ限目.
2009年度卒業研究発表会資料 excelによるデータ分析手法を研究 氏名:荒尾 直也 ゼミ名:飯田ゼミ.
ターム分布の確率モデル Zipfの法則:使用頻度の大きな語は語彙数が少なく,使用頻度の小さな語は語彙数が多い
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 データ入力 データ分析 報告書の作成.
Peer to Peer(P2P)の概要と 研究の進捗
離婚が出生数に与える影響 -都道府県データを用いた計量分析
平成22年6月15日 図書系職員のための アプリケーション開発講習会
原子核物理学 第4講 原子核の液滴模型.
情報管理論 2018/11/9 情報分析の道具 2018/11/9 情報分析の道具 情報分析の道具.
大阪大学 大学院工学研究科 極限光通信工学領域 井上研究室 欅田 直也・橘 遼太郎・隅田 拓也・高 祥史
Fuzzy c-Means法による クラスター分析に関する研究
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
12/14 全体ミーティング 米澤研究室卒論生 山崎孝裕
代表値とは 散布度とは 分布のパラメータ 母集団とサンプル
ゴールドバッハ予想と その類似問題の考察 情報科学科 白柳研究室   小野澤純一.
環境リスクマネジメントに関する 検索システム
補足資料.
1.標本平均の特性値 2.母分散既知の標本平均の分布 3.大数法則と中心極限定理
コードクローンの動作を比較するためのコードクローン周辺コードの解析
プログラミング論 主成分分析
多変量解析 ~主成分分析~ 1.主成分解析とは 2.適用例と解析の目的 3.解析の流れ 4.変数が2個の場合の主成分分析
市場調査の手順 問題の設定 調査方法の決定 データ収集方法の決定 データ収集の実行 データ分析と解釈 報告書の作成 標本デザイン、データ収集
2007年度追加機能.
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
エピソード記憶に訴えるBookmarkless Bookmarkの実現
DNSクエリーパターンを用いたOSの推定
2.4 Continuum transitions Inelastic processes
高齢慢性血液透析患者の 主観的幸福感について
Javaソフトウェア部品検索システムSPARS-Jの実験的評価
コードクローンの理解支援を目的としたコードクローン周辺コードの解析
  JSTChina         中国文献データベース.
データの型 量的データ 質的データ 数字で表現されるデータ 身長、年収、得点 カテゴリで表現されるデータ 性別、職種、学歴
P2P ネットワーク上で 実時間ストリーミングを実現するための 分散制御プロトコルの提案
Peer-to-Peerシステムにおける動的な木構造の生成による検索の高速化
コーディングパターンの あいまい検索の提案と実装
BPSK,CDMA後の波形 直交符号 通信ネットワーク特論(スペクトル拡散).
1DS04167N 稲益晃仁 1NC04010M 久保綾子 1DS04199Y 堀江孝志
川崎浩司:沿岸域工学,コロナ社 第4章(pp.58-68)
構造的類似性を持つ半構造化文書における頻度分析
統計処理1 平均・分散・標準偏差.
情報の集約 記述統計 記述統計とは、収集したデータの分布を明らかにする事により、データの示す傾向や性質を要約することです。データを収集してもそこから情報を読み取らなければ意味はありません。特に膨大な量のデータになれば読みやすい形にまとめて要約する必要があります。
クローン検出ツールを用いた ソフトウェアシステムの類似度調査
データマイニングアルゴリズム「アプリオリ」と「ID3」の比較
1ーQー18 音声特徴量抽出のための音素部分空間統合法の検討
1変量データの記述 (度数分布表とヒストグラム)
プログラミング論 相関
税金や社会福祉などによって再分配機能が充実した国の場合、初期所得(税引き前の給与)でのジニ係数と、所得再配分後のジニ係数が異なる。
ソフトウェア理解支援を目的とした 辞書の作成法
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
調査課題 経営学部市場戦略学科2年 MR7125 池田 莉子.
Presentation transcript:

I-Scoverチャレンジ2013 ~I-Scoverでできる こんなこと、あんなこと~ データ分析/可視化カテゴリ 論文キーワードの特徴分析 ~どんなキーワードを付けているのか~ GOMI Hiroshi

目的と概要 目的 概要 論文のキーワードの特徴分析を行う これによりキーワードの一般的な傾向性を掴む 和文タイトルとキーワードがマッチングできるデータ399件を抽出し、和文タイトルとキーワードの相関関係やキーワードの特徴を抽出するために、以下の分析を行う。 キーワード数の分布 キーワードと和文タイトルの文字数の相関 日本語キーワード数の分布 日本語キーワードと和文タイトルの文字数の相関 英語キーワード数の分布 日本語キーワードと英語キーワードの割合 キーワードマッチングの割合 キーワードマッチングのランキング

キーワード数と論文タイトル名 平均 5.91 個 分散 8.29 相関係数 6.9% 和文タイトル名 の文字数 件数 キーワード数 図1. キーワード数 キーワード数 図2. 和文タイトル名の文字数とキーワード数の分布図 平均 5.91 個 分散 8.29 相関係数 6.9% キーワードの平均値は 5.91個で、中央値は6個である。 キーワードの個数は、6,8,10,12個など偶数個の件数が多い(後述) 和文タイトル名とキーワード数にはほぼ相関はない (参考) 和文タイトルの平均文字数は 28.6 文字で、分散は 101.5 である

日本語キーワード数と論文タイトル名 平均 2.81個 分散 3.29 相関係数 9.9% 和文タイトル名 の文字数 件数 図3. 日本語キーワード数 キーワード数 図4. 和文タイトル名の文字数と日本語キーワード数の分布図 キーワード数 平均 2.81個 分散 3.29 相関係数 9.9% (参考)全キーワードの平均 5.91 個 分散 8.29 (参考)全キーワード数での相関係数 6.9% 日本語キーワードの平均値は 2.81個で、全体のキーワード数のほぼ半数である 日本語キーワードの最頻値は、4個である 和文タイトル名と日本語キーワード数にもほぼ相関はないが、全キーワード数との相関よりは相関がある傾向が見られる

日本語キーワードと英語キーワード分布 平均 2.81個 分散 3.29 平均 3.11個 分散 5.57 件数 件数 キーワード数 図5. 日本語キーワード数(図3 の再掲) 図6. 英語キーワード数 キーワード数 平均 2.81個 分散 3.29 平均 3.11個 分散 5.57 英語キーワード数の方が日本語キーワード数と比較して、平均値も大きく、分散も大きいことが分かった。これら二つの分布には異なる傾向が見られる。 英語の短縮名がキーワードによく使われていることも、その要因である

日本語キーワードと英語キーワード割合 A. 日本語キーワード数と英語キーワード数 が同数である割合は 22.3% B. 日本語キーワードのみの割合は 20.1 % C. 英語キーワードのみの割合は 16.8% Dその他 B日本語のみ C英語のみ 図7. 日本語と英語キーワードの割合 日本語のキーワードと英語のキーワードは、単なる翻訳であることが多い。上記のAのように日本語キーワードと英語キーワードの個数が同数である場合が多いのはそのためであり、また図1 で偶数個のキーワード数が多かったのもそのためである 一方、日本語のみのキーワードや逆に英語のみのキーワードだけのものも、比較的大きい割合を占める

マッチング数が 1 の場合は他のキーワードと全くマッチングしていないことを示している キーワードのマッチング割合 件数 データ数はユニークキーワード数 マッチング数 図8. キーワードのマッチング マッチング数が 1 の場合は他のキーワードと全くマッチングしていないことを示している キーワードがマッチングする割合は非常に少ない。 ユニークキーワードの91%(1925/2107)が単独のキーワードになっている。 全キーワードの81%(1925/2360)が単独のキーワードになっている

キーワードのマッチング(ランキング) 3位 4個 キーワード出現ランキング 1位 6個 Optical Fiber 光ファイバ 2位 5個 MIMO Multiple-input and multiple-output (MIMO) Peer-to-peer (P2P) ピアツーピア(P2P) Ultra Wide Band (UWB) 超広帯域無線(UWB) HEMT Electromagnetic compatibility (EMC) 電磁環境・EMC Orthogonal frequency division multiplexing (OFDM) 直交周波数分割多重(OFDM) 散乱 Vehicle-to-vehicle (V2V) communication 車車間通信 Neural network (NN) ニューラルネットワーク キーワード出現ランキング 1位 6個 Optical Fiber 光ファイバ 2位 5個 Wireless sensor network (WSN) センサネットワーク(SN) マッチングの割合が小さいので、このランキングは参考程度のデータである ランキング上位には同じ意味の日本語と英語のキーワードが見られるが、これは全体的な傾向である

まとめ I-Scover のオープンデータから、以下のものを分析した これらから、論文のキーワードの傾向性が分かった キーワード数の分布、キーワードと和文タイトルの文字数の相関 日本語キーワード数の分布、日本語キーワードと和文タイトルの文字数の相関、英語キーワード数の分布、日本語キーワードと英語キーワードの割合 キーワードマッチングの割合、キーワードマッチングのランキング これらから、論文のキーワードの傾向性が分かった キーワードの中央値と最頻値は6個である 日本語と英語のキーワードが両方同時に用いられている 英語キーワードは日本語キーワードよりも個数が多く、また分散も大きい キーワードマッチングは非常に少ない 今後は以下のキーワード規則を導入することを提案する キーワードマッチングが増加するようにキーワードの規則作成 キーワード検索が効率的に行えるようにキーワード分類の作成