微小時間における日本語の変 化とその法則 荒牧英治 * 増川佐知子 ** 東京大学 知の構造化センター ** 科学技術振興機構 さきがけ 7/18/2016 Mar. 9, NLP20111.

Slides:



Advertisements
Similar presentations
母平均の区間推定 ケース2 ・・・ 母分散 σ 2 が未知 の場合 母集団(平均 μ 、分散 σ 2) からの N 個の無作為標本から平均値 が得られてい る 標本平均は平均 μ 、分散 σ 2 /Nの正規分布に近似的に従 う 信頼水準1- α で区間推定 95 %信頼水準 α= % 信頼水準.
Advertisements

生物統計学・第 5 回 比べる準備をする 標準偏差、標準誤差、標準化 2013 年 11 月 7 日 生命環境科学域 応用生命科学 類 尾形 善之.
生物統計学・第 4 回 比べる準備をする 平均、分散、標準偏差、標準誤差、標準 化 2015 年 10 月 20 日 生命環境科学域 応用生命科学類 尾形 善之.
日本語教育概論Ⅲ 日本語の語彙と意味 語彙とは? – 彙:集める、なかま – 語: word, 単語、一定の意味を持ち文を組み 立てる最小の独立した単位 – 語彙: vocabulary, 単語の集まり.
神戸大・理 2009 年度 地球および惑星大気科学実習 (2009/07/17) 資料をもとに作成.
地域格差と生産性 ー地域別全要素生産性の計測ー 明治学院大学経済学部 高橋ゼミ 発表者 増田 智也 2007 年度卒業論文発表会.
教育格差 福嶋 敬識 参考
コーパス言語学実践 2006 年度 2 学期 第 2 回. 2 本日の内容 前半の作業について – 語彙調査の演習 – 用語の説明 語彙,単位語,延べ語,異なり語,見出し 語 作成作業 その1 – データ収集開始.
エクセルと SPSS による データ分析の方法 社会調査法・実習 資料. 仮説の分析に使う代表的なモデ ル 1 クロス表 2 t検定(平均値の差の検定) 3 相関係数.
Determining Optical Flow. はじめに オプティカルフローとは画像内の明る さのパターンの動きの見かけの速さの 分布 オプティカルフローは物体の動きの よって変化するため、オプティカルフ ローより速度に関する情報を得ること ができる.
―本日の講義― 1・相関関係と因果性・相関係数の種類 2.散布図をつくる 3・共分散・相関係数の計算
相の安定性と相転移 ◎ 相図の特徴を熱力学的考察から説明 ◎ 以下の考察
◎ 本章  化学ポテンシャルという概念の導入   ・部分モル量という種類の性質の一つ   ・混合物の物性を記述するために,化学ポテンシャルがどのように使われるか   基本原理        平衡では,ある化学種の化学ポテンシャルはどの相でも同じ ◎ 化学  互いに反応できるものも含めて,混合物を扱う.
コーパス言語学実践 2006年度2学期 第10回.
確率・統計Ⅰ 第12回 統計学の基礎1 ここです! 確率論とは 確率変数、確率分布 確率変数の独立性 / 確率変数の平均
医薬品素材学 I 3 熱力学 3-1 エネルギー 3-2 熱化学 3-3 エントロピー 3-4 ギブズエネルギー 平成28年5月13日.
数値気象モデルCReSSの計算結果と 観測結果の比較および検討
国内線で新千歳空港を利用している航空会社はどこですか?
熱力学Ⅰ 第1回「熱力学とは」 機械工学科 佐藤智明.
神戸大学大学院国際文化学研究科 外国語教育論講座外国語教育コンテンツ論コース 神戸 花子
街区構造による風通しの変化 に関する風洞実験
疫学概論 母集団と標本集団 Lesson 10. 標本抽出 §A. 母集団と標本集団 S.Harano,MD,PhD,MPH.
テキストマイニング, データマイニングと 社会活動のトレース
―本日の講義― 1・相関関係と因果性・相関係数の種類 2.散布図をつくる 3・共分散・相関係数の計算
4Y-4 印象に残りやすい日本語パスワードの合成法
大学での講義中の スマートフォンの私的使用 ―その頻度と内容-
薬学物理化学Ⅲ 平成28年 4月15日~.
第2章補足Ⅱ 2項分布と正規分布についての補足
回復期リハビリテーションの成績報告 脳卒中の病型・部位別に
PSOLA法を用いた極低ビットレート音声符号化に関する検討
一成分、二相共存系での平衡 一成分 固液共存系    氷-水.
統計数理 石川顕一 10/17 組み合わせと確率 10/24 確率変数と確率分布 10/31 代表的な確率分布
計測工学 -測定の誤差と精度2- 計測工学 2009年5月17日 Ⅰ限目.
子どものコミュニケーションチェックリスト(CCC-2) 日本語版の標準化:定型就学前児
I-Scoverチャレンジ2013 ~I-Scoverでできる こんなこと、あんなこと~ データ分析/可視化カテゴリ 論文キーワードの特徴分析 ~どんなキーワードを付けているのか~ GOMI Hiroshi.
ターム分布の確率モデル Zipfの法則:使用頻度の大きな語は語彙数が少なく,使用頻度の小さな語は語彙数が多い
ー 第1日目 ー 確率過程について 抵抗の熱雑音の測定実験
離婚が出生数に与える影響 -都道府県データを用いた計量分析
Lorenz modelにおける 挙動とそのカオス性
平成22年6月15日 図書系職員のための アプリケーション開発講習会
◎ 本章  化学ポテンシャルという概念の導入   ・部分モル量という種類の性質の一つ   ・混合物の物性を記述するために,化学ポテンシャルがどのように使われるか   基本原理        平衡では,ある化学種の化学ポテンシャルはどの相でも同じ ◎ 化学  互いに反応できるものも含めて,混合物を扱う.
乳児における 運動情報と形態情報の相互作用
課題 1 P. 188.
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
ChaIME: 大規模コーパスを 用いた統計的仮名漢字変換
独立成分分析 5 アルゴリズムの安定性と効率 2007/10/24   名雪 勲.
黒体輻射 1. 黒体輻射 2. StefanのT4法則、 Wienの変位測 3. Rayleigh-Jeansの式
(d) ギブズ - デュエムの式 2成分混合物の全ギブスエネルギー: 化学ポテンシャルは組成に依存
ランダムグラフ エルデシュとレーニイによって研究された.→ER-model p:辺連結確率 N:ノード総数 分布:
22章以降 化学反応の速度 本章 ◎ 反応速度の定義とその測定方法の概観 ◎ 測定結果 ⇒ 反応速度は速度式という微分方程式で表現
標本分散の標本分布 標本分散の統計量   の定義    の性質 分布表の使い方    分布の信頼区間 
予後因子(入院時年齢・FIM・発症後日数)の階層化による回復期リハの成果測定法の提唱
コードクローンの動作を比較するためのコードクローン周辺コードの解析
(昨年度のオープンコースウェア) 10/17 組み合わせと確率 10/24 確率変数と確率分布 10/31 代表的な確率分布
相の安定性と相転移 ◎ 相図の特徴を熱力学的考察から説明 ◎ 以下の考察
テキストマイニング, データマイニングと 社会活動のトレース
FUT 原 道寛 学籍番号__ 氏名_______
ウィルスって どの位感染しているのかな? 菊池研究室  小堀智弘.
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
オペレーティングシステム (プロセススケジューリング)
これらの原稿は、原子物理学の講義を受講している
構造的類似性を持つ半構造化文書における頻度分析
屋外絶縁用高分子材料の 撥水性の画像解析に関する研究
クローン検出ツールを用いた ソフトウェアシステムの類似度調査
「カテゴリ変数2つの解析」 中澤 港 統計学第7回 「カテゴリ変数2つの解析」 中澤 港
北大MMCセミナー 第68回 附属社会創造数学センター主催 Date: 2017年6月15日(木) 16:30~18:00
相の安定性と相転移 ◎ 相図の特徴を熱力学的考察から説明 ◎ 以下の考察
(昨年度のオープンコースウェア) 10/17 組み合わせと確率 10/24 確率変数と確率分布 10/31 代表的な確率分布
北大MMCセミナー 第17回 Date:2013年12月16日(月) 16:30~18:00 ※通常とは曜日が異なります
北大MMCセミナー 第94回 附属社会創造数学センター主催 Date: 2019年1月25日(金) 16:30~18:00
Presentation transcript:

微小時間における日本語の変 化とその法則 荒牧英治 * 増川佐知子 ** 東京大学 知の構造化センター ** 科学技術振興機構 さきがけ 7/18/2016 Mar. 9, NLP20111

7/18/2016Mar. 9, NLP20112

現代日本語で頻出する 1000 語のうち万 葉集において見られるものは 326 語 [ 宮島 1967] 平安時代現代現代 +Δt 32.6% 使用頻度 時間 7/18/2016Mar. 9, NLP20113

常用語は固定化されほ とんど順位が変化しな い 非常用語ははげしく 順位が入れ替わる 境界は どこか ? 7/18/2016Mar. 9, NLP20114

はじめに Q1 「語彙の頻度の変化速度は?」 Q2 「高頻度語と低頻度語に境界はある か ? 」 まとめ 7/18/2016Mar. 9, NLP20115

材料 Twitter クロールデータ約 30 億 tweet 全データを形態素解析器 (juman) にて解析 1 日毎に過去 30 日の語の使用頻度を集計し た – スライド単位 =1 日,ウィンドウ幅 =30 日 – 本稿では形態素を語とみなす 相対頻度(対象となる形態素頻度/すべて の形態素頻度)で正規化 – 日によってクロール稼働率が異なるため 7/18/2016Mar. 9, NLP20116

2つの指標 N 位保存率 – ある時期で N 位以内にいた語が Δt 経過後にも N 位以内にとどまる割合 順位相関係数(スピアマン) – 基準期間で上位 N 位以内の語の順位(の系 列)が Δ t 時間経過後の順位とどれくらい類似 しているか 7/18/2016Mar. 9, NLP20117

N 位保存率( Y 軸)と Δt ( 8 ヶ月) 論文図表 7/18/2016Mar. 9, NLP20118

N 位保存率( Y 軸)と Δt ( 1.5 年) 最新結果 7/18/2016Mar. 9, NLP20119

順位相関係数と Δt 7/18/2016Mar. 9, NLP201110

Δt 経過後 (Δt=180 日 ) に 成長した語と衰退した語 フォロワー 9134 位 →1408 位 つぶやいて 7408 位 →1612 位 ツイッター 4517 位 →1005 位 マイケル 7317 位 →2514 位 民主党 8535 位 →3234 位 ユニクロ 5171 位 →1972 位 Android 7501 位 →2880 位 プラス 4740 位 →1888 位 Chrome 7799 位 →3458 位 ヒートテッ ク 8740 位 →3988 位 牧場 9509 位 →4429 位 ラブ 2793 位 →1420 位 ケフィア 1959 位 → 圏外 衛星 2434 位 → 圏外 麻生 2490 位 → 圏外 デジタルネイティ ブ 3017 位 → 圏外 塗装 3391 位 → 圏外 ZERO 3470 位 → 圏外 クロノトリ ガー 3878 位 → 圏外 キラッ 3971 位 → 圏外 やよい 4043 位 → 圏外 インデック ス 4618 位 → 圏外 ワザップ 5080 位 → 圏外 小室 5195 位 → 圏外 7/18/2016Mar. 9, NLP201111

時間 T での 相対頻度 基準期間で頻度 a であった語 が, Δt 経過後にどのような頻 度に変化しているかの確率分 布 Δt 経過後に頻度 a となった語が もともと基準期間にどのよう な 頻度であったかの確率分布 どのような頻度変化が起こっているのか ? ある時点で頻度 X だった後が Δt 時間経過後に 頻度 Y になっている頻度( Δt=30 日) 時間 T + Δt での相対頻度 7/18/2016Mar. 9, NLP201112

詳細釣り合い( detailed balance ) ある過程の起こる確率とその逆過程の起こる 確率が等しい状態 – 企業の成長や気体分子の運動などに見られる 言語の頻度変化で詳細釣り合いが成り立つ範 囲 – 相対頻度 2.5e-5 より大きい語(使用頻度上位 4000 語) 語の頻度分布の形は時間の経過とともに変化 しない – 現時点での言語が Zipf 則にしたがっているなら今 後も従い続ける 7/18/2016Mar. 9, NLP201113

はじめに Q1 「語彙の頻度の変化速度は?」 Q2 「高頻度語と低頻度語に境界はある か ? 」 まとめ 7/18/2016Mar. 9, NLP201114

具体的には 新語 使用頻度 時間 常用語 死語 語彙が 安定してい る領域 語彙が 不安定な領域 7/18/2016Mar. 9, NLP201115

語の成長率とその分布 ある語がどれだけ使用頻度を増やしたか 語 w の成長率 = Δ t経過後の語 w の相対使用頻度 基準期間での語 w の相対使用頻度 成長率分布 (例:使用頻度 1 位~ 10 位ま で) 頻度 成長率 /18/2016Mar. 9, NLP201116

成長率の定義 成長率 =2 使用頻度 語彙が 安定してい る領域 語彙が 不安定な領域 時間 成長率 =1 成長率 =0.5 7/18/2016Mar. 9, NLP201117

語の成長率の分布 (Δt=30 日 ) 高頻度から 1000 位毎にプロット 7/18/2016Mar. 9, NLP201118

成長率の分布が同じということ は 使用頻度 時間 語彙として安定する 境界というものはな い どんな頻度であって も入れ替わりが起こ りうる 高頻度ほど大きな頻 度変化を起こしやす い 10 回 →30 回≒ 回 →30000 回 7/18/2016Mar. 9, NLP201119

はじめに Q1 「語彙の頻度の変化速度は?」 Q2 「高頻度語と低頻度語に境界はある か ? 」 関連研究 まとめ 7/18/2016Mar. 9, NLP201120

関連研究との差異 語全体の調査 – あらかじめ注目していた語について,その振る舞 いを調査 [ 宮島 1967, 飛田 1966] – 本研究では,すべての語での調査を行うため, バイアスがかからず,全体的な挙動を知ることが できる. 微小時間の調査 – いくつかの大規模調査(大西調査 [5] や凸版調査 [6] など)では 10 年またはそれ以上の期間が対象 – 本研究は日単位という微小時間での使用頻度の連 続的変化を調査 7/18/2016Mar. 9, NLP201121

はじめに Q1 「語彙の頻度の変化速度は?」 Q2 「高頻度語と低頻度語に境界はある か ? 」 関連研究 まとめ 7/18/2016Mar. 9, NLP201122

現代日本語で頻出する 1000 語の 1 年後で も同順位に入っているものは 80% 平安時代現代現代 +Δt 32.6% 使用頻度 時間 80% 7/18/2016Mar. 9, NLP201123

まとめ 語の使用頻度は平衡状態を保ちながら言 語全体で変化している – 詳細釣り合い状態(時間について対象な状 態) 語の使用頻度の変化は順位に依存しない – 高頻度語も低頻度語も次の瞬間には同様な変 化をしうる 7/18/2016Mar. 9, NLP201124

本研究の限界 一般的な議論を行うためには,さらなる 長期観察が必要である – 語が変化したのではなくユーザが変化した可 能性は ? ツィッター上の発言(文書における話し 言葉)以外の伝達形式においても本研究 での知見が共通するかどうかは不明 7/18/2016Mar. 9, NLP201125

謝辞 京都大学 遠藤智子氏 産業技術総合研究所 黒嶋智美氏 金沢学院大学 石川温先生 クックパッド 兼山元太氏 荒牧英治 7/18/2016Mar. 9, NLP201126