微小時間における日本語の変 化とその法則 荒牧英治 * 増川佐知子 ** 東京大学 知の構造化センター ** 科学技術振興機構 さきがけ 7/18/2016 Mar. 9, NLP20111
7/18/2016Mar. 9, NLP20112
現代日本語で頻出する 1000 語のうち万 葉集において見られるものは 326 語 [ 宮島 1967] 平安時代現代現代 +Δt 32.6% 使用頻度 時間 7/18/2016Mar. 9, NLP20113
常用語は固定化されほ とんど順位が変化しな い 非常用語ははげしく 順位が入れ替わる 境界は どこか ? 7/18/2016Mar. 9, NLP20114
はじめに Q1 「語彙の頻度の変化速度は?」 Q2 「高頻度語と低頻度語に境界はある か ? 」 まとめ 7/18/2016Mar. 9, NLP20115
材料 Twitter クロールデータ約 30 億 tweet 全データを形態素解析器 (juman) にて解析 1 日毎に過去 30 日の語の使用頻度を集計し た – スライド単位 =1 日,ウィンドウ幅 =30 日 – 本稿では形態素を語とみなす 相対頻度(対象となる形態素頻度/すべて の形態素頻度)で正規化 – 日によってクロール稼働率が異なるため 7/18/2016Mar. 9, NLP20116
2つの指標 N 位保存率 – ある時期で N 位以内にいた語が Δt 経過後にも N 位以内にとどまる割合 順位相関係数(スピアマン) – 基準期間で上位 N 位以内の語の順位(の系 列)が Δ t 時間経過後の順位とどれくらい類似 しているか 7/18/2016Mar. 9, NLP20117
N 位保存率( Y 軸)と Δt ( 8 ヶ月) 論文図表 7/18/2016Mar. 9, NLP20118
N 位保存率( Y 軸)と Δt ( 1.5 年) 最新結果 7/18/2016Mar. 9, NLP20119
順位相関係数と Δt 7/18/2016Mar. 9, NLP201110
Δt 経過後 (Δt=180 日 ) に 成長した語と衰退した語 フォロワー 9134 位 →1408 位 つぶやいて 7408 位 →1612 位 ツイッター 4517 位 →1005 位 マイケル 7317 位 →2514 位 民主党 8535 位 →3234 位 ユニクロ 5171 位 →1972 位 Android 7501 位 →2880 位 プラス 4740 位 →1888 位 Chrome 7799 位 →3458 位 ヒートテッ ク 8740 位 →3988 位 牧場 9509 位 →4429 位 ラブ 2793 位 →1420 位 ケフィア 1959 位 → 圏外 衛星 2434 位 → 圏外 麻生 2490 位 → 圏外 デジタルネイティ ブ 3017 位 → 圏外 塗装 3391 位 → 圏外 ZERO 3470 位 → 圏外 クロノトリ ガー 3878 位 → 圏外 キラッ 3971 位 → 圏外 やよい 4043 位 → 圏外 インデック ス 4618 位 → 圏外 ワザップ 5080 位 → 圏外 小室 5195 位 → 圏外 7/18/2016Mar. 9, NLP201111
時間 T での 相対頻度 基準期間で頻度 a であった語 が, Δt 経過後にどのような頻 度に変化しているかの確率分 布 Δt 経過後に頻度 a となった語が もともと基準期間にどのよう な 頻度であったかの確率分布 どのような頻度変化が起こっているのか ? ある時点で頻度 X だった後が Δt 時間経過後に 頻度 Y になっている頻度( Δt=30 日) 時間 T + Δt での相対頻度 7/18/2016Mar. 9, NLP201112
詳細釣り合い( detailed balance ) ある過程の起こる確率とその逆過程の起こる 確率が等しい状態 – 企業の成長や気体分子の運動などに見られる 言語の頻度変化で詳細釣り合いが成り立つ範 囲 – 相対頻度 2.5e-5 より大きい語(使用頻度上位 4000 語) 語の頻度分布の形は時間の経過とともに変化 しない – 現時点での言語が Zipf 則にしたがっているなら今 後も従い続ける 7/18/2016Mar. 9, NLP201113
はじめに Q1 「語彙の頻度の変化速度は?」 Q2 「高頻度語と低頻度語に境界はある か ? 」 まとめ 7/18/2016Mar. 9, NLP201114
具体的には 新語 使用頻度 時間 常用語 死語 語彙が 安定してい る領域 語彙が 不安定な領域 7/18/2016Mar. 9, NLP201115
語の成長率とその分布 ある語がどれだけ使用頻度を増やしたか 語 w の成長率 = Δ t経過後の語 w の相対使用頻度 基準期間での語 w の相対使用頻度 成長率分布 (例:使用頻度 1 位~ 10 位ま で) 頻度 成長率 /18/2016Mar. 9, NLP201116
成長率の定義 成長率 =2 使用頻度 語彙が 安定してい る領域 語彙が 不安定な領域 時間 成長率 =1 成長率 =0.5 7/18/2016Mar. 9, NLP201117
語の成長率の分布 (Δt=30 日 ) 高頻度から 1000 位毎にプロット 7/18/2016Mar. 9, NLP201118
成長率の分布が同じということ は 使用頻度 時間 語彙として安定する 境界というものはな い どんな頻度であって も入れ替わりが起こ りうる 高頻度ほど大きな頻 度変化を起こしやす い 10 回 →30 回≒ 回 →30000 回 7/18/2016Mar. 9, NLP201119
はじめに Q1 「語彙の頻度の変化速度は?」 Q2 「高頻度語と低頻度語に境界はある か ? 」 関連研究 まとめ 7/18/2016Mar. 9, NLP201120
関連研究との差異 語全体の調査 – あらかじめ注目していた語について,その振る舞 いを調査 [ 宮島 1967, 飛田 1966] – 本研究では,すべての語での調査を行うため, バイアスがかからず,全体的な挙動を知ることが できる. 微小時間の調査 – いくつかの大規模調査(大西調査 [5] や凸版調査 [6] など)では 10 年またはそれ以上の期間が対象 – 本研究は日単位という微小時間での使用頻度の連 続的変化を調査 7/18/2016Mar. 9, NLP201121
はじめに Q1 「語彙の頻度の変化速度は?」 Q2 「高頻度語と低頻度語に境界はある か ? 」 関連研究 まとめ 7/18/2016Mar. 9, NLP201122
現代日本語で頻出する 1000 語の 1 年後で も同順位に入っているものは 80% 平安時代現代現代 +Δt 32.6% 使用頻度 時間 80% 7/18/2016Mar. 9, NLP201123
まとめ 語の使用頻度は平衡状態を保ちながら言 語全体で変化している – 詳細釣り合い状態(時間について対象な状 態) 語の使用頻度の変化は順位に依存しない – 高頻度語も低頻度語も次の瞬間には同様な変 化をしうる 7/18/2016Mar. 9, NLP201124
本研究の限界 一般的な議論を行うためには,さらなる 長期観察が必要である – 語が変化したのではなくユーザが変化した可 能性は ? ツィッター上の発言(文書における話し 言葉)以外の伝達形式においても本研究 での知見が共通するかどうかは不明 7/18/2016Mar. 9, NLP201125
謝辞 京都大学 遠藤智子氏 産業技術総合研究所 黒嶋智美氏 金沢学院大学 石川温先生 クックパッド 兼山元太氏 荒牧英治 7/18/2016Mar. 9, NLP201126