Presentation is loading. Please wait.

Presentation is loading. Please wait.

日本語辞書整備のための 日本語カタカナ複合名詞の自動分割

Similar presentations


Presentation on theme: "日本語辞書整備のための 日本語カタカナ複合名詞の自動分割"— Presentation transcript:

1 日本語辞書整備のための 日本語カタカナ複合名詞の自動分割
東京大学工学部 中澤 敏明 東京大学大学院情報理工学系研究科 河原 大輔 東京大学大学院情報理工学系研究科 黒橋 禎夫

2 現在の文書検索(カタカナ語の場合) ① 検索カタカナ列に完全にマッチ これもソースなんだけどなぁ・・・ ソース
あとは粉を付けてバターで焼いたムニエルや、白ワインで蒸し直したり、パン粉をまぶしてフライにしたり、         や        をかけたグラタンにもなります。 ホワイト ソース トマト ソース 1999年6月23日、ノベルは当社の     を統合してインテリジェントネットワーク管理ソリューションを構築するため、ポリシーベース管理ソフトウェアのリーダーであるUkiah Softwareを買収しました。 ソース アメリカ料理というのはフランス料理をベースにしながら、    類を軽くして、野菜の付け合わせを多くした物で、カリフォルニアフレンチとかいわれているものだ。 ソース ① 検索カタカナ列に完全にマッチ

3 現在の文書検索(カタカナ語の場合) ② 検索カタカナ列を含むものすべてマッチ これはソースじゃない! ソース
あとは粉を付けてバターで焼いたムニエルや、白ワインで蒸し直したり、パン粉をまぶしてフライにしたり、         や        をかけたグラタンにもなります。 これはソースじゃない! ホワイト ソース トマト ソース 1999年6月23日、ノベルは当社の     を統合してインテリジェントネットワーク管理ソリューションを構築するため、ポリシーベース管理ソフトウェアのリーダーであるUkiah Softwareを買収しました。 ソース アメリカ料理というのはフランス料理をベースにしながら、    類を軽くして、野菜の付け合わせを多くした物で、カリフォルニアフレンチとかいわれているものだ。 ソース ② 検索カタカナ列を含むものすべてマッチ

4 現在の文書検索(カタカナ語の場合) ③ 独立語か複合語かが判断できれば・・・ ソース
あとは粉を付けて    で焼いた    や、白    で蒸し直したり、  粉をまぶして    にしたり、         や        をかけた     にもなります。 バター ムニエル ワイン パン フライ ホワイト ソース トマト ソース グラタン 1999年6月23日、    は当社の     を統合して      管理        を構築するため、          管理 の であるUkiah Softwareを買収しました。 ノベル リソース インテリジェント ネッ トワーク ソリューション ポリシー ベース ソフトウェア リーダー 料理というのは 料理を にしながら、    類を軽くして、野菜の付け合わせを多くした物で、              とかいわれているものだ。 アメリカ フランス ベース ソース カリフォルニア フレンチ ③ 独立語か複合語かが判断できれば・・・

5 現在の文書検索(カタカナ語の場合) ・・・ 調味料 ソース 醤油 塩 ホワイトソース トマトソース ソース
あとは粉を付けて    で焼いた    や、白    で蒸し直したり、  粉をまぶして    にしたり、         や        をかけた     にもなります。 バター ムニエル ワイン パン フライ ホワイト ソース トマト ソース グラタン ・・・ 調味料 ソース 醤油 1999年6月23日、    は当社の     を統合して      管理        を構築するため、          管理 の であるUkiah Softwareを買収しました。 ノベル リソース インテリジェント ネッ トワーク ソリューション ポリシー ベース ソフトウェア リーダー 料理というのは 料理を にしながら、    類を軽くして、野菜の付け合わせを多くした物で、              とかいわれているものだ。 アメリカ フランス ベース ソース ホワイトソース トマトソース カリフォルニア フレンチ

6 所与コーパスから自動で独立語か複合語かを
現在の文書検索(カタカナ語の場合) これは複合語かなぁ? ソース これはどうだろう? あとは粉を付けてバターで焼いたムニエルや、白ワインで蒸し直したり、パン粉をまぶしてフライにしたり、         や        をかけたグラタンにもなります。 ホワイト ソース トマト ソース 1999年6月23日、ノベルは当社の     を統合してインテリジェントネットワーク管理ソリューションを構築するため、ポリシーベース管理ソフトウェアのリーダーであるUkiah Softwareを買収しました。 ソース 長いな・・・ アメリカ料理というのはフランス料理をベースにしながら、    類を軽くして、野菜の付け合わせを多くした物で、カリフォルニアフレンチとかいわれているものだ。 ソース カタカナ語はドメイン依存性が高く ドメインごとの適切な処理が必要! 複合語か独立語かを1つずつ 人手で判断するのはコストがかかる! 所与コーパスから自動で独立語か複合語かを 判断し独立語のみを辞書に登録したい!

7 目次 研究背景 カタカナについて 提案手法 実験結果と考察 まとめ 基礎データ構築と表記揺れの吸収 辞書を用いる方法
英語コーパスを用いる方法 出現頻度を用いる方法 実験結果と考察 まとめ

8 目次 研究背景 カタカナについて 提案手法 実験結果と考察 まとめ 基礎データ構築と表記揺れの吸収 辞書を用いる方法
英語コーパスを用いる方法 出現頻度を用いる方法 実験結果と考察 まとめ

9 カタカナ語の生産性の高さ カタカナ語は生産性が高く、長い複合語を 際限なく生成することができる 長い独立語も存在する
例 エクストラ-バージン-オリーブ-オイル    ジャパン-カップ-サイクル-ロード-レース 長い独立語も存在する 例  リュウグウノオトヒメノモトユイノキリハズシ     (植物名・アマモの一種)

10 カタカナ語のドメイン依存性 カタカナ語はドメイン依存性が高い 独立語(=カタカナ基本語彙)の自動獲得
ドメインごとにカタカナ語の出現頻度分布が異なる あるドメインの(ある程度の大きさの)コーパスさえ 与えられれば、自動的に複合語を分割 新聞 メートル グループ 39262 ドル テレビ 37733 ロシア センター 28026 アジア イラク 27939 キロ ・・・ 料理 ラーメン エスニック 14190 スープ サラダ 13632 レシピ トップ 11642 カレー パスタ 11432 メニュー ・・・ 独立語(=カタカナ基本語彙)の自動獲得  

11 カタカナ複合語分割の手がかり カタカナ語の多くは他言語(特に英語)の語彙をカタカナを用いて表記したもの → カタカナ語の切れ目の判断材料
英語は単語ごとにスペースで区切られる → カタカナ語の切れ目の判断材料 トマトソース = “tomato sauce” カタカナ語の出現頻度も手がかりとなる

12 目次 研究背景 カタカナについて 提案手法 実験結果と考察 まとめ 基礎データ構築と表記揺れの吸収 辞書を用いる方法
英語コーパスを用いる方法 出現頻度を用いる方法 実験結果と考察 まとめ

13 基礎データの構築 基礎データ 所与コーパス中からカタカナ列を切り出し頻度を計数 カタカナ語には表記揺れが多数存在
→ 表記揺れを吸収し、頻度を修正 3138 3138 3138 3138 3138 3138 3138 3138 3138 基礎データ ラーメン スープ レシピ ・・・ トマトソース トマト ソース 28727 20808 16436 11641 7887 7570 スパゲ ・・・ ティ ティ 961 スパゲ ・・・ ッテイ ッテイ 18 ッティ ッティ 954 3 ッティー ッティー 916 ッテー ッテー 2 ティー ティー 266 テイ テイ 18

14 表記揺れの吸収(1/2) 編集距離を利用 (増山ら 2004) ペナルティーを用いて編集距離を求め 閾値以下ならば表記揺れ
編集距離を利用 (増山ら 2004) 2つの文字列間の変換に必要なコスト 「挿入」「削除」「置換」などの操作 表記揺れに注目すると・・・ → 操作対象文字により発生確率に差がある 例:「イとィの置換」「ーの削除・挿入」 → 発生確率の差をペナルティーで表現 ペナルティーを用いて編集距離を求め 閾値以下ならば表記揺れ

15 表記揺れの吸収(2/2) ペナルティーの自動学習 表記揺れの学習セット → 人手による作成は高コスト 長いカタカナ列同士で1箇所だけ異なる
表記揺れの学習セット → 人手による作成は高コスト 長いカタカナ列同士で1箇所だけ異なる → 表記揺れであると仮定して利用   例 エキストラバージンオリーブオイル       ⇔ エクストラバージンオリーブオイル   置換:エ:キク:ス 表記揺れを起こしやすい文字を自動学習し、 ペナルティーを設定 → このペナルティーを用いて表記揺れを吸収

16 提案手法の流れ 独立語・複合語 判定システム 英語コーパス 辞書 辞書登録 出現頻度 表記揺れ 吸収済み 基礎データ

17 提案手法の流れ 独立語・複合語 判定システム 情報の信頼性が高い 英語コーパス 辞書 辞書登録 出現頻度 表記揺れ 吸収済み 基礎データ

18 辞書を用いる方法 辞書情報のみを用いて切る 和英辞書に1語で登録されているものは 独立語と判断し、以後の処理は行わない
トマトソース = “tomato sauce” 和英辞書に1語で登録されているものは 独立語と判断し、以後の処理は行わない 例 サンドウィッチ = “sandwich” 国語辞書に登録されているものも独立語とする 例 インゲン 和英辞書 トマトソース = “tomato sauce” トマト = “tomato” ソース = “sauce”, “source” トマト ソース

19 提案手法の流れ 英語コーパス 辞書 辞書登録 出現頻度 独立語・複合語 コーパスには辞書登録がない語が多数! 判定システム 高い適合率
再現率の向上 情報の信頼性が高い 英語コーパス 辞書 辞書登録 出現頻度 表記揺れ 吸収済み 基礎データ

20 英語コーパスを用いる方法 辞書に登録されているカタカナ語のみを用いて、切り方の候補を全探索 切った後の語をそれぞれ英語に直す
Webサーチエンジンでフレーズ検索し、最大Hit数が閾値以上なら切る 例 パセリソース パセリ:ソース パセ:リソース parsley source parsley sauce pase resource → 554件 → 20,600件 ◎ → 3件 C,N:定数 L:語長 閾値

21 提案手法の流れ 英語コーパス 辞書 辞書登録 出現頻度 カタカナ英語の例2 「 ハイビジョン」
独立語・複合語 判定システム コーパスには辞書登録がない語が多数! 和英辞書に依存 カタカナ英語に弱い 高い適合率 再現率の向上 英語コーパス 辞書 辞書登録 出現頻度 高い再現率 カタカナ英語の例2  「 ハイビジョン」 × high vision →  11,100件 ○ high definition → 5,450,000件 カタカナ英語の例1  「ペーパーテスト」 × paper test →  45,400件 ○ witten test → 415,000件 表記揺れ 吸収済み 基礎データ

22 出現頻度を用いる方法 閾値 コーパス中に出現するカタカナ語のみを用いて 切り方の候補を全探索する
Fo:元の出現頻度 Fg:分割後の頻度の相乗平均 Fg’:修正された相乗平均 C,N,α:定数 l:分割後の語長の平均 閾値 コーパス中に出現するカタカナ語のみを用いて 切り方の候補を全探索する 元の語の出現頻度と、切った後の語の出現頻度の相乗平均を比較 例 ガーリックトースト   (159回出現) ガー:リック:トースト  (32×9×652)= ガーリック:トースト  (515×652)= ガー:リック:トー:スト  (32×9×5×60)= ガーリック:トー:スト  (515×5×60)= 基礎データ 159 ガーリックトースト 32 ガー 9 リック 515 ガーリック 652 トースト 5 トー 60 スト 1/3 57 579 17 54 1/2 1/4 1/3

23 目次 研究背景 カタカナについて 提案手法 実験結果と考察 まとめ 基礎データ構築と表記揺れの吸収 辞書を用いる方法
英語コーパスを用いる方法 出現頻度を用いる方法 実験結果と考察 まとめ

24 実験環境(1/3) 利用したコーパス 評価方法 新聞記事12年分(580万文) 87,000語 料理について書かれたWebページを集めた
コーパス(280万文) 43,000語 評価方法 それぞれのコーパスについて500語からなる 評価セットを用意し、人手で正解分割位置を付与 正解分割位置と解析での分割位置とを比較し、 適合率・再現率・F値を算出

25 実験環境(2/3) 実験のパターン 英語コーパス 辞書 辞書登録 出現頻度 各手法の有効性を検証するため4つのパターンで実験
和英辞書のみを用いる 和英辞書と英語コーパスを用いる 和英辞書と出現頻度情報を用いる 和英辞書・英語コーパス・出現頻度情報すべて用いる 辞書 英語コーパス 出現頻度 辞書登録

26 実験環境(3/3) 各手法での閾値のパラメータ 英語コーパスを用いる方法 出現頻度を用いる方法 C=400000,N=2 L:語長
Fo:元の出現頻度 Fg:分割後の頻度の相乗平均 Fg’:修正された相乗平均 C=2,500 N=4 α=0.7 l:分割後の語長の平均

27 実験結果(1/2) 辞書 辞書+ コーパス 辞書+頻度 辞書+頻度+コーパス 適合率 1.0 0.996 0.986 0.985 再現率 0.822 0.909 0.945 0.949 F値 0.902 0.950 0.965 0.966 新聞データ 辞書 辞書+ コーパス 辞書+頻度 辞書+頻度+コーパス 適合率 1.0 0.990 0.991 再現率 0.717 0.836 0.948 0.956 F値 0.835 0.910 0.968 0.973 料理データ

28 実験結果(2/2) 頻度10以上のカタカナ語について 新聞 料理 語数 13807 4947 複合語数 6054 2565

29 考察(1/2) 適合率の問題・・・辞書で1語と認定できない 再現率の問題 新語や、あまり日本語では用いられない語
シュレッドチーズ → シュ + レッド + チーズ 固有名詞 パスツール → パス + ツール 再現率の問題 複合語か否かの基準の相違 プールサイド = poolside データスパースネス ラビゴットソース (ラビゴット単独での出現がない) ラビゴットソース=10

30 考察(2/2) コンテキストに依存する例 正解分割位置がコンテキストに依存 タコスライス → タコス + ライス or タコ + スライス
複合語か否かがコンテキストに依存 カラーリング = coloring ⇔ カラー + リング = color ring

31 まとめ カタカナ複合名詞の自動分割 今後の課題 和英辞書を用いる方法 英語コーパスを用いる方法 出現頻度を用いる方法
高い再現率・高い適合率の実現 カタカナ基本語彙辞書の構築   → 形態素解析での利用 今後の課題 表記揺れの吸収精度の改善 固有表現認識の利用 システム全体の更なる精度向上


Download ppt "日本語辞書整備のための 日本語カタカナ複合名詞の自動分割"

Similar presentations


Ads by Google