日本語辞書整備のための 日本語カタカナ複合名詞の自動分割

Slides:



Advertisements
Similar presentations
Software Engineering Laboratory, Department of Computer Science, Graduate School of Information Science and Technology, Osaka University 1 ソフトウェア部品推薦のための.
Advertisements

嗜好ベクトルの近似による サービス享受条件の自動設定 立命館大学大学院 理工学研究科 データ工学研究室 ◎川成宗剛,山原裕之, 原田史子, 島川博光 2007 年 9 月 6 日.
自動映像生成のための パーティクルフィルタによるボールの追 跡 2007 年 3 月 21 日 神戸大学大学院自然科学研究科 矢野 一樹.
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
顔表情クラスタリングによる 映像コンテンツへのタギング
LZ符号化 森田 岳史.
最大エントロピーモデルに基づく形態素解析と辞書による影響
リアルタイム単語認識技術を利用した カメラベース情報取得システム
形態素周辺確率を用いた 分かち書きの一般化とその応用
Deep learningによる 読唇システム
国内線で新千歳空港を利用している航空会社はどこですか?
情報処理基礎 2006年 6月 1日.
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
情報学類 吉田光男 アドバイザー教官: 山本幹雄 先生
オンライン英単語・リスニング 学習ソフト 佐々木研究室 N02k1114 北隅 麻実.
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
実験 関数・記号付き文型パターンを用いた機械翻訳の試作と評価 石上真理子 水田理夫 徳久雅人 村上仁一 池原悟 (鳥取大) ◎評価方法1
テキストマイニング, データマイニングと 社会活動のトレース
4Y-4 印象に残りやすい日本語パスワードの合成法
リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
卒業論文 最終発表 WWW情報検索 ナビゲーションシステムの設計と実装
PSOLA法を用いた極低ビットレート音声符号化に関する検討
形態素解析および係り受け解析・主語を判別
日本大学 文理学部 情報システム解析学科 谷研究室 益田真太郎
大阪教育大学大学院教育学研究科 総合基礎科学専攻 中窪 仁
自動車レビューにおける検索と分析 H208032 松岡 智也 H208060 中西 潤 H208082 松井泰介.
整合性尺度を用いた 構造的対訳文アラインメント
日本語解析済みコーパス管理ツール 「茶器」
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
Javaソフトウェア部品検索システムのための索引付け手法の提案と実装
プログラム実行履歴を用いたトランザクションファンクション抽出手法
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
複数の言語情報を用いたCRFによる音声認識誤りの検出
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成
只見町 インターネット・エコミュージアムの「キーワード」検索の改善
WWW上の効率的な ハブ探索法の提案と実装
大規模データによる未知語処理を統合したスケーラブルな仮名漢字変換
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
ソースコードの特徴量を用いた機械学習による メソッド抽出リファクタリング推薦手法
知識情報演習Ⅲ(後半第2回) 辻 慶太
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水 洋志.
テキストマイニング, データマイニングと 社会活動のトレース
超大規模ウェブコーパスを用いた 分布類似度計算
Number of random matrices
SIFTとGraph Cutsを用いた 物体認識及びセグメンテーション
項目間の対応関係を用いた XBRL財務報告書自動変換ツールの試作
オブジェクトの協調動作を用いた オブジェクト指向プログラム実行履歴分割手法
情報コミュニケーション入門e 第8回 ワープロソフト入門(1)
情報コミュニケーション入門e 第8回 ワープロソフト入門(1)
ブースティングとキーワードフィルタリング によるシステム要求検出
設計情報の再利用を目的とした UML図の自動推薦ツール
保守請負時を対象とした 労力見積のためのメトリクスの提案
A-17 検索履歴のプライバシーを秘匿した ユーザクラスタリング
大規模コーパスに基づく同義語・多義語処理
自然言語処理2015 Natural Language Processing 2015
クラスタリングを用いた ベイズ学習モデルを動的に更新する ソフトウェア障害検知手法
並列構造に着目した係り受け解析の改善に関する研究
ソフトウェア理解支援を目的とした 辞書の作成法
Webページタイプによるクラスタ リングを用いた検索支援システム
自然言語処理2016 Natural Language Processing 2016
mi-8. 自然言語処理 人工知能を演習で学ぶシリーズ(8)
識別子の読解を目的とした名詞辞書の作成方法の一試案
ベイジアンネットワークと クラスタリング手法を用いたWeb障害検知システムの開発
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
Presentation transcript:

日本語辞書整備のための 日本語カタカナ複合名詞の自動分割 東京大学工学部 中澤 敏明 東京大学大学院情報理工学系研究科 河原 大輔 東京大学大学院情報理工学系研究科 黒橋 禎夫

現在の文書検索(カタカナ語の場合) ① 検索カタカナ列に完全にマッチ これもソースなんだけどなぁ・・・ ソース あとは粉を付けてバターで焼いたムニエルや、白ワインで蒸し直したり、パン粉をまぶしてフライにしたり、         や        をかけたグラタンにもなります。 ホワイト ソース トマト ソース 1999年6月23日、ノベルは当社の     を統合してインテリジェントネットワーク管理ソリューションを構築するため、ポリシーベース管理ソフトウェアのリーダーであるUkiah Softwareを買収しました。 リ ソース アメリカ料理というのはフランス料理をベースにしながら、    類を軽くして、野菜の付け合わせを多くした物で、カリフォルニアフレンチとかいわれているものだ。 ソース ① 検索カタカナ列に完全にマッチ

現在の文書検索(カタカナ語の場合) ② 検索カタカナ列を含むものすべてマッチ これはソースじゃない! ソース あとは粉を付けてバターで焼いたムニエルや、白ワインで蒸し直したり、パン粉をまぶしてフライにしたり、         や        をかけたグラタンにもなります。 これはソースじゃない! ホワイト ソース トマト ソース 1999年6月23日、ノベルは当社の     を統合してインテリジェントネットワーク管理ソリューションを構築するため、ポリシーベース管理ソフトウェアのリーダーであるUkiah Softwareを買収しました。 リ ソース アメリカ料理というのはフランス料理をベースにしながら、    類を軽くして、野菜の付け合わせを多くした物で、カリフォルニアフレンチとかいわれているものだ。 ソース ② 検索カタカナ列を含むものすべてマッチ

現在の文書検索(カタカナ語の場合) ③ 独立語か複合語かが判断できれば・・・ ソース あとは粉を付けて    で焼いた    や、白    で蒸し直したり、  粉をまぶして    にしたり、         や        をかけた     にもなります。 バター ムニエル ワイン パン フライ ホワイト ソース トマト ソース グラタン 1999年6月23日、    は当社の     を統合して      管理        を構築するため、          管理 の であるUkiah Softwareを買収しました。 ノベル リソース インテリジェント ネッ トワーク ソリューション ポリシー ベース ソフトウェア リーダー 料理というのは 料理を にしながら、    類を軽くして、野菜の付け合わせを多くした物で、              とかいわれているものだ。 アメリカ フランス ベース ソース カリフォルニア フレンチ ③ 独立語か複合語かが判断できれば・・・

現在の文書検索(カタカナ語の場合) ・・・ 調味料 ソース 醤油 塩 ホワイトソース トマトソース ソース あとは粉を付けて    で焼いた    や、白    で蒸し直したり、  粉をまぶして    にしたり、         や        をかけた     にもなります。 バター ムニエル ワイン パン フライ ホワイト ソース トマト ソース グラタン ・・・ 調味料 ソース 醤油 塩 1999年6月23日、    は当社の     を統合して      管理        を構築するため、          管理 の であるUkiah Softwareを買収しました。 ノベル リソース インテリジェント ネッ トワーク ソリューション ポリシー ベース ソフトウェア リーダー 料理というのは 料理を にしながら、    類を軽くして、野菜の付け合わせを多くした物で、              とかいわれているものだ。 アメリカ フランス ベース ソース ホワイトソース トマトソース カリフォルニア フレンチ

所与コーパスから自動で独立語か複合語かを 現在の文書検索(カタカナ語の場合) これは複合語かなぁ? ソース これはどうだろう? あとは粉を付けてバターで焼いたムニエルや、白ワインで蒸し直したり、パン粉をまぶしてフライにしたり、         や        をかけたグラタンにもなります。 ホワイト ソース トマト ソース 1999年6月23日、ノベルは当社の     を統合してインテリジェントネットワーク管理ソリューションを構築するため、ポリシーベース管理ソフトウェアのリーダーであるUkiah Softwareを買収しました。 リ ソース 長いな・・・ アメリカ料理というのはフランス料理をベースにしながら、    類を軽くして、野菜の付け合わせを多くした物で、カリフォルニアフレンチとかいわれているものだ。 ソース カタカナ語はドメイン依存性が高く ドメインごとの適切な処理が必要! 複合語か独立語かを1つずつ 人手で判断するのはコストがかかる! 所与コーパスから自動で独立語か複合語かを 判断し独立語のみを辞書に登録したい!

目次 研究背景 カタカナについて 提案手法 実験結果と考察 まとめ 基礎データ構築と表記揺れの吸収 辞書を用いる方法 英語コーパスを用いる方法 出現頻度を用いる方法 実験結果と考察 まとめ

目次 研究背景 カタカナについて 提案手法 実験結果と考察 まとめ 基礎データ構築と表記揺れの吸収 辞書を用いる方法 英語コーパスを用いる方法 出現頻度を用いる方法 実験結果と考察 まとめ

カタカナ語の生産性の高さ カタカナ語は生産性が高く、長い複合語を 際限なく生成することができる 長い独立語も存在する 例 エクストラ-バージン-オリーブ-オイル    ジャパン-カップ-サイクル-ロード-レース 長い独立語も存在する 例  リュウグウノオトヒメノモトユイノキリハズシ     (植物名・アマモの一種)

カタカナ語のドメイン依存性 カタカナ語はドメイン依存性が高い 独立語(=カタカナ基本語彙)の自動獲得 ドメインごとにカタカナ語の出現頻度分布が異なる あるドメインの(ある程度の大きさの)コーパスさえ 与えられれば、自動的に複合語を分割 新聞 メートル 56588 グループ 39262 ドル 55528 テレビ 37733 ロシア 53327 センター 28026 アジア 47796 イラク 27939 キロ 42985 ・・・ 料理 ラーメン 28727 エスニック 14190 スープ 20808 サラダ 13632 レシピ 16436 トップ 11642 カレー 15151 パスタ 11432 メニュー 14766 ・・・ 独立語(=カタカナ基本語彙)の自動獲得  

カタカナ複合語分割の手がかり カタカナ語の多くは他言語(特に英語)の語彙をカタカナを用いて表記したもの → カタカナ語の切れ目の判断材料 英語は単語ごとにスペースで区切られる → カタカナ語の切れ目の判断材料 トマトソース = “tomato sauce” カタカナ語の出現頻度も手がかりとなる

目次 研究背景 カタカナについて 提案手法 実験結果と考察 まとめ 基礎データ構築と表記揺れの吸収 辞書を用いる方法 英語コーパスを用いる方法 出現頻度を用いる方法 実験結果と考察 まとめ

基礎データの構築 基礎データ 所与コーパス中からカタカナ列を切り出し頻度を計数 カタカナ語には表記揺れが多数存在 → 表記揺れを吸収し、頻度を修正 + + + + + + + = 3138 3138 3138 3138 3138 3138 3138 3138 3138 基礎データ ラーメン スープ レシピ ・・・ トマトソース トマト ソース 28727 20808 16436 11641 7887 7570 スパゲ ・・・ ティ ティ 961 スパゲ ・・・ ッテイ ッテイ 18 ッティ ッティ 954 テ テ 3 ッティー ッティー 916 ッテー ッテー 2 ティー ティー 266 テイ テイ 18

表記揺れの吸収(1/2) 編集距離を利用 (増山ら 2004) ペナルティーを用いて編集距離を求め 閾値以下ならば表記揺れ 編集距離を利用 (増山ら 2004) 2つの文字列間の変換に必要なコスト 「挿入」「削除」「置換」などの操作 表記揺れに注目すると・・・ → 操作対象文字により発生確率に差がある 例:「イとィの置換」「ーの削除・挿入」 → 発生確率の差をペナルティーで表現 ↓ ペナルティーを用いて編集距離を求め 閾値以下ならば表記揺れ

表記揺れの吸収(2/2) ペナルティーの自動学習 表記揺れの学習セット → 人手による作成は高コスト 長いカタカナ列同士で1箇所だけ異なる 表記揺れの学習セット → 人手による作成は高コスト 長いカタカナ列同士で1箇所だけ異なる → 表記揺れであると仮定して利用   例 エキストラバージンオリーブオイル       ⇔ エクストラバージンオリーブオイル   置換:エ:キク:ス 表記揺れを起こしやすい文字を自動学習し、 ペナルティーを設定 → このペナルティーを用いて表記揺れを吸収

提案手法の流れ 独立語・複合語 判定システム 英語コーパス 辞書 辞書登録 出現頻度 表記揺れ 吸収済み 基礎データ

提案手法の流れ 独立語・複合語 判定システム 情報の信頼性が高い 英語コーパス 辞書 辞書登録 出現頻度 表記揺れ 吸収済み 基礎データ

辞書を用いる方法 辞書情報のみを用いて切る 和英辞書に1語で登録されているものは 独立語と判断し、以後の処理は行わない トマトソース = “tomato sauce” 和英辞書に1語で登録されているものは 独立語と判断し、以後の処理は行わない 例 サンドウィッチ = “sandwich” 国語辞書に登録されているものも独立語とする 例 インゲン 和英辞書 トマトソース = “tomato sauce” トマト = “tomato” = = ソース = “sauce”, “source” トマト ソース

提案手法の流れ 英語コーパス 辞書 辞書登録 出現頻度 独立語・複合語 コーパスには辞書登録がない語が多数! 判定システム 高い適合率 再現率の向上 情報の信頼性が高い 英語コーパス 辞書 辞書登録 出現頻度 表記揺れ 吸収済み 基礎データ

英語コーパスを用いる方法 辞書に登録されているカタカナ語のみを用いて、切り方の候補を全探索 切った後の語をそれぞれ英語に直す Webサーチエンジンでフレーズ検索し、最大Hit数が閾値以上なら切る 例 パセリソース パセリ:ソース パセ:リソース parsley source parsley sauce pase resource → 554件 → 20,600件 ◎ → 3件 C,N:定数 L:語長 閾値

提案手法の流れ 英語コーパス 辞書 辞書登録 出現頻度 カタカナ英語の例2 「 ハイビジョン」 独立語・複合語 判定システム コーパスには辞書登録がない語が多数! 和英辞書に依存 カタカナ英語に弱い 高い適合率 再現率の向上 英語コーパス 辞書 辞書登録 出現頻度 高い再現率 カタカナ英語の例2  「 ハイビジョン」 × high vision →  11,100件 ○ high definition → 5,450,000件 カタカナ英語の例1  「ペーパーテスト」 × paper test →  45,400件 ○ witten test → 415,000件 表記揺れ 吸収済み 基礎データ

出現頻度を用いる方法 閾値 コーパス中に出現するカタカナ語のみを用いて 切り方の候補を全探索する Fo:元の出現頻度 Fg:分割後の頻度の相乗平均 Fg’:修正された相乗平均 C,N,α:定数 l:分割後の語長の平均 閾値 コーパス中に出現するカタカナ語のみを用いて 切り方の候補を全探索する 元の語の出現頻度と、切った後の語の出現頻度の相乗平均を比較 例 ガーリックトースト   (159回出現) ガー:リック:トースト  (32×9×652)= ガーリック:トースト  (515×652)= ガー:リック:トー:スト  (32×9×5×60)= ガーリック:トー:スト  (515×5×60)= 基礎データ 159 ガーリックトースト 32 ガー 9 リック 515 ガーリック 652 トースト 5 トー 60 スト 1/3 57 579 17 54 1/2 1/4 1/3

目次 研究背景 カタカナについて 提案手法 実験結果と考察 まとめ 基礎データ構築と表記揺れの吸収 辞書を用いる方法 英語コーパスを用いる方法 出現頻度を用いる方法 実験結果と考察 まとめ

実験環境(1/3) 利用したコーパス 評価方法 新聞記事12年分(580万文) 87,000語 料理について書かれたWebページを集めた コーパス(280万文) 43,000語 評価方法 それぞれのコーパスについて500語からなる 評価セットを用意し、人手で正解分割位置を付与 正解分割位置と解析での分割位置とを比較し、 適合率・再現率・F値を算出

実験環境(2/3) 実験のパターン 英語コーパス 辞書 辞書登録 出現頻度 各手法の有効性を検証するため4つのパターンで実験 和英辞書のみを用いる 和英辞書と英語コーパスを用いる 和英辞書と出現頻度情報を用いる 和英辞書・英語コーパス・出現頻度情報すべて用いる 辞書 英語コーパス 出現頻度 辞書登録

実験環境(3/3) 各手法での閾値のパラメータ 英語コーパスを用いる方法 出現頻度を用いる方法 C=400000,N=2 L:語長 Fo:元の出現頻度 Fg:分割後の頻度の相乗平均 Fg’:修正された相乗平均 C=2,500 N=4 α=0.7 l:分割後の語長の平均

実験結果(1/2) 辞書 辞書+ コーパス 辞書+頻度 辞書+頻度+コーパス 適合率 1.0 0.996 0.986 0.985 再現率 0.822 0.909 0.945 0.949 F値 0.902 0.950 0.965 0.966 新聞データ 辞書 辞書+ コーパス 辞書+頻度 辞書+頻度+コーパス 適合率 1.0 0.990 0.991 再現率 0.717 0.836 0.948 0.956 F値 0.835 0.910 0.968 0.973 料理データ

実験結果(2/2) 頻度10以上のカタカナ語について 新聞 料理 語数 13807 4947 複合語数 6054 2565

考察(1/2) 適合率の問題・・・辞書で1語と認定できない 再現率の問題 新語や、あまり日本語では用いられない語 シュレッドチーズ → シュ + レッド + チーズ 固有名詞 パスツール → パス + ツール 再現率の問題 複合語か否かの基準の相違 プールサイド = poolside データスパースネス ラビゴットソース (ラビゴット単独での出現がない) ラビゴットソース=10

考察(2/2) コンテキストに依存する例 正解分割位置がコンテキストに依存 タコスライス → タコス + ライス or タコ + スライス 複合語か否かがコンテキストに依存 カラーリング = coloring ⇔ カラー + リング = color ring

まとめ カタカナ複合名詞の自動分割 今後の課題 和英辞書を用いる方法 英語コーパスを用いる方法 出現頻度を用いる方法 高い再現率・高い適合率の実現 カタカナ基本語彙辞書の構築   → 形態素解析での利用 今後の課題 表記揺れの吸収精度の改善 固有表現認識の利用 システム全体の更なる精度向上