日本語辞書整備のための日本語カタカナ複合名詞の自動分割

Slides:

Advertisements

Similar presentations

Software Engineering Laboratory, Department of Computer Science, Graduate School of Information Science and Technology, Osaka University 1 ソフトウェア部品推薦のための.

Advertisements

嗜好ベクトルの近似によるサービス享受条件の自動設定立命館大学大学院理工学研究科データ工学研究室 ◎川成宗剛，山原裕之，原田史子，島川博光 2007 年 9 月 6 日.

自動映像生成のためのパーティクルフィルタによるボールの追跡 2007 年 3 月 21 日神戸大学大学院自然科学研究科矢野一樹.

音声翻訳における機械翻訳・音声合成の性能評価および分析 ☆橋本佳，山岸順一， William Byrne ， Simon King ，徳田恵一名工大 University of Edinburgh Cambridge University

大規模コーパスから獲得した名詞の出現パターンを用いた事態名詞の項構造解析

顔表情クラスタリングによる映像コンテンツへのタギング

LZ符号化森田岳史.

最大エントロピーモデルに基づく形態素解析と辞書による影響

リアルタイム単語認識技術を利用したカメラベース情報取得システム

形態素周辺確率を用いた分かち書きの一般化とその応用

Deep learningによる読唇システム

国内線で新千歳空港を利用している航空会社はどこですか？

情報処理基礎 2006年 6月 1日.

知識情報演習Ⅲ（後半第1回）辻慶太（水）

情報学類吉田光男アドバイザー教官：山本幹雄先生

オンライン英単語・リスニング学習ソフト佐々木研究室 N02k1114 北隅　麻実.

情報爆発A01支援班マイサーチエンジン開発環境支援グループ中村聡史, 大島裕明, 田中克己, 喜連川優

実験関数・記号付き文型パターンを用いた機械翻訳の試作と評価石上真理子水田理夫徳久雅人村上仁一池原悟（鳥取大） ◎評価方法１

テキストマイニング，データマイニングと社会活動のトレース

4Y-4 印象に残りやすい日本語パスワードの合成法

リンク構造を考慮したベクトル空間法によるWebグラフ分割手法に関する研究

状況の制約を用いることにより認識誤りを改善同時に野球実況中継の構造化

卒業論文最終発表 WWW情報検索ナビゲーションシステムの設計と実装

PSOLA法を用いた極低ビットレート音声符号化に関する検討

形態素解析および係り受け解析・主語を判別

日本大学文理学部情報システム解析学科谷研究室益田真太郎

大阪教育大学大学院教育学研究科総合基礎科学専攻中窪仁

自動車レビューにおける検索と分析Ｈ２０８０３２　松岡智也Ｈ２０８０６０中西潤Ｈ２０８０８２　松井泰介.

整合性尺度を用いた構造的対訳文アラインメント

日本語解析済みコーパス管理ツール「茶器」

動詞の共起パターンを用いた動作性名詞の述語項構造解析

Javaソフトウェア部品検索システムのための索引付け手法の提案と実装

プログラム実行履歴を用いたトランザクションファンクション抽出手法

大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換

複数の言語情報を用いたCRFによる音声認識誤りの検出

識別子の命名支援を目的とした動詞-目的語関係の辞書構築

利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成

只見町インターネット・エコミュージアムの「キーワード」検索の改善

WWW上の効率的なハブ探索法の提案と実装

大規模データによる未知語処理を統合したスケーラブルな仮名漢字変換

深層学習を用いた音声認識システム工学部　電気電子工学科　白井研究室 T213069　林健吉.

ソースコードの特徴量を用いた機械学習によるメソッド抽出リファクタリング推薦手法

知識情報演習Ⅲ（後半第2回）辻　慶太

類似度を用いた WWW のリンク構造の解析谷　研究室　　　　栗原　伸行.

Webコミュニティ概念を用いた Webマイニングについての研究 A study on Web Mining Based on Web Communities 清水洋志.

テキストマイニング，データマイニングと社会活動のトレース

超大規模ウェブコーパスを用いた分布類似度計算

Number of random matrices

SIFTとGraph Cutsを用いた物体認識及びセグメンテーション

項目間の対応関係を用いた XBRL財務報告書自動変換ツールの試作

オブジェクトの協調動作を用いたオブジェクト指向プログラム実行履歴分割手法

情報コミュニケーション入門ｅ第８回ワープロソフト入門（１）

情報コミュニケーション入門ｅ第８回ワープロソフト入門（１）

ブースティングとキーワードフィルタリングによるシステム要求検出

設計情報の再利用を目的とした UML図の自動推薦ツール

保守請負時を対象とした労力見積のためのメトリクスの提案

A-17 検索履歴のプライバシーを秘匿したユーザクラスタリング

大規模コーパスに基づく同義語・多義語処理

自然言語処理2015 Natural Language Processing 2015

クラスタリングを用いたベイズ学習モデルを動的に更新するソフトウェア障害検知手法

並列構造に着目した係り受け解析の改善に関する研究

ソフトウェア理解支援を目的とした辞書の作成法

Webページタイプによるクラスタリングを用いた検索支援システム

自然言語処理2016 Natural Language Processing 2016

mi-8. 自然言語処理人工知能を演習で学ぶシリーズ（８）

識別子の読解を目的とした名詞辞書の作成方法の一試案

ベイジアンネットワークとクラスタリング手法を用いたWeb障害検知システムの開発

グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識

Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in

Presentation transcript:

日本語辞書整備のための日本語カタカナ複合名詞の自動分割東京大学工学部　中澤　敏明東京大学大学院情報理工学系研究科　河原　大輔東京大学大学院情報理工学系研究科　黒橋　禎夫

現在の文書検索（カタカナ語の場合） ① 検索カタカナ列に完全にマッチこれもソースなんだけどなぁ・・・ソースあとは粉を付けてバターで焼いたムニエルや、白ワインで蒸し直したり、パン粉をまぶしてフライにしたり、　　　　　　　　　や　　　　　　　をかけたグラタンにもなります。ホワイトソーストマトソース１９９９年６月２３日、ノベルは当社の　　　　　を統合してインテリジェントネットワーク管理ソリューションを構築するため、ポリシーベース管理ソフトウェアのリーダーであるＵｋｉａｈ　Ｓｏｆｔｗａｒｅを買収しました。リソースアメリカ料理というのはフランス料理をベースにしながら、　　　　類を軽くして、野菜の付け合わせを多くした物で、カリフォルニアフレンチとかいわれているものだ。ソース ①　検索カタカナ列に完全にマッチ

現在の文書検索（カタカナ語の場合） ② 検索カタカナ列を含むものすべてマッチこれはソースじゃない！ソースあとは粉を付けてバターで焼いたムニエルや、白ワインで蒸し直したり、パン粉をまぶしてフライにしたり、　　　　　　　　　や　　　　　　　をかけたグラタンにもなります。これはソースじゃない！ホワイトソーストマトソース１９９９年６月２３日、ノベルは当社の　　　　　を統合してインテリジェントネットワーク管理ソリューションを構築するため、ポリシーベース管理ソフトウェアのリーダーであるＵｋｉａｈ　Ｓｏｆｔｗａｒｅを買収しました。リソースアメリカ料理というのはフランス料理をベースにしながら、　　　　類を軽くして、野菜の付け合わせを多くした物で、カリフォルニアフレンチとかいわれているものだ。ソース ②　検索カタカナ列を含むものすべてマッチ

現在の文書検索（カタカナ語の場合） ③ 独立語か複合語かが判断できれば・・・ソースあとは粉を付けて　　　　で焼いた　　　や、白　　　　で蒸し直したり、　　粉をまぶして　　　にしたり、　　　　　　　　や　　　　　　　をかけた　　　　　にもなります。バタームニエルワインパンフライホワイトソーストマトソースグラタン１９９９年６月２３日、　　　　は当社の　　　　　を統合して　　　　　管理　　　　　　　を構築するため、　　　　　　　　　管理のであるＵｋｉａｈ　Ｓｏｆｔｗａｒｅを買収しました。ノベルリソースインテリジェントネットワークソリューションポリシーベースソフトウェアリーダー料理というのは料理をにしながら、　　　　類を軽くして、野菜の付け合わせを多くした物で、　　　　　　　　　　　　　　とかいわれているものだ。アメリカフランスベースソースカリフォルニアフレンチ ③　独立語か複合語かが判断できれば・・・

現在の文書検索（カタカナ語の場合）・・・調味料ソース醤油塩ホワイトソーストマトソースソースあとは粉を付けて　　　　で焼いた　　　や、白　　　　で蒸し直したり、　　粉をまぶして　　　にしたり、　　　　　　　　や　　　　　　　をかけた　　　　　にもなります。バタームニエルワインパンフライホワイトソーストマトソースグラタン・・・調味料ソース醤油塩１９９９年６月２３日、　　　　は当社の　　　　　を統合して　　　　　管理　　　　　　　を構築するため、　　　　　　　　　管理のであるＵｋｉａｈ　Ｓｏｆｔｗａｒｅを買収しました。ノベルリソースインテリジェントネットワークソリューションポリシーベースソフトウェアリーダー料理というのは料理をにしながら、　　　　類を軽くして、野菜の付け合わせを多くした物で、　　　　　　　　　　　　　　とかいわれているものだ。アメリカフランスベースソースホワイトソーストマトソースカリフォルニアフレンチ

所与コーパスから自動で独立語か複合語かを現在の文書検索（カタカナ語の場合）これは複合語かなぁ？ソースこれはどうだろう？あとは粉を付けてバターで焼いたムニエルや、白ワインで蒸し直したり、パン粉をまぶしてフライにしたり、　　　　　　　　　や　　　　　　　をかけたグラタンにもなります。ホワイトソーストマトソース１９９９年６月２３日、ノベルは当社の　　　　　を統合してインテリジェントネットワーク管理ソリューションを構築するため、ポリシーベース管理ソフトウェアのリーダーであるＵｋｉａｈ　Ｓｏｆｔｗａｒｅを買収しました。リソース長いな・・・アメリカ料理というのはフランス料理をベースにしながら、　　　　類を軽くして、野菜の付け合わせを多くした物で、カリフォルニアフレンチとかいわれているものだ。ソースカタカナ語はドメイン依存性が高くドメインごとの適切な処理が必要！複合語か独立語かを１つずつ人手で判断するのはコストがかかる！所与コーパスから自動で独立語か複合語かを判断し独立語のみを辞書に登録したい！

目次研究背景カタカナについて提案手法実験結果と考察まとめ基礎データ構築と表記揺れの吸収辞書を用いる方法英語コーパスを用いる方法出現頻度を用いる方法実験結果と考察まとめ

目次研究背景カタカナについて提案手法実験結果と考察まとめ基礎データ構築と表記揺れの吸収辞書を用いる方法英語コーパスを用いる方法出現頻度を用いる方法実験結果と考察まとめ

カタカナ語の生産性の高さカタカナ語は生産性が高く、長い複合語を際限なく生成することができる長い独立語も存在する例エクストラ-バージン-オリーブ-オイル　　ジャパン-カップ-サイクル-ロード-レース長い独立語も存在する例　　リュウグウノオトヒメノモトユイノキリハズシ　　　　（植物名・アマモの一種）

カタカナ語のドメイン依存性カタカナ語はドメイン依存性が高い独立語（＝カタカナ基本語彙）の自動獲得ドメインごとにカタカナ語の出現頻度分布が異なるあるドメインの（ある程度の大きさの）コーパスさえ与えられれば、自動的に複合語を分割新聞メートル 56588 グループ 39262 ドル 55528 テレビ 37733 ロシア 53327 センター 28026 アジア 47796 イラク 27939 キロ 42985 ・・・料理ラーメン 28727 エスニック 14190 スープ 20808 サラダ 13632 レシピ 16436 トップ 11642 カレー 15151 パスタ 11432 メニュー 14766 ・・・独立語（＝カタカナ基本語彙）の自動獲得　　

カタカナ複合語分割の手がかりカタカナ語の多くは他言語（特に英語）の語彙をカタカナを用いて表記したもの → カタカナ語の切れ目の判断材料英語は単語ごとにスペースで区切られる →　カタカナ語の切れ目の判断材料トマトソース　＝　“tomato sauce” カタカナ語の出現頻度も手がかりとなる

目次研究背景カタカナについて提案手法実験結果と考察まとめ基礎データ構築と表記揺れの吸収辞書を用いる方法英語コーパスを用いる方法出現頻度を用いる方法実験結果と考察まとめ

基礎データの構築基礎データ所与コーパス中からカタカナ列を切り出し頻度を計数カタカナ語には表記揺れが多数存在 →　表記揺れを吸収し、頻度を修正＋＋＋＋＋＋＋＝ 3138 3138 3138 3138 3138 3138 3138 3138 3138 基礎データラーメンスープレシピ・・・トマトソーストマトソース 28727 20808 16436 11641 7887 7570 スパゲ・・・ティティ 961 スパゲ・・・ッテイッテイ 18 ッティッティ 954 テテ 3 ッティーッティー 916 ッテーッテー 2 ティーティー 266 テイテイ 18

表記揺れの吸収（１／２）編集距離を利用（増山ら 2004）ペナルティーを用いて編集距離を求め閾値以下ならば表記揺れ編集距離を利用　（増山ら 2004）２つの文字列間の変換に必要なコスト「挿入」「削除」「置換」などの操作表記揺れに注目すると・・・ →　操作対象文字により発生確率に差がある例：「イとィの置換」「ーの削除・挿入」 →　発生確率の差をペナルティーで表現 ↓ ペナルティーを用いて編集距離を求め閾値以下ならば表記揺れ

表記揺れの吸収（２／２）ペナルティーの自動学習表記揺れの学習セット → 人手による作成は高コスト長いカタカナ列同士で１箇所だけ異なる表記揺れの学習セット　→　人手による作成は高コスト長いカタカナ列同士で１箇所だけ異なる →　表記揺れであると仮定して利用　　例　エキストラバージンオリーブオイル　　　　　⇔　エクストラバージンオリーブオイル　　置換：エ：キク：ス表記揺れを起こしやすい文字を自動学習し、ペナルティーを設定 →　このペナルティーを用いて表記揺れを吸収

提案手法の流れ独立語・複合語判定システム英語コーパス辞書辞書登録出現頻度表記揺れ吸収済み基礎データ

提案手法の流れ独立語・複合語判定システム情報の信頼性が高い英語コーパス辞書辞書登録出現頻度表記揺れ吸収済み基礎データ

辞書を用いる方法辞書情報のみを用いて切る和英辞書に１語で登録されているものは独立語と判断し、以後の処理は行わないトマトソース　＝　“tomato sauce” 和英辞書に１語で登録されているものは独立語と判断し、以後の処理は行わない例　サンドウィッチ　＝　“sandwich” 国語辞書に登録されているものも独立語とする例　インゲン和英辞書トマトソース = “tomato sauce” トマト = “tomato” ＝＝ソース = “sauce”, “source” トマトソース

提案手法の流れ英語コーパス辞書辞書登録出現頻度独立語・複合語コーパスには辞書登録がない語が多数！判定システム高い適合率再現率の向上情報の信頼性が高い英語コーパス辞書辞書登録出現頻度表記揺れ吸収済み基礎データ

英語コーパスを用いる方法辞書に登録されているカタカナ語のみを用いて、切り方の候補を全探索切った後の語をそれぞれ英語に直す Webサーチエンジンでフレーズ検索し、最大Hit数が閾値以上なら切る例　パセリソースパセリ：ソースパセ：リソース parsley source parsley sauce pase resource →　５５４件 →　２０,６００件　◎ →　３件 C,N：定数　L：語長閾値

提案手法の流れ英語コーパス辞書辞書登録出現頻度カタカナ英語の例２「ハイビジョン」独立語・複合語判定システムコーパスには辞書登録がない語が多数！和英辞書に依存カタカナ英語に弱い高い適合率再現率の向上英語コーパス辞書辞書登録出現頻度高い再現率カタカナ英語の例２　「ハイビジョン」 × high vision →　１１,１００件 ○ high definition →　５,４５０,０００件カタカナ英語の例１　「ペーパーテスト」 × paper test →　　４５,４００件 ○ witten test →　４１５,０００件表記揺れ吸収済み基礎データ

出現頻度を用いる方法閾値コーパス中に出現するカタカナ語のみを用いて切り方の候補を全探索する Fo：元の出現頻度　Fg：分割後の頻度の相乗平均 Fg’：修正された相乗平均 C,N,α：定数　l：分割後の語長の平均閾値コーパス中に出現するカタカナ語のみを用いて切り方の候補を全探索する元の語の出現頻度と、切った後の語の出現頻度の相乗平均を比較例　ガーリックトースト　　（１５９回出現）ガー：リック：トースト　（３２×９×６５２）＝ガーリック：トースト　（５１５×６５２）＝ガー：リック：トー：スト　（３２×９×５×６０）＝ガーリック：トー：スト　（５１５×５×６０）＝基礎データ 159 ガーリックトースト 32 ガー 9 リック 515 ガーリック 652 トースト 5 トー 60 スト１/３５７５７９１７５４１/２１/４１/３

目次研究背景カタカナについて提案手法実験結果と考察まとめ基礎データ構築と表記揺れの吸収辞書を用いる方法英語コーパスを用いる方法出現頻度を用いる方法実験結果と考察まとめ

実験環境（１／３）利用したコーパス評価方法新聞記事１２年分（５８０万文）８７，０００語料理について書かれたWebページを集めたコーパス（２８０万文）４３，０００語評価方法それぞれのコーパスについて５００語からなる評価セットを用意し、人手で正解分割位置を付与正解分割位置と解析での分割位置とを比較し、適合率・再現率・F値を算出

実験環境（２／３）実験のパターン英語コーパス辞書辞書登録出現頻度各手法の有効性を検証するため４つのパターンで実験和英辞書のみを用いる和英辞書と英語コーパスを用いる和英辞書と出現頻度情報を用いる和英辞書・英語コーパス・出現頻度情報すべて用いる辞書英語コーパス出現頻度辞書登録

実験環境（３／３）各手法での閾値のパラメータ英語コーパスを用いる方法出現頻度を用いる方法 C＝400000,N＝2 L：語長 Fo：元の出現頻度　Fg：分割後の頻度の相乗平均 Fg’：修正された相乗平均 C＝2,500 N＝4 α＝0.7　l：分割後の語長の平均

実験結果（１／２）辞書辞書＋コーパス辞書＋頻度辞書＋頻度＋コーパス適合率 1.0 0.996 0.986 0.985 再現率 0.822 0.909 0.945 0.949 F値 0.902 0.950 0.965 0.966 新聞データ辞書辞書＋コーパス辞書＋頻度辞書＋頻度＋コーパス適合率 1.0 0.990 0.991 再現率 0.717 0.836 0.948 0.956 F値 0.835 0.910 0.968 0.973 料理データ

実験結果（２／２）頻度10以上のカタカナ語について新聞料理語数 13807 4947 複合語数 6054 2565

考察（１／２）適合率の問題・・・辞書で１語と認定できない再現率の問題新語や、あまり日本語では用いられない語シュレッドチーズ　→　シュ + レッド + チーズ固有名詞パスツール　→　パス + ツール再現率の問題複合語か否かの基準の相違プールサイド　＝　poolside データスパースネスラビゴットソース　（ラビゴット単独での出現がない）ラビゴットソース＝１０

考察（２／２）コンテキストに依存する例正解分割位置がコンテキストに依存タコスライス → タコス + ライス or タコ + スライス複合語か否かがコンテキストに依存カラーリング　＝　coloring ⇔ カラー + リング　＝　color ring

まとめカタカナ複合名詞の自動分割今後の課題和英辞書を用いる方法英語コーパスを用いる方法出現頻度を用いる方法高い再現率・高い適合率の実現カタカナ基本語彙辞書の構築　　→　形態素解析での利用今後の課題表記揺れの吸収精度の改善固有表現認識の利用システム全体の更なる精度向上