Presentation is loading. Please wait.

Presentation is loading. Please wait.

1月19日 辞書 自然言語処理における辞書の役割 機械辞書設計の要点 辞書の種類と用途.

Similar presentations


Presentation on theme: "1月19日 辞書 自然言語処理における辞書の役割 機械辞書設計の要点 辞書の種類と用途."— Presentation transcript:

1 1月19日 辞書 自然言語処理における辞書の役割 機械辞書設計の要点 辞書の種類と用途

2 アナウンス NTTの人の講演はキャンセルになりました NSWの説明資料「IT系ビジネス 実際の現場から」があります

3 自然言語処理における辞書の役割 人間用の辞書との違い 語義の定義方法の違い 人間用 語義文が中心 計算機用 結合価,上位概念,下位概念

4 計算機用辞書(日本) IPAL EDR http://www.ipa.go.jp/STC/NIHONGO/IPAL/ipal.html

5 英語の辞書 WordNet

6 EDR電子化辞書の構造

7 機械辞書設計の要点 見出し語登録基準の問題 単語収録の範囲 単語収録の単位 見出し語の表記の問題 活用語の扱い その他の辞書登録語選択の問題
一般語:国語辞典の見出しなど 固有名詞:人名,地名,企業名など 専門用語:分野毎に用意される.複合語も登録が必要 単語収録の単位 短単位,長単位 見出し語の表記の問題 漢字,平仮名,片仮名 活用語の扱い 規則的な活用→不変部分を辞書に登録 その他の辞書登録語選択の問題 同形異義語,数詞,用言性名詞,副詞の派生形

8 見出し語の表記の問題 長単位語として登録すべき語
タイプ 説明 タイプ1 短単位語に分割できない語,部分から全体の意味や読みを合成できない語 「走り書き」,「生年月日」,「株式会社」(連濁) タイプ2 文の解析や生成で重要な役割を果たす付属語的な連語 格助詞相当語(~によって),文法情報を示す連語(はずがない) タイプ3 縮退語及び語基の並列語 「冷暖房(冷房・暖房)」,「松竹梅」など

9 一般名詞の意味属性体系の例 一般名詞 具体 主体 人 人間 組織 神仏など 役・職 場 自然 地勢 施設 宇宙 地域 具体物 動物 生物
植物 無生物 自然物 抽象 抽象物 文化 制度・習俗 人間活動 精神 事象 行為 自然現象 非生命 抽象的 関係 存在 生命 類・系 関連 性質 状態 形状 数量 場所 時間

10 辞書の種類と用途 言語解析用の辞書 形態素解析用の辞書 構文解析用の辞書 意味解析用の辞書

11 辞書の種類と用途 応用システムの辞書 機械翻訳用の辞書 日本文校正用の辞書 音声合成用の辞書 キーワード自動抽出用の辞書

12 日本文校正用の辞書 日本文中の誤りの種類と検出の方法
分類 誤りの例 構成辞書 形態素解析 構文解析 意味解析 当て字,送り仮名,片仮名表記の誤り ボディー→ボデー 俗語,禁止語,誤用語,常用漢字外表記,常用音訓外表記 宅急便→宅配便 数表現の誤り 一億4,000万→一億四千万 類型語誤り 人問性→人間性 助詞・助動詞誤り 犯罪を犯す→罪を犯す 同音語誤り 処理公立→処理効率 実在しない固有名詞 墨田川→隅田川,隅田区→墨田区 文意の矛盾 定率法と低額法→定額法

13 日本語文音声変換処理 処理 処理の内容 日本語解析
通常は形態素解析が中心,意味による音声の強弱,発生速度制御を行うときは,構文解析,意味解析も必要となる 音韻処理 漢字仮名変換(漢字の読みを辞書の読みから決める) 同形異義語読み分け(平野→ヘイヤ/ヒラノ) 未知語読み(浩一郎→コーイチロー,IBM→アイビーエム) 数詞読み(一人→ヒトリ,101本→ヒャクイッポン) 韻律処理 連濁処理(大/会社→ダイガイシャ) アクセント句抽出処理(畜産/物//価格/安定/法) アクセント合成(ジョーホー/ケンサク→ジョーホーケンサク) ポーズ付与(象は鼻が長い→ゾーワPハナガ*ナガイ) イントネーション付与(コッキョウノ*ナガイ//トンネルヲ*ヌケルト) /:単語境界,//:アクセント境界(強結合),*:アクセント句境界(弱結合),Pポーズ

14 日本語文音声変換システムの辞書情報の例 情報の分類 登録される情報 見出し語情報 漢字,平仮名,片仮名,英数字で表記 単語解析情報 単語情報
品詞,意味属性,単語接続属性 係り受け情報 固有名詞などとの係り受け情報 同形異義語情報 同形異義語選択処理順位など 音韻情報 読み情報 単語の読み,モーラ数など 音韻変化情報 数詞,助数詞の音韻変化情報 韻律情報 アクセント情報 標準のアクセントの型 ポーズ属性 ポーズ長設定パラメータ アクセント属性 補助用言情報,アクセント句情報

15 キーワード自動抽出システムの辞書の例 辞書種類 説明 ストップワード辞書 キーワードになり得ないと見られる一般語などを収録 シソーラス辞書
キーワードとなりやすい語の意味的な関係を木構造で表示 重要語辞書 キーワードとなりやすい語を列挙


Download ppt "1月19日 辞書 自然言語処理における辞書の役割 機械辞書設計の要点 辞書の種類と用途."

Similar presentations


Ads by Google