1月19日 辞書 自然言語処理における辞書の役割 機械辞書設計の要点 辞書の種類と用途.

Slides:



Advertisements
Similar presentations
英作文支援システムの 構築に関する研究 平成 15 年 11 月 18 日 ( 火 ) A1 グループ M2 永易 稔 中間発表.
Advertisements

コーパス言語学実践 2006 年度 2 学期 第 2 回. 2 本日の内容 前半の作業について – 語彙調査の演習 – 用語の説明 語彙,単位語,延べ語,異なり語,見出し 語 作成作業 その1 – データ収集開始.
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
実テキスト解析をささえる 語彙知識の自動獲得
東京工科大学 コンピュータサイエンス学部 亀田弘之
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
テキストデータベースからの 構文構造のマイニング
最大エントロピーモデルに基づく形態素解析と辞書による影響
ヘルスケア連動型 市販薬検索システム 研究者 : 加納 えり 指導教員 : 越田 高志.
形態素周辺確率を用いた 分かち書きの一般化とその応用
Twitterの発言に基づくウェブページ推薦システム
ことばとコンピュータ 2007年度1学期 第13回.
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
言語の統計 統計の対象量 単語 NグラムとKWIC HMMと形態素解析への応用.
連想概念辞書の構築 感性語の収集 ニューラルネットによる実装 マルチモーダル対話システム 漢字フォントの合成
東京工科大学 コンピュータサイエンス学部 亀田弘之
動詞と格要素の共起と 名詞の出現パターンを用いた 事態性名詞の項構造解析
OSC京都 2016 おーぷん万葉プロジェクト 京橋 ひよわ
テキストマイニング, データマイニングと 社会活動のトレース
伝統的件名標目の特徴 図書館界における統制語彙表。通常全分野型。 (1)統制語である 同義語の統制 例:絵、書画→絵画 警官→警察官
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
部分形態素解析を用いた コーパスの品詞体系変換
4Y-4 印象に残りやすい日本語パスワードの合成法
重文・複文の基本文型に対する 文型パターン辞書のカバー率
文字から声をつくる仕組み.
12月08日 構文解析 入力文(記号列)が与えられたとき,文法によってその文を解析し,その構造を明らかにする.
新聞の中で「優遇」「委託」「しかし」「問題」のうち頻度が一番高いものはどれか。
東京工科大学 コンピュータサイエンス学部 亀田弘之
形態素解析および係り受け解析・主語を判別
DixChange プロジェクト ~辞書共通化の試み~
TTS技術の概要 1. TTSとは 2. TTS技術の応用 3. TTSシステムの流れ 4. 基本概念 5. F0モデル 6. 韻律記号
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
リアルナレーターズ 2 のご紹介 株式会社 スカイフィッシュ
大規模時系列ウェブコーパスを用いた 新造語の盛衰のダイナミズムの分析
音韻論⑤ ----.
検索エンジンを利用した Covert Channelの検出
言語学 語のかたち① pp
自然言語処理及び実習 第11回 形態素解析.
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
結合価文法による動詞と 名詞の訳語選択能力の評価
広瀬啓吉 研究室 4.音声認識における適応手法の開発 1.劣条件下での複数音源分離 5.音声認識のための韻律的特徴の利用
東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への 簡易ナビゲーションシステム-
只見町 インターネット・エコミュージアムの「キーワード」検索の改善
言語学 語のかたち② p.p
<日本語教育とAI:研究実践例と今後の課題 > 読解支援システムへのAI活用の可能性と留意点
形態素解析ドライバモデルの実装と コーパスの品詞体系変換への応用
日本の表音文字(ひらがな、かたかな)と漢字
Happinessの歴史と 日本語処理のエピソード (株)平和情報センター 沓澤 尚明.
ディジタル信号処理 Digital Signal Processing
テキストマイニング, データマイニングと 社会活動のトレース
東京工科大学 コンピュータサイエンス学部 亀田弘之
超大規模ウェブコーパスを用いた 分布類似度計算
第5章 計算とプログラム 本章で説明すること ・計算の概観と記述法 ・代表的な計算モデル ・プログラムとプログラム言語.
東京工科大学 コンピュータサイエンス学部 亀田弘之
  JSTChina         中国文献データベース.
東京工科大学 コンピュータサイエンス学部 亀田弘之
CSJセミナー参加報告 北村・徳田研究室 中村和寛.
ブースティングとキーワードフィルタリング によるシステム要求検出
データ工学特論 第六回 木村昌臣.
大規模コーパスに基づく同義語・多義語処理
自然言語処理2015 Natural Language Processing 2015
ソフトウェア理解支援を目的とした 辞書の作成法
第7回 Q&A メール講座 Next Stage:翻訳力アップ自己トレ(1)
シソーラス情報を用いた童話文章登場人物の 感情情報読み取りシステム
コンパイラ 2012年10月11日
形態素解析と構文解析 金子邦彦.
自然言語処理2016 Natural Language Processing 2016
mi-8. 自然言語処理 人工知能を演習で学ぶシリーズ(8)
1.2 言語処理の諸観点 (1)言語処理の利用分野
東京工科大学 コンピュータサイエンス学部 亀田弘之
Presentation transcript:

1月19日 辞書 自然言語処理における辞書の役割 機械辞書設計の要点 辞書の種類と用途

アナウンス NTTの人の講演はキャンセルになりました NSWの説明資料「IT系ビジネス 実際の現場から」があります

自然言語処理における辞書の役割 人間用の辞書との違い 語義の定義方法の違い 人間用 語義文が中心 計算機用 結合価,上位概念,下位概念

計算機用辞書(日本) IPAL EDR http://www.ipa.go.jp/STC/NIHONGO/IPAL/ipal.html http://www2.nict.go.jp/kk/e416/EDR/J_index.html

英語の辞書 WordNet http://www.cogsci.princeton.edu/~wn/

EDR電子化辞書の構造 http://www2.nict.go.jp/kk/e416/EDR/J_index.html

機械辞書設計の要点 見出し語登録基準の問題 単語収録の範囲 単語収録の単位 見出し語の表記の問題 活用語の扱い その他の辞書登録語選択の問題 一般語:国語辞典の見出しなど 固有名詞:人名,地名,企業名など 専門用語:分野毎に用意される.複合語も登録が必要 単語収録の単位 短単位,長単位 見出し語の表記の問題 漢字,平仮名,片仮名 活用語の扱い 規則的な活用→不変部分を辞書に登録 その他の辞書登録語選択の問題 同形異義語,数詞,用言性名詞,副詞の派生形

見出し語の表記の問題 長単位語として登録すべき語 タイプ 説明 例 タイプ1 短単位語に分割できない語,部分から全体の意味や読みを合成できない語 「走り書き」,「生年月日」,「株式会社」(連濁) タイプ2 文の解析や生成で重要な役割を果たす付属語的な連語 格助詞相当語(~によって),文法情報を示す連語(はずがない) タイプ3 縮退語及び語基の並列語 「冷暖房(冷房・暖房)」,「松竹梅」など

一般名詞の意味属性体系の例 一般名詞 具体 主体 人 人間 組織 神仏など 役・職 場 自然 地勢 施設 宇宙 地域 具体物 動物 生物 植物 無生物 自然物 抽象 抽象物 文化 制度・習俗 事 人間活動 精神 事象 行為 自然現象 非生命 抽象的 関係 存在 生命 類・系 関連 性質 状態 形状 数量 場所 時間

辞書の種類と用途 言語解析用の辞書 形態素解析用の辞書 構文解析用の辞書 意味解析用の辞書

辞書の種類と用途 応用システムの辞書 機械翻訳用の辞書 日本文校正用の辞書 音声合成用の辞書 キーワード自動抽出用の辞書

日本文校正用の辞書 日本文中の誤りの種類と検出の方法 分類 誤りの例 構成辞書 形態素解析 構文解析 意味解析 当て字,送り仮名,片仮名表記の誤り ボディー→ボデー ◎ ○ 俗語,禁止語,誤用語,常用漢字外表記,常用音訓外表記 宅急便→宅配便 数表現の誤り 一億4,000万→一億四千万 類型語誤り 人問性→人間性 助詞・助動詞誤り 犯罪を犯す→罪を犯す 同音語誤り 処理公立→処理効率 実在しない固有名詞 墨田川→隅田川,隅田区→墨田区 文意の矛盾 定率法と低額法→定額法

日本語文音声変換処理 処理 処理の内容 日本語解析 通常は形態素解析が中心,意味による音声の強弱,発生速度制御を行うときは,構文解析,意味解析も必要となる 音韻処理 漢字仮名変換(漢字の読みを辞書の読みから決める) 同形異義語読み分け(平野→ヘイヤ/ヒラノ) 未知語読み(浩一郎→コーイチロー,IBM→アイビーエム) 数詞読み(一人→ヒトリ,101本→ヒャクイッポン) 韻律処理 連濁処理(大/会社→ダイガイシャ) アクセント句抽出処理(畜産/物//価格/安定/法) アクセント合成(ジョーホー/ケンサク→ジョーホーケンサク) ポーズ付与(象は鼻が長い→ゾーワPハナガ*ナガイ) イントネーション付与(コッキョウノ*ナガイ//トンネルヲ*ヌケルト) /:単語境界,//:アクセント境界(強結合),*:アクセント句境界(弱結合),Pポーズ

日本語文音声変換システムの辞書情報の例 情報の分類 登録される情報 見出し語情報 漢字,平仮名,片仮名,英数字で表記 単語解析情報 単語情報 品詞,意味属性,単語接続属性 係り受け情報 固有名詞などとの係り受け情報 同形異義語情報 同形異義語選択処理順位など 音韻情報 読み情報 単語の読み,モーラ数など 音韻変化情報 数詞,助数詞の音韻変化情報 韻律情報 アクセント情報 標準のアクセントの型 ポーズ属性 ポーズ長設定パラメータ アクセント属性 補助用言情報,アクセント句情報

キーワード自動抽出システムの辞書の例 辞書種類 説明 ストップワード辞書 キーワードになり得ないと見られる一般語などを収録 シソーラス辞書 キーワードとなりやすい語の意味的な関係を木構造で表示 重要語辞書 キーワードとなりやすい語を列挙