平成20年1月16日 東京工科大学 コンピュータサイエンス学部 亀田 弘之 自然言語処理2007(補講) 平成20年1月16日 東京工科大学 コンピュータサイエンス学部 亀田 弘之
各種ツールの紹介
形態素解析ツール Juman Chasen
構文解析ツール knp
その他のツール Chaki Himawari + Edamame
デモ Juman コスト最小法
Jumanの辞書・文法 形態素辞書: 文法辞書: ConnectW.dic など 自立語:3万語,付属語:1500語,固有名詞:3万語 JUMAN.grammar(品詞分類) JUMAN.katuyou(活用) JUMAN.kankei(活用関係) JUMAN.connect.c(連接規則)
上記のものをコンパイルする. jumandic.tab(連接対応表) jumandic.mat(連接行列) jumandic.dat(データベース) jumandic.pat(インデックス)
辞書エントリの追加方法 Juman\dic にファイル usr.dic を作成. その中に,以下の情報を記載する. (名詞 ( 普通名詞 ( (読み じんぎすかん) ( 見出し語 ジンギスカン じんぎすかん 成吉思汗) ) ) ) Juman\dic 下にある makedic.bat を実行.
デモ knp
デモ Chasen 出力フォーマットの変更 辞書エントリの追加 などができる (詳しくはマニュアルを読んでください.)
デモ Cabocha
デモ ひまわり
おまけ 未知語獲得システム UWAS 日本語文法獲得システム USRAS