Download presentation
Presentation is loading. Please wait.
1
DixChange プロジェクト ~辞書共通化の試み~
関西オープンソース+フリーウェア2003 大阪産業創造館
2
単語登録してますか? 新しい単語はどんどんと SKK で鍛えた辞書をAnthyでも使いたい? 入力ソフトウェアだけ? 「トリビア」
「ググる」 「_| ̄|○」 SKK で鍛えた辞書をAnthyでも使いたい? 入力ソフトウェアだけ? KAKASI 用辞書は? 単語登録は一度だけ すべてのソフトウェアで辞書を共有
3
DixChange プロジェクト 辞書のメタフォーマットを策定・活用 その他各種リソースを標準化 各ソフトウェアのフォーマットに変換可能
ローマ字テーブル, キーバインド 変換 専用 辞書 ソフトウェア #1 DixChange 辞書 ソフトウェア #2 専用 辞書
4
参加プロジェクト 幅広い分野からの参加 参加者募集中!! 変換エンジン 文書解析 Anthy: かな漢字変換 PRIME: 予測入力
KAKASI: わかち書き MeCab: 形態素解析 Anthy, PRIME KAKASI, MeCab uim, sumika Canna 辞書, SKK辞書 入力ツール 単語辞書 Uim: 入力インタフェース Sumika: 辞書管理ツール かんな辞書 SKK辞書
5
実施計画 データ形式の決定 データ構造の決定 各辞書データのすりあわせ 実装 参加プロジェクトの充実
6
データ形式・構造 (まだ未決定) 1/2 <word literal=“山”phonetic=“やま”pos=“名詞”/>
<word literal=“走” phonetic=“はし” pos=“動詞”cclass=“ラ行五段”score=“200”/> <word literal=“山” phonetic=“やま” pos=“名詞”/> <word literal=“鍋” phonetic=“なべ” pos=“名詞”cclass=“無活用” score=“100”> <usage category=“料理” score=“200”/> <usage category=“道具” score=“150”/> </word> 一部拡大 <word literal=“山”phonetic=“やま”pos=“名詞”/> <word literal=“鍋”phonetic=“なべ”pos=“名詞” cclass=“無活用” score=“100”> <usage category=“料理” score=“200”/> <usage category=“道具” score=“150”/> </word>
7
データ形式・構造 (まだ未決定) 2/2 XML 形式 パーザが既に存在 拡張性が高い 処理速度は度外視
実際の使用時には、各実装の専用データに変換される <word literal=“山”phonetic=“やま”pos=“名詞”/> <word literal=“鍋”phonetic=“なべ”pos=“名詞” cclass=“無活用” score=“100”> <usage category=“料理” score=“200”/> <usage category=“道具” score=“150”/> </word>
8
実施計画 データ形式の決定 データ構造の決定 各辞書データのすりあわせ 実装 参加プロジェクトの充実 XML に決定
前述の構造をもとに議論中 各辞書データのすりあわせ 実装 参加プロジェクトの充実
9
各辞書データのすりあわせ 品詞情報などの整合性のすりあわせ 既存のデータをもとに、自動判別を目指す
例: MS-IME の「名詞非接尾」と ATOK の「名詞形容動詞」はおなじ品詞*1 既存のデータをもとに、自動判別を目指す 単語群に与えられている品詞名の対応で判別 Aの「地域名」と Bの「固有名詞地名」 は同じ品詞? 関西 大阪 ソフトウェアA: 「地域名」 ソフトウェアB: 「固有名詞地名」 *1
10
実装 データ構造の決定待ち Sumika (栖) プロジェクト 辞書管理ツール
11
参加プロジェクトの充実 参加者、随時募集中!
12
参加プロジェクトの充実 参加者、随時募集中! 企業様大歓迎!
13
まとめ 辞書をはじめとした、日本語リソースの共有化 現在、データ構造について議論中 参加者募集中! SourceForge ページ
Wiki ページ (
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.