Presentation is loading. Please wait.

Presentation is loading. Please wait.

DixChange プロジェクト ~辞書共通化の試み~

Similar presentations


Presentation on theme: "DixChange プロジェクト ~辞書共通化の試み~"— Presentation transcript:

1 DixChange プロジェクト ~辞書共通化の試み~
関西オープンソース+フリーウェア2003 大阪産業創造館

2 単語登録してますか? 新しい単語はどんどんと SKK で鍛えた辞書をAnthyでも使いたい? 入力ソフトウェアだけ? 「トリビア」
「ググる」 「_| ̄|○」 SKK で鍛えた辞書をAnthyでも使いたい? 入力ソフトウェアだけ? KAKASI 用辞書は? 単語登録は一度だけ すべてのソフトウェアで辞書を共有

3 DixChange プロジェクト 辞書のメタフォーマットを策定・活用 その他各種リソースを標準化 各ソフトウェアのフォーマットに変換可能
ローマ字テーブル, キーバインド 変換 専用 辞書 ソフトウェア #1 DixChange 辞書 ソフトウェア #2 専用 辞書

4 参加プロジェクト 幅広い分野からの参加 参加者募集中!! 変換エンジン 文書解析 Anthy: かな漢字変換 PRIME: 予測入力
KAKASI: わかち書き MeCab: 形態素解析 Anthy, PRIME KAKASI, MeCab uim, sumika Canna 辞書, SKK辞書 入力ツール 単語辞書 Uim: 入力インタフェース Sumika: 辞書管理ツール かんな辞書 SKK辞書

5 実施計画 データ形式の決定 データ構造の決定 各辞書データのすりあわせ 実装 参加プロジェクトの充実

6 データ形式・構造 (まだ未決定) 1/2 <word literal=“山”phonetic=“やま”pos=“名詞”/>
<word literal=“走” phonetic=“はし” pos=“動詞”cclass=“ラ行五段”score=“200”/> <word literal=“山” phonetic=“やま” pos=“名詞”/> <word literal=“鍋” phonetic=“なべ” pos=“名詞”cclass=“無活用” score=“100”> <usage category=“料理” score=“200”/> <usage category=“道具” score=“150”/> </word> 一部拡大 <word literal=“山”phonetic=“やま”pos=“名詞”/> <word literal=“鍋”phonetic=“なべ”pos=“名詞” cclass=“無活用” score=“100”> <usage category=“料理” score=“200”/> <usage category=“道具” score=“150”/> </word>

7 データ形式・構造 (まだ未決定) 2/2 XML 形式 パーザが既に存在 拡張性が高い 処理速度は度外視
実際の使用時には、各実装の専用データに変換される <word literal=“山”phonetic=“やま”pos=“名詞”/> <word literal=“鍋”phonetic=“なべ”pos=“名詞” cclass=“無活用” score=“100”> <usage category=“料理” score=“200”/> <usage category=“道具” score=“150”/> </word>

8 実施計画 データ形式の決定 データ構造の決定 各辞書データのすりあわせ 実装 参加プロジェクトの充実 XML に決定
前述の構造をもとに議論中 各辞書データのすりあわせ 実装 参加プロジェクトの充実

9 各辞書データのすりあわせ 品詞情報などの整合性のすりあわせ 既存のデータをもとに、自動判別を目指す
例: MS-IME の「名詞非接尾」と    ATOK の「名詞形容動詞」はおなじ品詞*1 既存のデータをもとに、自動判別を目指す 単語群に与えられている品詞名の対応で判別 Aの「地域名」と Bの「固有名詞地名」 は同じ品詞? 関西 大阪 ソフトウェアA: 「地域名」 ソフトウェアB: 「固有名詞地名」 *1

10 実装 データ構造の決定待ち Sumika (栖) プロジェクト 辞書管理ツール

11 参加プロジェクトの充実 参加者、随時募集中!

12 参加プロジェクトの充実 参加者、随時募集中! 企業様大歓迎!

13 まとめ 辞書をはじめとした、日本語リソースの共有化 現在、データ構造について議論中 参加者募集中! SourceForge ページ
Wiki ページ (


Download ppt "DixChange プロジェクト ~辞書共通化の試み~"

Similar presentations


Ads by Google