DixChange プロジェクト ~辞書共通化の試み~

Slides:



Advertisements
Similar presentations
英作文支援システムの 構築に関する研究 平成 15 年 11 月 18 日 ( 火 ) A1 グループ M2 永易 稔 中間発表.
Advertisements

1 なんとなく Ajax ~新しくて古い XMLHttp 川合孝典 (Kansai.pm) 2005/5/22.
初めてのEndNote はじめに EndNoteの使い方 EndNoteとは EndNoteでできること 起動とライブラリの作成
東京工科大学 コンピュータサイエンス学部 亀田弘之
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
最大エントロピーモデルに基づく形態素解析と辞書による影響
あわしろいくや Debianの日本語入力入門 あわしろいくや
ヘルスケア連動型 市販薬検索システム 研究者 : 加納 えり 指導教員 : 越田 高志.
MARC21による国内交換フォーマットの提案
MS-Word ⇒ XML 2001/10 マウスをクリックしてください。(カーソルはどこにあっても結構です。)次ページが表示されます。
言語モデル(200億文のGoogle日本語Nグラムから計算)
Twitterの発言に基づくウェブページ推薦システム
言語体系とコンピュータ 第5回.
WebDAVでOpenOffice.org の文章を共有する
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
音声と図解 初めてのパソコン 2013年度公開講座 4月27日, 5月11日 跡見学園女子大学文学部准教授 福田 博同 初めてのパソコン
情報学類 吉田光男 アドバイザー教官: 山本幹雄 先生
Software Freedom Day2012 野首貴嗣
オンライン英単語・リスニング 学習ソフト 佐々木研究室 N02k1114 北隅 麻実.
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
連想概念辞書の構築 感性語の収集 ニューラルネットによる実装 マルチモーダル対話システム 漢字フォントの合成
情報コミュニケーション入門 ワープロソフト入門(1) レイアウトと書式の設定
OSC京都 2016 おーぷん万葉プロジェクト 京橋 ひよわ
テキストマイニング, データマイニングと 社会活動のトレース
コーパス言語学実践 2006年度2学期 第5回.
検索エンジンに関して The Anatomy of a Large-Scale Hypertextual Web Search Engine
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
4Y-4 印象に残りやすい日本語パスワードの合成法
文献管理ソフトRefWorksの利用.
平成19年5月19日 第3版 東京大学理学部生物化学図書室 前田 朗
共同ローカリゼーション フレームワーク 井上 謙次.
東京工科大学 コンピュータサイエンス学部 亀田弘之
形態素解析および係り受け解析・主語を判別
リファクタリングのための 変更波及解析を利用した テスト支援ツールの提案
教育系サブジェクトリポジトリとしての展開
2009/5/22 けーちゃん カンタン  Wikiで情報共有 あいさつ 2009/5/22 けーちゃん
日本語解析済みコーパス管理ツール 「茶器」
Javaソフトウェア部品検索システムのための索引付け手法の提案と実装
GIS等インターフェースの標準化について
検索エンジンを利用した Covert Channelの検出
情報管理論 2018/11/9 情報分析の道具 2018/11/9 情報分析の道具 情報分析の道具.
自然言語処理及び実習 第11回 形態素解析.
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
Office IME 2010 を使う.
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
ChaIME: 大規模コーパスを 用いた統計的仮名漢字変換
東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への 簡易ナビゲーションシステム-
大規模データによる未知語処理を統合したスケーラブルな仮名漢字変換
東京工科大学 コンピュータサイエンス学部 亀田弘之
<日本語教育とAI:研究実践例と今後の課題 > 読解支援システムへのAI活用の可能性と留意点
東京工科大学 コンピュータサイエンス学部 亀田弘之
形態素解析ドライバモデルの実装と コーパスの品詞体系変換への応用
交番における手話から日本語への 変換システムの検討
初心者のための補足 キーボード・マウスの基本操作と 日本語入力
Happinessの歴史と 日本語処理のエピソード (株)平和情報センター 沓澤 尚明.
テキストマイニング, データマイニングと 社会活動のトレース
ブラウザを快適に操作するツールの開発 藤村研究室 1DS04179M 阪上 翔伍.
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
Spatial Linker - 空間コンテンツ融合の研究 -
コーディングパターンの あいまい検索の提案と実装
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
自然言語処理2015 Natural Language Processing 2015
シソーラス情報を用いた童話文章登場人物の 感情情報読み取りシステム
形態素解析と構文解析 金子邦彦.
自然言語処理2016 Natural Language Processing 2016
mi-8. 自然言語処理 人工知能を演習で学ぶシリーズ(8)
識別子の読解を目的とした名詞辞書の作成方法の一試案
東京工科大学 コンピュータサイエンス学部 亀田弘之
Presentation transcript:

DixChange プロジェクト ~辞書共通化の試み~ 2003-11-01 関西オープンソース+フリーウェア2003 大阪産業創造館 knok@daionet.gr.jp komatsu@taiyaki.org http://sourceforge.jp/projects/dixchange/

単語登録してますか? 新しい単語はどんどんと SKK で鍛えた辞書をAnthyでも使いたい? 入力ソフトウェアだけ? 「トリビア」 「ググる」 「_| ̄|○」 SKK で鍛えた辞書をAnthyでも使いたい? 入力ソフトウェアだけ? KAKASI 用辞書は? 単語登録は一度だけ すべてのソフトウェアで辞書を共有

DixChange プロジェクト 辞書のメタフォーマットを策定・活用 その他各種リソースを標準化 各ソフトウェアのフォーマットに変換可能 ローマ字テーブル, キーバインド 変換 専用 辞書 ソフトウェア #1 DixChange 辞書 ソフトウェア #2 専用 辞書

参加プロジェクト 幅広い分野からの参加 参加者募集中!! 変換エンジン 文書解析 Anthy: かな漢字変換 PRIME: 予測入力 KAKASI: わかち書き MeCab: 形態素解析 Anthy, PRIME KAKASI, MeCab uim, sumika Canna 辞書, SKK辞書 入力ツール 単語辞書 Uim: 入力インタフェース Sumika: 辞書管理ツール かんな辞書 SKK辞書

実施計画 データ形式の決定 データ構造の決定 各辞書データのすりあわせ 実装 参加プロジェクトの充実

データ形式・構造 (まだ未決定) 1/2 <word literal=“山”phonetic=“やま”pos=“名詞”/> <word literal=“走” phonetic=“はし” pos=“動詞”cclass=“ラ行五段”score=“200”/> <word literal=“山” phonetic=“やま” pos=“名詞”/> <word literal=“鍋” phonetic=“なべ” pos=“名詞”cclass=“無活用” score=“100”> <usage category=“料理” score=“200”/> <usage category=“道具” score=“150”/> </word> 一部拡大 <word literal=“山”phonetic=“やま”pos=“名詞”/> <word literal=“鍋”phonetic=“なべ”pos=“名詞” cclass=“無活用” score=“100”> <usage category=“料理” score=“200”/> <usage category=“道具” score=“150”/> </word>

データ形式・構造 (まだ未決定) 2/2 XML 形式 パーザが既に存在 拡張性が高い 処理速度は度外視 実際の使用時には、各実装の専用データに変換される <word literal=“山”phonetic=“やま”pos=“名詞”/> <word literal=“鍋”phonetic=“なべ”pos=“名詞” cclass=“無活用” score=“100”> <usage category=“料理” score=“200”/> <usage category=“道具” score=“150”/> </word>

実施計画 データ形式の決定 データ構造の決定 各辞書データのすりあわせ 実装 参加プロジェクトの充実 XML に決定 前述の構造をもとに議論中 各辞書データのすりあわせ 実装 参加プロジェクトの充実

各辞書データのすりあわせ 品詞情報などの整合性のすりあわせ 既存のデータをもとに、自動判別を目指す 例: MS-IME の「名詞非接尾」と    ATOK の「名詞形容動詞」はおなじ品詞*1 既存のデータをもとに、自動判別を目指す 単語群に与えられている品詞名の対応で判別 Aの「地域名」と Bの「固有名詞地名」 は同じ品詞? 関西 大阪 ソフトウェアA: 「地域名」 ソフトウェアB: 「固有名詞地名」 *1 http://homepage2.nifty.com/novel-diy/tool/tool_1.htm より引用

実装 データ構造の決定待ち Sumika (栖) プロジェクト 辞書管理ツール http://sumika.sourceforge.jp/

参加プロジェクトの充実 参加者、随時募集中!

参加プロジェクトの充実 参加者、随時募集中! 企業様大歓迎!

まとめ 辞書をはじめとした、日本語リソースの共有化 現在、データ構造について議論中 参加者募集中! SourceForge ページ http://sourceforge.jp/projects/dixchange/ Wiki ページ http://snurl.com/2rwf/ (http://ukai.org/wiliki/wiliki.cgi?%BC%AD%BD%F1%B6%A6%C4%CC%B2%BD)