Software Freedom Day2012 野首貴嗣 knok@fsij.org 自由なデータ Software Freedom Day2012 野首貴嗣 knok@fsij.org
「自由なデータ」の定義 この発表の中での「自由なデータ」 自由ソフトウェアの定義を参考に いかなる目的に対しても、プログラムを実行する 権利 プログラムがどのように動作しているか研究 し、 必要に応じて改造する自由 身近な人を助けられるよう、コピーを再配布する 自由 改変した版を他に配布する自由
定義してみる 目的を問わず利用する自由 「利用」の定義が難しいのであまり考えない 調査し、改変する自由 「ソースコード」にあたるものはデータによってさ まざま コピーの再配布の自由 改変物の再配布の自由
自由なデータのライセンス例 GPL あまりデータには向かない GFDL (GNU Free Document License) invaliant sectionがある Creative Commons 複数のバリエーションがある Open Database License OpenStreetMapの新しいライセンス(2012/9/12 より)
日本語の処理と自由なデータ 表示に必要なフォント ビットマップ アウトライン 辞書 日本語入力 自然言語処理
ビットマップフォント 昔のPCはROM内蔵 ソフトウェアでフォントをレンダリング a12k12 (public domain) X-Window に同梱 M+ font (ほぼpublic domain) 見易さ、デザインにこだわったフォント
アウトラインフォント PCの処理能力向上によって需要が拡大 東風フォント ライセンス問題により配布停止 さざなみフォントという代替フォントが開発され た M+ Outline font 5つのウェイトを持つ日本語アウトラインフォン ト 現在第1水準まで 組み合わせた派生フォントが何種かある VL-Gothic font (M+/さざなみ)
日本語入力 辞書が必須 SKKJISYO (GPL) SKK用の辞書 Pubdic+ (ほぼpublic domain) Wnn/FreeWnnの辞書 cannadic/改 (pubdic+由来の単語を含む) Canna, Anthyの辞書 ipadic (ICOTライセンス) mozcの辞書
自然言語処理 ipadic ChaSen MeCab juman dic (MIT style) juman
自由ソフトウェアの弱い領域 スペル、文法チェッカー 日本語入力 手書き入力 Tomoe 音声合成 Open JTalk OCR tesseract nhocr
困難な要因 データ量 専門性の高さ 統一性 データ形式の問題 法的な問題
プロプライエタリデータの問題 データ形式が非公開 参考にすることも改造することも困難 特許になっているデータ形式もある 言葉狩り 「不適切」「差別的」とカテゴライズされる単語 データ改変、追加が難しい 適切な品詞で単語を追加できるか 適切なスコア(頻度情報)を指定できるか
自由なデータを増やすには データ流通の拠点が必要 Youtube niconico pixiv instagram flickr Wikipedia … などのようなサイト
必要な機能 著作権者の明確化 ライセンスの明確化 flickrはCreativeCommonsが選択できる 一次著作物と二次著作物の関係性の明記 niconicoにはコンテンツツリーがある コンテンツの評価機能 専門知識を持つ編集者的存在
著名なプロジェクト Project Gutenberg 青空文庫 Internet Archive Wikipedia OpenStreetMap