Software Freedom Day2012 野首貴嗣

Slides:



Advertisements
Similar presentations
1 通信教育学部 コンピュータ演習 WWW における情報検索とブラウザ 担当: 遠藤 美純
Advertisements

6. WEKO コンテンツ 個別登録 マニュアル Version 年 9 月 16 日 国立情報学研究所.
オープンスタンダード・システム論 I 1. フリーソフトウェアと オープンソース・ソフトウェア
IT 講習会 -PowerPoint- テックサポーター 板垣翔大. 目次  PowerPoint とは?  PowerPoint を起動しよう  基本操作を知ろう  SmartArt で情報の「見える化」  伝わるスライドのために  スライドショー  得する小技 IT 講習会 -PowerPoint-
オブジェクト指向 プログラミング 第二回 知能情報学部 新田直也. 講義計画(あくまで予定) 第 1 回 プログラミング言語の種類と歴史 第 2 回 eclipse の基本操作 第 3 回 eclipse のデバッグ機能 第 4 回 構造化プログラミングの復習 第 5 回 演習 第 6 回 構造化指向からオブジェクト指向へ.
オープンソースの諸問題 於: OSSAJ オープンソースビジネスセミナー 2005 年 5 月 30 日(月) 風穴 江(かざあな こう) TechStyle 編集長、コラムニスト
オープンソース GIS 入門コース PostGIS + QGIS で始める空間データ解析 2010 年 3 月 21 日 講師:今木洋大.
TeX で数式を書くための PowerPoint アドイン Ver (2011/06/26) Ver. 0.1 (2007/5/30)
Doxygen ~ IGModel を一例にした, 数値モデルのドキュメンテーションにおける Doxygen の利用
あわしろいくや Debianの日本語入力入門 あわしろいくや
#11 組み込み機器、Linux、特許 Yutaka Yasuda, 2003 fall.
オープンソースGIS入門コース PostGIS+QGISで始める空間データ解析
コンピュータ プレゼンテーション.
オペレーティングシステムⅡ 第11回 講師 松本 章代 VirtuaWin・・・仮想デスクトップソフト.
第3回関西Debian勉強会 みんなで読む Debian社会契約 MC: 中本崇志 2007/06/02.
プレゼンテーション用ソフトウェア Impress
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
フォークソノミー(folksonomy)
情報技術と著作権.
TeX で数式を書くための PowerPoint アドイン Ver. 0.1 (2007/5/30)
Webフォントって何? Webページ中のテキスト表示に使うフォントを指定した場所からダウンロードして適用させるもの
情報理工学部 情報システム工学科 ラシキアゼミ3年 H 岡田 貴大
Microsoft PowerPointを使ってみよう
第1回 HTML5入門.
水工学夏期研修会 2012年8月27日 CommonMPによる流出計算 菊森 佳幹(よしと) 1.
AkaminePlayerについて 04a2049 中村まりえ.
情報処理の概念 #12 オープンソースソフトウェア(続き) / 2002 (秋)
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
プレゼンテーション用ソフトウェア Impress
コンピュータ・リテラシ b 第12回 簡単な画像処理.
簡単な画像処理 通信教育学部 コンピュータ演習 遠藤美純.
日本の文字文化は縦組文化 洋才和魂 日本の美しい文字文化のあるべき方向 平仮名は右廻り([の]の字方向) → 縦書き向き
WebCluster スライドショーで見る操作ガイド
PowerPoint初級編 院内研究発表入門.
DixChange プロジェクト ~辞書共通化の試み~
~ 合成音声を活用したスライド動画ソフト~ リアルナレーターズ2 のご紹介 主な機能
リファクタリングのための 変更波及解析を利用した テスト支援ツールの提案
高山建志 五十嵐健夫 テクスチャ合成の新たな応用と展開 k 情報処理 vol.53 No.6 June 2012 pp
汎用オープンソースCMS 「Magic3」デモ
Googleツールを用いた新しいWebシステムの開発
Microsoft Office クイックガイド ~OneNote 2013~
リアルナレーターズ 2 のご紹介 株式会社 スカイフィッシュ
経営工学基礎演習a PowerPointの利用.
情報工学総合演習 D-I 近似アルゴリズム 埼玉大学 理工学研究科 山田 敏規、 橋口 博樹、 堀山 貴史
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
Office IME 2010 を使う.
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
オブジェクト指向 プログラミング 第二回 知能情報学部 新田直也.
ChaIME: 大規模コーパスを 用いた統計的仮名漢字変換
東京工科大学 コンピュータサイエンス学部 亀田弘之
- 新しいコンテンツ 作成の在り方 -.
単語登録(1) ◎MS-IMEの「単語登録」に、単語、語句、記号など自分がよく使うものを登録しておくと、便利である。
7-0.SWORD Client for WEKO インストールマニュアル Version 2.2
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
★C++/オブジェクト指向実践企画★ Othelloゲーム作成
TeX で数式を書くための PowerPoint アドイン Ver. 0.1 (2007/5/30)
構造的類似性を持つ半構造化文書における頻度分析
基本情報技術概論(第13回) 埼玉大学 理工学研究科 堀山 貴史
東京工科大学 コンピュータサイエンス学部 亀田弘之
ここにタイトルを入力 ここにサブタイトルを入力 草原 (初級)
TeX で数式を書くための PowerPoint アドイン Ver. 0.1 (2007/5/30)
統合開発環境のための プログラミング言語拡張 フレームワーク
第7回 Q&A メール講座 Next Stage:翻訳力アップ自己トレ(1)
マイクロソフトのライセンス: 貴社に最適なオプション
単語登録(1) ◎MS-IMEの「単語登録」に、単語、語句、記号など自分がよく使うものを登録しておくと、便利である。
mi-8. 自然言語処理 人工知能を演習で学ぶシリーズ(8)
著作権とライセンス.
7-Zipのインストール (Windows 10)
Presentation transcript:

Software Freedom Day2012 野首貴嗣 knok@fsij.org 自由なデータ Software Freedom Day2012 野首貴嗣 knok@fsij.org

「自由なデータ」の定義 この発表の中での「自由なデータ」 自由ソフトウェアの定義を参考に いかなる目的に対しても、プログラムを実行する 権利 プログラムがどのように動作しているか研究 し、 必要に応じて改造する自由 身近な人を助けられるよう、コピーを再配布する 自由 改変した版を他に配布する自由

定義してみる 目的を問わず利用する自由 「利用」の定義が難しいのであまり考えない 調査し、改変する自由 「ソースコード」にあたるものはデータによってさ まざま コピーの再配布の自由 改変物の再配布の自由

自由なデータのライセンス例 GPL あまりデータには向かない GFDL (GNU Free Document License) invaliant sectionがある Creative Commons 複数のバリエーションがある Open Database License OpenStreetMapの新しいライセンス(2012/9/12 より)

日本語の処理と自由なデータ 表示に必要なフォント ビットマップ アウトライン 辞書 日本語入力 自然言語処理

ビットマップフォント 昔のPCはROM内蔵 ソフトウェアでフォントをレンダリング a12k12 (public domain) X-Window に同梱 M+ font (ほぼpublic domain) 見易さ、デザインにこだわったフォント

アウトラインフォント PCの処理能力向上によって需要が拡大 東風フォント ライセンス問題により配布停止 さざなみフォントという代替フォントが開発され た M+ Outline font 5つのウェイトを持つ日本語アウトラインフォン ト 現在第1水準まで 組み合わせた派生フォントが何種かある VL-Gothic font (M+/さざなみ)

日本語入力 辞書が必須 SKKJISYO (GPL) SKK用の辞書 Pubdic+ (ほぼpublic domain) Wnn/FreeWnnの辞書 cannadic/改 (pubdic+由来の単語を含む) Canna, Anthyの辞書 ipadic (ICOTライセンス) mozcの辞書

自然言語処理 ipadic ChaSen MeCab juman dic (MIT style) juman

自由ソフトウェアの弱い領域 スペル、文法チェッカー 日本語入力 手書き入力 Tomoe 音声合成 Open JTalk OCR tesseract nhocr

困難な要因 データ量 専門性の高さ 統一性 データ形式の問題 法的な問題

プロプライエタリデータの問題 データ形式が非公開 参考にすることも改造することも困難 特許になっているデータ形式もある 言葉狩り 「不適切」「差別的」とカテゴライズされる単語 データ改変、追加が難しい 適切な品詞で単語を追加できるか 適切なスコア(頻度情報)を指定できるか

自由なデータを増やすには データ流通の拠点が必要 Youtube niconico pixiv instagram flickr Wikipedia … などのようなサイト

必要な機能 著作権者の明確化 ライセンスの明確化 flickrはCreativeCommonsが選択できる 一次著作物と二次著作物の関係性の明記 niconicoにはコンテンツツリーがある コンテンツの評価機能 専門知識を持つ編集者的存在

著名なプロジェクト Project Gutenberg 青空文庫 Internet Archive Wikipedia OpenStreetMap