OSC京都 2016 おーぷん万葉プロジェクト京橋ひよわ

Slides:

Advertisements

Similar presentations

応用コース：ワープロを活用する WORD2000 1回目基礎コースの復習(第1章と付録) 2回目文字の入力（第2章と第4章)

Advertisements

情報処理第2回.

第2回　情報基礎演習Ⅰ 　2007/04/23. 第2回　情報基礎演習Ⅰ 　2007/04/23.

Conditional Random Fields を用いた日本語形態素解析

自然言語処理：第３回１．前回の確認２．構文解析３．格文法.

最大エントロピーモデルに基づく形態素解析と辞書による影響

ヘルスケア連動型市販薬検索システム研究者：加納　えり指導教員：越田　高志.

形態素周辺確率を用いた分かち書きの一般化とその応用

Netscape Communicator Eudora Microsoft Word

言語モデル（200億文のGoogle日本語Nグラムから計算）

Android と iPhone （仮題）情報社会とコンピュータ第１３回

Twitterの発言に基づくウェブページ推薦システム

Deep learningによる読唇システム

言語体系とコンピュータ第5回.

知識情報演習Ⅲ（後半第1回）辻慶太（水）

音声と図解初めてのパソコン 2013年度公開講座 4月27日, 5月11日跡見学園女子大学文学部准教授福田博同初めてのパソコン

情報学類吉田光男アドバイザー教官：山本幹雄先生

キーボードでの指の位置と入力範囲 ◎左手の指のホームポジション（入力しないときの位置）：小指－「Ａ」薬指－「Ｓ」中指－「Ｄ」人差し指－「Ｆ」（突起あり） ◎右手の指のホームポジション：人差し指－「Ｊ」（突起あり）中指－「Ｋ」薬指－「Ｌ」小指－「；」 ◎親指は「スペース」キーの上に置く。

電子社会設計論第１１回 Electronic social design theory

奈良先端科学技術大学院大学情報科学研究科松本裕治

情報爆発A01支援班マイサーチエンジン開発環境支援グループ中村聡史, 大島裕明, 田中克己, 喜連川優

ユースケース図 FM12012　比嘉久登.

WagbyR6.5 Update 12 PPT版更新情報

「データ学習アルゴリズム」第３章複雑な学習モデル 3.1 関数近似モデル ….. … ３層パーセプトロン

ことばとコンピュータ 2007年度1学期第3回.

テキストマイニング，データマイニングと社会活動のトレース

コーパス言語学実践 2006年度2学期第5回.

コンピュータと情報第３回補遺ファイルとフォルダ.

１．自然言語処理システム２．単語と形態素３．文節と係り受け

部分形態素解析を用いたコーパスの品詞体系変換

情報処理第2回.

4Y-4 印象に残りやすい日本語パスワードの合成法

共同ローカリゼーションフレームワーク井上　謙次.

キーボードでの指の位置と入力範囲 ◎左手の指のホームポジション（入力しないときの位置）：小指－「Ａ」薬指－「Ｓ」中指－「Ｄ」人差し指－「Ｆ」（突起あり） ◎右手の指のホームポジション：人差し指－「Ｊ」（突起あり）中指－「Ｋ」薬指－「Ｌ」小指－「；」 ◎親指は「スペース」キーの上に置く。

情報コミュニケーション入門 2016年度版情報コミュニケーション入門ｍ総合実習（１）.

形態素解析および係り受け解析・主語を判別

DixChange プロジェクト～辞書共通化の試み～

プログラミング演習Ⅰ 課題2 10進数と2進数 2回目.

ま　と　めメディアコミュニケーション論Ⅲ 第１５回.

動詞の共起パターンを用いた動作性名詞の述語項構造解析

コンピュータ　リテラシー担当教官　　河中.

１　Macの基本操作 1-5　文字入力(1/4) 　(1)Windows風のキー設定

平成２２年６月１５日図書系職員のためのアプリケーション開発講習会

自然言語処理及び実習第11回　形態素解析.

大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換

Office IME 2010 を使う.

3D散歩ゲーム 08A2043 谷口盛海種田研究室.

ソフトウェア情報学総論基盤ソフトウェア学講座

ChaIME: 大規模コーパスを用いた統計的仮名漢字変換

余談ドラクエのパラメーターの上限、マリオの残機など、255が多く、ドラクエの経験値の上限などに65535が出てくるワケ１．コンピュータは2進数で動く。　例：2進数 = 10進数173 ２．16進数1桁(0～9, A, B, ～F）が2進数4桁に対応する。　例.

大規模データによる未知語処理を統合したスケーラブルな仮名漢字変換

単語登録(1) ◎ＭＳ-ＩＭＥの「単語登録」に、単語、語句、記号など自分がよく使うものを登録しておくと、便利である。

深層学習を用いた音声認識システム工学部　電気電子工学科　白井研究室 T213069　林健吉.

Ibaraki Univ. Dept of Electrical & Electronic Eng.

知識情報演習Ⅲ（後半第2回）辻　慶太

言語XBRLで記述された財務諸表の分析支援ツールの試作

類似度を用いた WWW のリンク構造の解析谷　研究室　　　　栗原　伸行.

初心者のための補足キーボード・マウスの基本操作と日本語入力

テキストマイニング，データマイニングと社会活動のトレース

環境システム科学演習(後半) FORTRAN ＆ C(以降FORTRANと省略して呼びます)は富士通

コンピュータにログイン第１章コンピュータにログイン啓林館情報Ａ最新版（p.6－13）

東京工科大学コンピュータサイエンス学部亀田弘之

ブースティングとキーワードフィルタリングによるシステム要求検出

コンピュータ　リテラシー担当教官　　河中.

ネット時代のセキュリティ３（暗号化）２ＳＫ　情報機器工学.

シソーラス情報を用いた童話文章登場人物の感情情報読み取りシステム

形態素解析と構文解析金子邦彦.

mi-8. 自然言語処理人工知能を演習で学ぶシリーズ（８）

　タイピング　情報教育の効果を高めるために慶應義塾大学　環境情報学部教授　大岩元.

Presentation transcript:

OSC京都 2016 おーぷん万葉プロジェクト京橋ひよわ (@Khiyowa) 日本語入力のこれから OSC京都 2016 おーぷん万葉プロジェクト京橋ひよわ (@Khiyowa)

0. もくじ変換辞書のこれまでとこれから変換処理のこれまでとこれからオープンソースのかな漢字変換の課題

1-1. 辞書のこれまで(コスト最小法) 統計的かな漢字変換の辞書(コスト最小法)を作る先ほどのこれ「ビタビアルゴリズム(動的計画法)」

1-1. コスト最小法コストをつける現在、コストは多くが自動でつけられている CRF(条件付き確率場)という手法を使い、機械学習器で学習させてコストをつけているソフトによっては、学習用データを用意する部分と学習済みの辞書を洗練する部分は人手某社では学習用コーパスは人手で作っている 98%程度の精度でも、残り2%によく使う言い回しが含まれていたりするので、その部分については追加学習が必要 Webからデータを取っているGoogle 日本語入力も、当初と比べると変換効率は向上しており、おそらく辞書の洗練を行うようになっている…?

1-1. コスト最小法学習用データの作成生の文に対して情報を付与していく私の名前は中野です文に対して、何らかの情報(この場合は品詞情報)を付与したものを「コーパス」と呼んでいる BOS(文頭) 私名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシの助詞,連体化,*,*,*,*,の,ノ,ノ名前名詞,一般,*,*,*,*,名前,ナマエ,ナマエは助詞,係助詞,*,*,*,*,は,ハ,ワ中野名詞,固有名詞,地域,一般,*,*,中野,ナカノ,ナカノです助動詞,*,*,*,特殊・デス,基本形,です,デス,デス EOS(文末)

1-1. コスト最小法確率たとえば… (文頭)わたしのなまえはなかのです(文末) どこで切ってどんな漢字を当てるか文頭に名詞が来ている文が多い文頭に名詞が来る確率が高い → 「私」代名詞の次には助詞の連帯化が来る確率が高い… これらを機械学習させて変換に利用 BOS(文頭) 私名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシの助詞,連体化,*,*,*,*,の,ノ,ノ名前名詞,一般,*,*,*,*,名前,ナマエ,ナマエは助詞,係助詞,*,*,*,*,は,ハ,ワ中野名詞,固有名詞,地域,一般,*,*,中野,ナカノ,ナカノです助動詞,*,*,*,特殊・デス,基本形,です,デス,デス EOS(文末)

1-1. コスト最小法品詞を自動で求める私の名前は中野です。代名格助名係助固名助動私　の　名前　は　中野　です　。代名　格助　名　係助　　固名　　助動単純に分類するわけにはいかない「の」の品詞は格助詞、終助詞、間投助詞、並立助詞、準体助詞のどれ? 前後の情報も利用して判断する必要があるすべての可能性を確率として保持し、最大値を求める最近では、CRF(条件付確率場)モデルが使われる

1-1. コスト最小法確率を使って次の品詞を当てに行く現在の統計的かな漢字変換では品詞が重要形態素解析と表裏一体この「確率」が高いものはコストを小さく、逆に確率が低いものにはコストを大きくする辞書を使うときは、このコスト情報を動的計画法(ビタビ)で計算現在の統計的かな漢字変換では品詞が重要内部的には600個ほどの品詞を持つ製品も形態素解析と表裏一体 Google 日本語入力では、形態素解析器(MeCab)を使ってコーパスを作っているジャストシステムでは、ATOKの技術を生かして商用の形態素解析器(JMAT)を作っている

1-2. 変換辞書のこれから(係り受け編) ところで… 実は直前直後の関係しか考慮してない文頭に名詞が来ている文が多い代名詞の次には助詞の連帯化が来る確率が高い… 実は直前直後の関係しか考慮してない BOS(文頭) 私名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシの助詞,連体化,*,*,*,*,の,ノ,ノ名前名詞,一般,*,*,*,*,名前,ナマエ,ナマエは助詞,係助詞,*,*,*,*,は,ハ,ワ中野名詞,固有名詞,地域,一般,*,*,中野,ナカノ,ナカノです助動詞,*,*,*,特殊・デス,基本形,です,デス,デス EOS(文末)

1-2. 変換辞書のこれから(係り受け編) 実は直前直後の関係しか考慮してない言語って係り受けの関係があるしそれも見ようよ OSCとは　オープンソースの　文化祭である実はこのつながりは見てない言語って係り受けの関係があるしそれも見ようよって言ってるのが@hashimomさん

1-2. 変換辞書のこれから(n-gram編) 逆に n-gramを利用「私の名前は中野です」の文字2-gram 品詞情報って処理には使ってるけど結果には出てこない実は要らないんじゃないの? 日本語入力の研究をしてる森先生(京都大学) n-gramを利用「私の名前は中野です」の文字2-gram 「私の」「の名」「名前」「前は」「は中」「中野」「野で」「です」「私の名前は中野です」の単語2-gram 「私の」「の名前」「名前は」「は中野」「中野です」

1-2. 変換辞書のこれから(n-gram編) 「文をn文字/n単語分切り出した組」の確率を使って辞書を作る未知語の処理をどうするか膨大な文書データが必要でも現代なら手に入る…? 未知語の処理をどうするかユーザの入力を使うユーザは読みを入力し、区切り位置を決定して確定するこの読みと区切り位置を使い、学習情報を辞書に追加学習結果を収集し、ユーザに反映「キーロガー」まがいにもなりかねないので、収集については検討が必要

2-1. 変換処理のこれまで漢直(漢字直接入力)の時代和文タイプライター(戦前, 1915ぐらい) ペンタッチ式ワードプロセッサ(～80年代) 2000文字ほどの盤面から漢字を選択せねばならず、熟練の技術を必要とした。「タイピスト」という職業が存在した。連想方式(～80年代) 仮名を2文字入力することで漢字を1文字入力できる方式「リキ」→「力」という音読みのものや、「ミラ」→「鏡」という英語読みに近いものが混在メーカーによってもバラバラこれも素人が使えるものではなかった。

2-1. 変換処理のこれまでかな漢字変換という発想単漢字変換(‘78年) 連文節変換(80年代後半～) 読みと区切り位置を入力して漢字に変換する方式「SKK」は現在も一定数の利用者がいる。 OASYSに付属していた「OAK」の後継「Japanist」はサポートが続いており、Windows 10用ドライバもある(2003で開発は終了) 「親指シフト」用に開発されたもの連文節変換(80年代後半～) 読みを入力すると区切り位置も自動判定して変換「VJE」「WX」「ATOK」「松茸」などのソフトウェアが変換精度やUIを競ったスペースキーで変換してEnterで確定、という操作はジャストシステムが考案したとされる WX2/WX3は後のMicrosoft IMEとなった

2-1. 変換処理のこれまでところで入力文字数を制限する自動変換連文節変換は未変換/変換中の文がメモリに載るあまり入力されるとメモリが不足する変換の演算をするのに時間がかかってしまう入力文字数を制限する未確定では一定以上の入力ができなくなる KAREN(富士ソフト)など自動変換ある程度入力されたら自動で変換していく句読点や、一定文字数ごとなどの条件で自動で変換を行ういつ頃からかはわからないが、90年11月発売の書院にはあった最近のパソコンではメモリ不足や処理落ちの心配はないものの、設定で自動変換にできる

2-1. 変換処理のこれまで近年サジェスト(Google日本語入力) / 推測変換(ATOK) ライブ変換(ことえり) 入力中に変換結果をポップアップで表示入力中にリアルタイムで計算を行っているライブ変換(ことえり) 入力した端から自動で変換していく同じく、入力中にリアルタイムで計算を行っていると考えられるサジェストは早すぎると邪魔/遅すぎると役立たずデータをどう持つか

2-1. 変換処理のこれまで以下を参照 https://www.google.co.jp/ime/comic/small_32.html

2-2. 変換処理のこれからライブ変換の拡張コンピュータの処理速度の向上と辞書のデータ構造の工夫によって可能となった入力モード(英数/かな)などの切り替えも不要にするというのがGenjiの実装目標(で合ってる?) コンピュータの処理速度の向上と辞書のデータ構造の工夫によって可能となったキーボードの入力はコンピュータから見ると非常に遅いその間に変換処理を走らせることはさほど難しいわけではない探しやすいデータ構造も大切

3. オープンソースかな漢字変換の課題辞書を作る普及(かな漢字変換に限らずOSS全般にもいえる) データ構造はいいものがある手法もあるオープンデータのコーパスがない著作権が絡むため、好き勝手にデータを公開できない自由に手に入り、自由に提供できる良質なコーパスを整備する必要これもおーぷん万葉の活動の目標普及(かな漢字変換に限らずOSS全般にもいえる) 使う人がいないと開発者も集まらない作っても需要がない? Genjiも現状、@hashimomさんが一人でやってる *nixのかな漢字変換が新しい方式をひっさげてくる割に消えていくのはもしかしてこれが原因?

まとめ変換辞書変換処理課題係り受けを考慮したかな漢字変換、ビッグデータで辞書を作る方法が検討されているライブ変換を拡張し、入力モードも不要になるような、かな漢字変換が検討されている課題コーパスの整備とOSSの普及

参考日本語入力を支える技術コミック: Google 日本語入力ができるまでジャストシステムの形態素解析技術 2012 徳永拓之編技術評論社コミック: Google 日本語入力ができるまで https://www.google.co.jp/ime/comic/ ジャストシステムの形態素解析技術 http://www.slideshare.net/JSUXDesign/jtt1 ジャストシステムの形態素解析技術その2 機械学習編 http://www.slideshare.net/JSUXDesign/2-51367666 資料中の製品名等は関連企業の登録商標です TM, ©等は省略しています