Presentation is loading. Please wait.

Presentation is loading. Please wait.

TYPO Writer ヒトはどのように打ち間違えるのか?

Similar presentations


Presentation on theme: "TYPO Writer ヒトはどのように打ち間違えるのか?"— Presentation transcript:

1 TYPO Writer ヒトはどのように打ち間違えるのか?
荒牧英治 東大 宇野良子 農工大 岡瑞起 東大

2 まだ間違いに気が付いていないのか?

3 TYPOが致命的な場合も 日本看護協会の告知[Dec2008]より

4 TYPOの特徴 従来のコーパス(新聞や論文)ではまれ BUT: 例外的現象ではない 記述者は気づきにくい→
人間ならだれしも行う 平均3%の割合で打鍵ミス エキスパートでも0.9% [Grudin1983] チャットやマイクロブログ カルテ文章=ungrammatical fragmented [Sibanda 2005] 記述者は気づきにくい→ Sibanda いったいヒトはなぜタイポをするのか?

5 本研究の2つの課題 いったいなぜ/どのようにタイポするのか 主課題:タイポの分析 BUT: 従来のコーパス(新聞,論文 etc)
においてタイポはまれ 副課題:タイポの収集

6 本研究 はじめに 課題1: タイポの収集 どうやって自動的に大量のタイポをあつめるか? 課題2: タイポの分析 実験 おわりに

7 タイポの出現頻度は原型に比べて著しく低い
(本研究における)タイポとは 仮定1 タイポの出現頻度は原型に比べて著しく低い → |SOTP| : |STOP| < 1:50 仮定2 タイポと原型のスペリング/コンテキストは類似している → sim (please sotp it, please stop it) > TH. 仮定3 タイポは辞書に収載されていない → (form ⇔from) は対象外.

8 手法 材料: (2008年クロール; 500MB) STEP1: 3grmに分解→頻度集計
仮定はインプリしやすい 手法 材料: (2008年クロール; 500MB) STEP1: 3grmに分解→頻度集計 SPTE2: 頻度差30倍の類似した3grmペア抽出 仮定1 仮定2 仮定3 N-gram (Freq) N-gram (Freq) TYPO ORG TYPE wace wave R1 The google wace (2) The google wave (42205) have wave R1 The google have (202) The google wave (42205)

9 結果 3.9万ペア (原型: タイポのペア) 評価: 正しいタイポが定義不能のため困難
百聞<一見→

10 本研究 はじめに 課題1: タイポの収集 課題2: タイポの分析 タイポとはどんな特徴を持っているか? 実験 おわりに

11 各操作別の タイポされた文字 何がバイアスになっているか? iの挿入が多い しかし a と i の置換は少ない a の脱落が多い IN RM
挿入 削除 順入替 置換 i / = a / = e/h a:e 954 d / = o / = e/m m:s 392 a / = e / = a/h m:n 310 y / = i / = h/t y:t 280 e / = l / = i/e z:s 278 t / = h / = o/t t:e 265 n / = n / = g/n q:g 238 o / = t / = s/u r:e 218 iの挿入が多い しかし a と i の置換は少ない imbalanced a の脱落が多い 何がバイアスになっているか?

12 置換は同じ右手/左手の指の間で起こりやすい
要因1: 指とタイポの関係 文字順の入れ替えは 右手と左手の間で起こりやすい 置換は同じ右手/左手の指の間で起こりやすい

13 要因1: 指とタイポの関係 各指で起こるタイポ操作が異なる

14 要因2: 視覚的要因 形がよく似た文字は置換されやすい!? 画像類似度 類似度した文字

15 要因3: 単語内の位置 真ん中と後末にタイポが起きやすい 頻度 語末になりやすい文字 単語内の相対位置

16 要因4: Doubling 要因4: 音韻 p_a_p_e_r_w_e_i_g_h_t p_eI_p_@_ _w_e_I_ _ _t
More info 要因4: Doubling 要因4: 音韻 p_a_p_e_r_w_e_i_g_h_t _w_e_I_ _ _t CELEX2 DATABASE aligned by GIZA++ RMされた文字の発音

17 タイポを起こす要因とタイポモデル 何が主要な要因なのだろう? 要因1:打鍵ミス 要因5:音韻 要因4: doubling 要因2:画像類似度
Cognitive Error Type Error 要因5:音韻 [Kukich1992] 何が主要な要因なのだろう? 要因4: doubling 要因2:画像類似度 要因3:単語内位置 Check Failure 要因5:音韻 タイポ

18 本研究 はじめに 課題1: タイポの収集 課題2: タイポの分析 実験 おわりに タイポをタイポらしくしているのは何か?
=タイポと擬似タイポを識別 → 識別に貢献ものは何か? おわりに

19 実験設定 目的 : タイポらしさはどの要因からくるのか調べる データ (自動抽出結果と擬似負例)
正例 自動抽出した原型:タイポのペア Twitter:Twiter 負例 正例の原型をランダムに編集 Twitter:Zwitter 手法: SVMで要因1-5をfeatureとして表現 要因1 要因3 Twitter:Twiter F4-RM L-RM 4of7 Twitter:Zwitter F4-F1-R2 L-R2 1of7

20 実験結果 (1) どの要因を削除しても精度が下がる → どの要因も少なくともタイポの一部を説明 (2) 特に が重要 単語内位置

21 ≒ 単語認知の研究との不整合 単語中央の 情報量が少ない 単語の中央/末尾に タイポが多い 単語中央付近の間違いに気づかない
単語に内在する情報量の偏在 [田中, 2008] 単語中央の 情報量が少ない 単語の中央/末尾に タイポが多い 単語中央付近の間違いに気づかない

22 = 仮説「逐次的に単語認知を行う」 i n v i i n v i t e No-look typing check
B E B E =

23 本研究 はじめに 課題1: タイポの収集 課題2: タイポの分析 実験 おわりに

24 まとめ 人はなぜ打ち間違うか? 神のみぞ知る 人はどのように打ち間違うか... 本研究により定量的に調査可能 →数学的モデル化
→認知研究との関連 「逐次的単語認知」の検討 →人間と同じように打ち間違えるプログラム see TYPO Writer

25 発音しない文字 中央付近


Download ppt "TYPO Writer ヒトはどのように打ち間違えるのか?"

Similar presentations


Ads by Google