TYPO Writer ヒトはどのように打ち間違えるのか? 荒牧英治 東大 宇野良子 農工大 岡瑞起 東大
まだ間違いに気が付いていないのか?
TYPOが致命的な場合も 日本看護協会の告知[Dec2008]より
TYPOの特徴 従来のコーパス(新聞や論文)ではまれ BUT: 例外的現象ではない 記述者は気づきにくい→ 人間ならだれしも行う 平均3%の割合で打鍵ミス エキスパートでも0.9% [Grudin1983] チャットやマイクロブログ カルテ文章=ungrammatical fragmented [Sibanda 2005] 記述者は気づきにくい→ Sibanda いったいヒトはなぜタイポをするのか?
本研究の2つの課題 いったいなぜ/どのようにタイポするのか 主課題:タイポの分析 BUT: 従来のコーパス(新聞,論文 etc) においてタイポはまれ 副課題:タイポの収集
本研究 はじめに 課題1: タイポの収集 どうやって自動的に大量のタイポをあつめるか? 課題2: タイポの分析 実験 おわりに
タイポの出現頻度は原型に比べて著しく低い (本研究における)タイポとは 仮定1 タイポの出現頻度は原型に比べて著しく低い → |SOTP| : |STOP| < 1:50 仮定2 タイポと原型のスペリング/コンテキストは類似している → sim (please sotp it, please stop it) > TH. 仮定3 タイポは辞書に収載されていない → (form ⇔from) は対象外.
手法 材料: (2008年クロール; 500MB) STEP1: 3grmに分解→頻度集計 仮定はインプリしやすい 手法 材料: (2008年クロール; 500MB) STEP1: 3grmに分解→頻度集計 SPTE2: 頻度差30倍の類似した3grmペア抽出 仮定1 仮定2 仮定3 N-gram (Freq) N-gram (Freq) TYPO ORG TYPE wace wave R1 The google wace (2) The google wave (42205) have wave R1 The google have (202) The google wave (42205)
結果 3.9万ペア (原型: タイポのペア) 評価: 正しいタイポが定義不能のため困難 百聞<一見→ http://luululu.com/tweet/
本研究 はじめに 課題1: タイポの収集 課題2: タイポの分析 タイポとはどんな特徴を持っているか? 実験 おわりに
各操作別の タイポされた文字 何がバイアスになっているか? iの挿入が多い しかし a と i の置換は少ない a の脱落が多い IN RM 挿入 削除 順入替 置換 i 1420 / 40412 = 0.0351 a 1673 / 34515 = 0.0484 e/h 242 a:e 954 d 981 / 13567 = 0.0723 o 1671 / 46884 = 0.0356 e/m 129 m:s 392 a 850 / 34515 = 0.0246 e 1004 / 50418 = 0.0199 a/h 107 m:n 310 y 760 / 50418 = 0.0150 i 742 / 40412 = 0.0183 h/t 78 y:t 280 e 741 / 50418 = 0.0146 l 661 / 19796 = 0.0333 i/e 70 z:s 278 t 735 / 44495 = 0.0165 h 653 / 28020 = 0.0233 o/t 63 t:e 265 n 684 / 33891 = 0.0201 n 499 / 33891 = 0.0147 g/n 63 q:g 238 o 609 / 46884 = 0.0129 t 394 / 44495 = 0.0088 s/u 60 r:e 218 iの挿入が多い しかし a と i の置換は少ない imbalanced a の脱落が多い 何がバイアスになっているか?
置換は同じ右手/左手の指の間で起こりやすい 要因1: 指とタイポの関係 文字順の入れ替えは 右手と左手の間で起こりやすい 置換は同じ右手/左手の指の間で起こりやすい
要因1: 指とタイポの関係 各指で起こるタイポ操作が異なる
要因2: 視覚的要因 形がよく似た文字は置換されやすい!? 画像類似度 類似度した文字
要因3: 単語内の位置 真ん中と後末にタイポが起きやすい 頻度 語末になりやすい文字 単語内の相対位置
要因4: Doubling 要因4: 音韻 p_a_p_e_r_w_e_i_g_h_t p_eI_p_@_ _w_e_I_ _ _t More info 要因4: Doubling 要因4: 音韻 p_a_p_e_r_w_e_i_g_h_t p_eI_p_@_ _w_e_I_ _ _t CELEX2 DATABASE aligned by GIZA++ RMされた文字の発音
タイポを起こす要因とタイポモデル 何が主要な要因なのだろう? 要因1:打鍵ミス 要因5:音韻 要因4: doubling 要因2:画像類似度 Cognitive Error Type Error 要因5:音韻 [Kukich1992] 何が主要な要因なのだろう? 要因4: doubling 要因2:画像類似度 要因3:単語内位置 Check Failure 要因5:音韻 タイポ
本研究 はじめに 課題1: タイポの収集 課題2: タイポの分析 実験 おわりに タイポをタイポらしくしているのは何か? =タイポと擬似タイポを識別 → 識別に貢献ものは何か? おわりに
実験設定 目的 : タイポらしさはどの要因からくるのか調べる データ (自動抽出結果と擬似負例) 正例 自動抽出した原型:タイポのペア Twitter:Twiter 負例 正例の原型をランダムに編集 Twitter:Zwitter 手法: SVMで要因1-5をfeatureとして表現 要因1 要因3 Twitter:Twiter F4-RM L-RM 4of7 Twitter:Zwitter F4-F1-R2 L-R2 1of7
実験結果 (1) どの要因を削除しても精度が下がる → どの要因も少なくともタイポの一部を説明 (2) 特に が重要 単語内位置
≒ 単語認知の研究との不整合 単語中央の 情報量が少ない 単語の中央/末尾に タイポが多い 単語中央付近の間違いに気づかない 単語に内在する情報量の偏在 [田中, 2008] 単語中央の 情報量が少ない 単語の中央/末尾に タイポが多い ≒ 単語中央付近の間違いに気づかない
= 仮説「逐次的に単語認知を行う」 i n v i i n v i t e No-look typing check B E B E =
本研究 はじめに 課題1: タイポの収集 課題2: タイポの分析 実験 おわりに
まとめ 人はなぜ打ち間違うか? 神のみぞ知る 人はどのように打ち間違うか... 本研究により定量的に調査可能 →数学的モデル化 →認知研究との関連 「逐次的単語認知」の検討 →人間と同じように打ち間違えるプログラム see TYPO Writer http://luululu.com/research/pm3/index.html
発音しない文字 中央付近