TYPO Writer ヒトはどのように打ち間違えるのか?

Slides:



Advertisements
Similar presentations
嗜好ベクトルの近似による サービス享受条件の自動設定 立命館大学大学院 理工学研究科 データ工学研究室 ◎川成宗剛,山原裕之, 原田史子, 島川博光 2007 年 9 月 6 日.
Advertisements

音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
システム開発におけるユーザ要求の 明示的表現に関する一検討
Microsoft Office クイックガイド ~Excel 2013~
PowerPointによるスライドの作成 文教 花子
PLの実験内容(2002~2003) He-Ne 一様励起のみ 魚の地図を作成 Ti-Sa 魚、船、原子的平面の温度依存性 (4K-60K)
認知科学ワークショップ 第2回 記憶(1).
「ダブルリミテッド/ 一時的セミリンガル現象を考える」 母語・継承語・バイリンガル教育研究会 第6回研究集会 国際医療福祉大学言語聴覚学科
第13回 情報操作とやらせ 野原仁(地域科学部)
Microsoft PowerPointを使ってみよう
執筆者:市川伸一 授業者:寺尾 敦 atsushi [at] si.aoyama.ac.jp
分布の非正規性を利用した行動遺伝モデル開発
実験 関数・記号付き文型パターンを用いた機械翻訳の試作と評価 石上真理子 水田理夫 徳久雅人 村上仁一 池原悟 (鳥取大) ◎評価方法1
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
テキストマイニング, データマイニングと 社会活動のトレース
時空間データからのオブジェクトベース知識発見
社会心理学のStudy -集団を媒介とする適応- (仮)
4Y-4 印象に残りやすい日本語パスワードの合成法
状況の制約を用いることにより認識誤りを改善 同時に野球実況中継の構造化
テキストの類似度計算
日本大学 文理学部 情報システム解析学科 谷研究室 益田真太郎
大阪教育大学大学院教育学研究科 総合基礎科学専攻 中窪 仁
自動車レビューにおける検索と分析 H208032 松岡 智也 H208060 中西 潤 H208082 松井泰介.
大規模時系列ウェブコーパスを用いた 新造語の盛衰のダイナミズムの分析
情報処理1~第12回~ 野中良哲.
シミュレーション論 Ⅱ 第15回 まとめ.
複数の言語情報を用いたCRFによる音声認識誤りの検出
DNSトラフィックに着目したボット検出手法の検討
画像ピボットパラフレーズ抽出に向けて 大阪大学 NAIST Chenhui Chu,1 大谷 まゆ,2 中島 悠太1
コードクローンに含まれるメソッド呼び出しの 変更度合の分析
コードクローンに含まれるメソッド呼び出しの 変更度合の調査
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
視点移動カメラにおけるカメラキャリブレーション
卒論の書き方: 参考文献について 2017年9月27日 小尻智子.
雑音環境下における 非負値行列因子分解を用いた声質変換
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
リファクタリング支援のための コードクローンに含まれる識別子の対応関係分析
数量分析 第2回 データ解析技法とソフトウェア
2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典.
東京工科大学 コンピュータサイエンス学部 亀田弘之
分子生物情報学(2) 配列のマルチプルアライメント法
A03 音声インターフェイスによる インスタントメッセージング エージェントの開発
テキストマイニング, データマイニングと 社会活動のトレース
Nightmare at Test Time: Robust Learning by Feature Deletion
Number of random matrices
シミュレーション論Ⅰ 第14回 シミュレーションの分析と検討.
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
データマイニングって何だろう? 新美研究室 m 大都宣弥.
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
AdaBoostを用いた システムへの問い合わせと雑談の判別
ブースティングとキーワードフィルタリング によるシステム要求検出
設計情報の再利用を目的とした UML図の自動推薦ツール
発表32 レポート評価支援について (剽窃部分と指導箇所の検出)
配偶者選択による グッピー(Poecilia reticulata)の カラーパターンの進化 :野外集団を用いた研究
A-17 検索履歴のプライバシーを秘匿した ユーザクラスタリング
PowerPointによるスライドの作成 文教 花子
音響伝達特性モデルを用いた シングルチャネル音源位置推定の検討 2-P-34 高島遼一,住田雄司,滝口哲也,有木康雄 (神戸大) 研究の背景
第5回音声ドキュメント処理ワークショップ (2011/3/7)
データ中心システム設計方法論“DATARUN” 
欠陥検出を目的とした類似コード検索法 吉田則裕,石尾隆,松下誠,井上克郎 大阪大学 大学院情報科学研究科
わかりやすいパターン認識 第6章 特徴空間の変換 6.5 KL展開の適用法 〔1〕 KL展開と線形判別法 〔2〕 KL展開と学習パターン数
Webページタイプによるクラスタ リングを用いた検索支援システム
1-Q-12 Buried Markov Modelを用いた構音障害者の音声認識の検討
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
グラフ-ベクトル変換を用いたグラフ構造表現による一般物体認識
Normalized Web Distanceを用いた音声認識の誤り訂正法 301-4in
プログラム依存グラフを用いた ソースコードのパターン違反検出法
Presentation transcript:

TYPO Writer ヒトはどのように打ち間違えるのか? 荒牧英治 東大 宇野良子 農工大 岡瑞起 東大

まだ間違いに気が付いていないのか?

TYPOが致命的な場合も 日本看護協会の告知[Dec2008]より

TYPOの特徴 従来のコーパス(新聞や論文)ではまれ BUT: 例外的現象ではない 記述者は気づきにくい→ 人間ならだれしも行う 平均3%の割合で打鍵ミス エキスパートでも0.9% [Grudin1983] チャットやマイクロブログ カルテ文章=ungrammatical fragmented [Sibanda 2005] 記述者は気づきにくい→ Sibanda いったいヒトはなぜタイポをするのか?

本研究の2つの課題 いったいなぜ/どのようにタイポするのか 主課題:タイポの分析 BUT: 従来のコーパス(新聞,論文 etc) においてタイポはまれ 副課題:タイポの収集

本研究 はじめに 課題1: タイポの収集 どうやって自動的に大量のタイポをあつめるか? 課題2: タイポの分析 実験 おわりに

タイポの出現頻度は原型に比べて著しく低い (本研究における)タイポとは 仮定1 タイポの出現頻度は原型に比べて著しく低い → |SOTP| : |STOP| < 1:50 仮定2 タイポと原型のスペリング/コンテキストは類似している → sim (please sotp it, please stop it) > TH. 仮定3 タイポは辞書に収載されていない → (form ⇔from) は対象外.

手法 材料: (2008年クロール; 500MB) STEP1: 3grmに分解→頻度集計 仮定はインプリしやすい 手法 材料: (2008年クロール; 500MB) STEP1: 3grmに分解→頻度集計 SPTE2: 頻度差30倍の類似した3grmペア抽出 仮定1 仮定2 仮定3 N-gram (Freq) N-gram (Freq) TYPO ORG TYPE wace wave R1 The google wace (2) The google wave (42205) have wave R1 The google have (202) The google wave (42205)

結果 3.9万ペア (原型: タイポのペア) 評価: 正しいタイポが定義不能のため困難 百聞<一見→ http://luululu.com/tweet/

本研究 はじめに 課題1: タイポの収集 課題2: タイポの分析 タイポとはどんな特徴を持っているか? 実験 おわりに

各操作別の タイポされた文字 何がバイアスになっているか? iの挿入が多い しかし a と i の置換は少ない a の脱落が多い IN RM 挿入 削除 順入替 置換 i 1420 / 40412 = 0.0351 a 1673 / 34515 = 0.0484 e/h 242 a:e 954 d 981 / 13567 = 0.0723 o 1671 / 46884 = 0.0356 e/m 129 m:s 392 a 850 / 34515 = 0.0246 e 1004 / 50418 = 0.0199 a/h 107 m:n 310 y 760 / 50418 = 0.0150 i 742 / 40412 = 0.0183 h/t 78 y:t 280 e 741 / 50418 = 0.0146 l 661 / 19796 = 0.0333 i/e 70 z:s 278 t 735 / 44495 = 0.0165 h 653 / 28020 = 0.0233 o/t 63 t:e 265 n 684 / 33891 = 0.0201 n 499 / 33891 = 0.0147 g/n 63 q:g 238 o 609 / 46884 = 0.0129 t 394 / 44495 = 0.0088 s/u 60 r:e 218 iの挿入が多い しかし a と i の置換は少ない imbalanced a の脱落が多い 何がバイアスになっているか?

置換は同じ右手/左手の指の間で起こりやすい 要因1: 指とタイポの関係 文字順の入れ替えは 右手と左手の間で起こりやすい 置換は同じ右手/左手の指の間で起こりやすい

要因1: 指とタイポの関係 各指で起こるタイポ操作が異なる

要因2: 視覚的要因 形がよく似た文字は置換されやすい!? 画像類似度 類似度した文字

要因3: 単語内の位置 真ん中と後末にタイポが起きやすい 頻度 語末になりやすい文字 単語内の相対位置

要因4: Doubling 要因4: 音韻 p_a_p_e_r_w_e_i_g_h_t p_eI_p_@_ _w_e_I_ _ _t More info 要因4: Doubling 要因4: 音韻 p_a_p_e_r_w_e_i_g_h_t p_eI_p_@_ _w_e_I_ _ _t CELEX2 DATABASE aligned by GIZA++ RMされた文字の発音

タイポを起こす要因とタイポモデル 何が主要な要因なのだろう? 要因1:打鍵ミス 要因5:音韻 要因4: doubling 要因2:画像類似度 Cognitive Error Type Error 要因5:音韻 [Kukich1992] 何が主要な要因なのだろう? 要因4: doubling 要因2:画像類似度 要因3:単語内位置 Check Failure 要因5:音韻 タイポ

本研究 はじめに 課題1: タイポの収集 課題2: タイポの分析 実験 おわりに タイポをタイポらしくしているのは何か? =タイポと擬似タイポを識別 → 識別に貢献ものは何か? おわりに

実験設定 目的 : タイポらしさはどの要因からくるのか調べる データ (自動抽出結果と擬似負例) 正例 自動抽出した原型:タイポのペア Twitter:Twiter 負例 正例の原型をランダムに編集 Twitter:Zwitter 手法: SVMで要因1-5をfeatureとして表現 要因1 要因3 Twitter:Twiter F4-RM L-RM 4of7 Twitter:Zwitter F4-F1-R2 L-R2 1of7

実験結果 (1) どの要因を削除しても精度が下がる → どの要因も少なくともタイポの一部を説明 (2) 特に が重要 単語内位置

≒ 単語認知の研究との不整合 単語中央の 情報量が少ない 単語の中央/末尾に タイポが多い 単語中央付近の間違いに気づかない 単語に内在する情報量の偏在 [田中, 2008] 単語中央の 情報量が少ない 単語の中央/末尾に タイポが多い ≒ 単語中央付近の間違いに気づかない

= 仮説「逐次的に単語認知を行う」 i n v i i n v i t e No-look typing check B E B E =

本研究 はじめに 課題1: タイポの収集 課題2: タイポの分析 実験 おわりに

まとめ 人はなぜ打ち間違うか? 神のみぞ知る 人はどのように打ち間違うか... 本研究により定量的に調査可能 →数学的モデル化 →認知研究との関連 「逐次的単語認知」の検討 →人間と同じように打ち間違えるプログラム see TYPO Writer http://luululu.com/research/pm3/index.html

発音しない文字 中央付近