4Y-4 印象に残りやすい日本語パスワードの合成法 †佐藤智貴 †長谷川真也 ‡鴨志田芳典 ‡菊池浩明 †東海大学情報理工学部情報メディア学科 ‡東海大学大学院工学研究科情報理工学専攻
はじめに 現状でのパスワードの問題点 英数字の文字数は62文字 安全性を向上させるには,文字数を増やし無意味で複雑にする必要性 O9amX9eJ iOZF4H2L tz2nHVoj
日本語パスワード 日本語を用いたパスワード 2000文字以上(ひらがな+カタカナ+漢字) 日本人にとって覚えやすい チーズ資源 プライバシー祭り 容疑アイドル
関連研究 西坂 他 2010 “携帯電話を対象としたPIN認証向け日本語パスワードの提案”[1]. ランダムに生成されたPINを日本語に変換 ユーザは日本語パスワードを入力 日本語パスワードをPINに変換して認証 T9数字列(PIN) 日本語パスワード 1239 アクセル 問題点:機械的に生成されるので必ずしも 覚えやすいわけではない
研究の目的 印象に残りやすい 日本語パスワードの生成 印象に残りやすさをどう定義するか? 失敗 自然な日本語の組み合わせ 不自然な日本語の組み合わせ
定義したもの 不整合性C 印象に残りやすさを数式によって定義 印象度I 印象のアンケートによる主観評価 精度A 覚えやすさの実験
パスワードに使用する単語 Google n-gram 1gram 上位10,000語 Google n-gramとは よく使われている単語 覚えにくい単語が少ない Google n-gramとは Webから文を抽出(約200億文) 形態素解析 単語の頻度
提案手法 2つの単語の合成語のweb上での出現頻度 仮定:相殺効果を生じ,極端に頻度を下げる ような2語は印象に残りやすい 合成語 検索数 仮定:相殺効果を生じ,極端に頻度を下げる ような2語は印象に残りやすい 単語1 検索数 革命 3970万 単語2 検索数 ばあちゃん 650万 合成語 検索数 革命ばあちゃん 1
不整合性C 不整合性C 単語1の検索件数をW₁ 単語2の検索件数をW₂ 合成語 “単語1+単語2”の検索件数をS
計算例 革命ばあちゃん W₁:39,700,000 W₂:6,500,000 S:1
合成語 パスワード W₁ W₂ S C プライバシー / 祭り 1.4×108 2 0.77 革命 / ばあちゃん 4.0×108 6.5×108 1 0.74 コーン / 公 1.0×108 1.2×108 5 0.73 よく / 情報 1.7×108 6.9×108 8.6×104 0.40 ひたすら / 書き込み 3.7×108 6.6×103 0.39 やっぱり / おかしい 1.9×108 2.9×106 0.25
印象度Iの実験 印象の主観評価 対象:18人 評価方法 16個のパスワード 印象度の強さを5段階で評価 評価の偏りが出ないよう正規化 1:印象に残りにくい 5:印象に残りやすい 評価の偏りが出ないよう正規化
印象度Iの例 2 2.3 1 合成語 … I プライバシー祭り 5 4 1.77 よく情報 3 1 -0.67 次第にくれる 2 -1.6 被験者1 被験者2 被験者3 … I プライバシー祭り 5 4 1.77 よく情報 3 1 -0.67 次第にくれる 2 -1.6 被験者jの平均 2.7
印象度Iの実験結果 No パスワード 印象度(I) 1 プライバシー祭り 2.05 2 半角コミュニケーション 1.83 3 革命ばあちゃん 4 市町村売り切れ 1.00 5 やっぱりおかしい -0.39 6 ちゃんと写真 -0.56 7 よく情報 -1.00 8 次第にくれる -1.11
精度Aの実験 対象:16人(1人に4つのパスワード) 期間:3日間 評価 指定されたパスワードを覚えてもらう 3日後に覚えているかテスト 最高点3点, 3回まで入力可 間違えるごとに1ずつ減点
精度Aの実験結果 パスワード 精度A シルバー悲劇 3 100% 革命ばあちゃん プライバシー祭り 1 83.3% コーン公 75.0% 被験者1 被験者2 被験者3 被験者4 精度A シルバー悲劇 3 100% 革命ばあちゃん プライバシー祭り 1 83.3% コーン公 75.0% やっぱり戦う 2 66.7% ひたすら書き込み 50.0% 次第にくれる 41.7% 初めて思い
実験結果1:不整合性Cと印象度Iの関係 プライバシー祭り Cの値が大きいほど印象度Iが高い 相関係数:0.617 初めて思い
実験結果2:印象度Iと精度Aの関係 印象度Iが高いと精度Aも高い 相関係数:0.733
実験結果3:不整合性Cと精度Aの関係 Cの値が大きいほど精度Aが高い よろしくちゃん 相関係数:0.431 初めて思い
考察 よろしくちゃん 初めて思い とあるお笑い芸人が使用 被験者がそれを覚えていた? 「初めて」 , 「始めて」 , 「はじめて」 よろしくちゃん! よろしくちゃん とあるお笑い芸人が使用 被験者がそれを覚えていた? 初めて思い 「初めて」 , 「始めて」 , 「はじめて」 良く使われる変換候補が多い
まとめ 今後の課題 不整合性Cにより,印象に残りやすい 日本語パスワードを定義し,実験により本方式が有効であることを証明した. グラフ C-I I-A C-A 相関係数 0.617 0.733 0.431 今後の課題 変換ミスや覚え間違いを減らす パスワードの強度の実験
補足ページ 要素技術
補足:Google N-gramとは? N-gram 検索対象を文字単位で分解し、後続の N-1 文字を含めた状態で出現頻度を求める方法 N=1:「ユニグラム(uni-gram)」 N=2:「バイグラム(bi-gram)」 N=3:「トライグラム(tri-gram)」 ←本実験で使用
補足:MeCab MeCab オープンソースの形態素解析エンジン 開発者:工藤拓( Googleソフトウェアエンジニア)
補足:N-gramの例 「菊池研究室」 「菊池」、「池研」、「研究」、「究室」、「室(終端)」 Google N-gramは同様の作業をGoogle全体 の文章に行いリストにしたもの
補足:形態素解析 計算機を用いた自然言語処理の基礎技術 用いる情報 文法の知識や辞書 作業 文を形態素の列に分割 それぞれの品詞を判別
補足:相関係数 二つの確率変数の間の相関を示す 1に近いほど相関が高い
不整合性Cの式 なぜlogを取ったか 試行錯誤の末 単語によって,出現頻度の桁数の違いが出る 分子分母の差をlogスケールで定量化