4Y-4 印象に残りやすい日本語パスワードの合成法

Slides:



Advertisements
Similar presentations
画像処理・実習 第十四回:パターン認識 東海大学 情報理工学部 情報メディア学科 濱本和彦. 今回の内容 5. パターン認識 5.1 マッチングの原理 5.2 テンプレートマッチング 実習 相互相関とテンプレートマッチング.
Advertisements

電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
音声翻訳における機械翻訳・音声合成の 性能評価および分析 ☆橋本佳 ,山岸順一 , William Byrne , Simon King ,徳田恵一 名工大 University of Edinburgh Cambridge University
復習 配列変数の要素 5は配列の要素数 これらの変数をそれぞれ配列の要素と呼ぶ この数字を配列の添え字,またはインデックスと呼ぶ
復習 配列変数の要素 5は配列の要素数 これらの変数をそれぞれ配列の要素と呼ぶ この数字を配列の添え字,またはインデックスと呼ぶ
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
ユーザーイメージ収集 インターフェイスの開発
電子透かしにおける マスキング効果の主観評価
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
最大エントロピーモデルに基づく形態素解析と辞書による影響
ヘルスケア連動型 市販薬検索システム 研究者 : 加納 えり 指導教員 : 越田 高志.
形態素周辺確率を用いた 分かち書きの一般化とその応用
作成支援ツール“TTEdit”を用いた フォントの自作 -Webデザインコンテスト参加作品(2007)-
国内線で新千歳空港を利用している航空会社はどこですか?
情報処理基礎 2006年 6月 1日.
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
情報学類 吉田光男 アドバイザー教官: 山本幹雄 先生
相関係数 植物生態学研究室木村 一也.
情報爆発A01支援班 マイサーチエンジン開発環境支援グループ 中村聡史, 大島裕明, 田中克己, 喜連川優
コードの歴史 ASCII(American Standard Code for Information Interchange)  ANSI ISO 646 = 95文字のラテン文字 アルファベット+数字+特殊文字 制御コード: LF, CR などの表示制御と   ACK,DEL などの通信制御 、など.
「データ学習アルゴリズム」 第3章 複雑な学習モデル 3.1 関数近似モデル ….. … 3層パーセプトロン
テキストマイニング, データマイニングと 社会活動のトレース
検索エンジンに関して The Anatomy of a Large-Scale Hypertextual Web Search Engine
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
コンピュータセキュリティ S07a1054 中津 拓.
研究室入退室システムの評価 学校に来なくても卒論は進むのか?
岩手県立大学 ソフトウェア情報学部 澤本研究室 佐々木拓也
卒業論文 最終発表 WWW情報検索 ナビゲーションシステムの設計と実装
PSOLA法を用いた極低ビットレート音声符号化に関する検討
シミュレーション物理7 乱数.
2008年度 情報数理 ~ QRコードを作ろう!(1) ~.
形態素解析および係り受け解析・主語を判別
近畿大学理工学部情報学科3年 自然言語処理研究室 小野 実
秘匿積集合プロトコルを利用した プライバシ協調フィルタリングの提案
自動車レビューにおける検索と分析 H208032 松岡 智也 H208060 中西 潤 H208082 松井泰介.
TYPO Writer ヒトはどのように打ち間違えるのか?
I-Scoverチャレンジ2013 ~I-Scoverでできる こんなこと、あんなこと~ データ分析/可視化カテゴリ 論文キーワードの特徴分析 ~どんなキーワードを付けているのか~ GOMI Hiroshi.
メソッド名とその周辺の識別子の 相関ルールに基づくメソッド名変更支援手法
2010年度 情報数理 ~ QRコードを作ろう!(1) ~.
平成22年6月15日 図書系職員のための アプリケーション開発講習会
情報管理論 2018/11/9 情報分析の道具 2018/11/9 情報分析の道具 情報分析の道具.
自然言語処理及び実習 第11回 形態素解析.
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
ChaIME: 大規模コーパスを 用いた統計的仮名漢字変換
環境リスクマネジメントに関する 検索システム
情報工学科 05A2301 樽美 澄香 (Tarumi Sumika)
2018/9/10 ACL読み会 名古屋大学大学院 M2 佐藤・松崎研 土居裕典.
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
信頼性設計法を用いた構造物の 崩壊確率の計算
テキストマイニング, データマイニングと 社会活動のトレース
部分的最小二乗回帰 Partial Least Squares Regression PLS
東京工科大学 コンピュータサイエンス学部 亀田弘之
「アルゴリズムとプログラム」 結果を統計的に正しく判断 三学期 第7回 袖高の生徒ってどうよ調査(3)
最尤推定・最尤法 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
東邦大学理学部情報科学科 白柳研究室 五味渕真也
構造的類似性を持つ半構造化文書における頻度分析
設計情報の再利用を目的とした UML図の自動推薦ツール
保守請負時を対象とした 労力見積のためのメトリクスの提案
データ解析 静岡大学工学部 安藤和敏
欅田 雄輝 S 北陸先端科学技術大学院大学 知識科学研究科
最小二乗法による線形重回帰分析 明治大学 理工学部 応用化学科 データ化学工学研究室 金子 弘昌.
ソフトウェア理解支援を目的とした 辞書の作成法
ネット時代のセキュリティ3(暗号化) 2SK 情報機器工学.
シソーラス情報を用いた童話文章登場人物の 感情情報読み取りシステム
Webページタイプによるクラスタ リングを用いた検索支援システム
コンパイラ 2012年10月11日
形態素解析と構文解析 金子邦彦.
mi-8. 自然言語処理 人工知能を演習で学ぶシリーズ(8)
オブジェクト指向言語論 第六回 知能情報学部 新田直也.
Presentation transcript:

4Y-4 印象に残りやすい日本語パスワードの合成法 †佐藤智貴 †長谷川真也 ‡鴨志田芳典 ‡菊池浩明 †東海大学情報理工学部情報メディア学科 ‡東海大学大学院工学研究科情報理工学専攻

はじめに 現状でのパスワードの問題点 英数字の文字数は62文字 安全性を向上させるには,文字数を増やし無意味で複雑にする必要性 O9amX9eJ iOZF4H2L  tz2nHVoj

日本語パスワード 日本語を用いたパスワード 2000文字以上(ひらがな+カタカナ+漢字) 日本人にとって覚えやすい チーズ資源 プライバシー祭り 容疑アイドル

関連研究 西坂 他 2010 “携帯電話を対象としたPIN認証向け日本語パスワードの提案”[1]. ランダムに生成されたPINを日本語に変換 ユーザは日本語パスワードを入力 日本語パスワードをPINに変換して認証 T9数字列(PIN) 日本語パスワード 1239 アクセル 問題点:機械的に生成されるので必ずしも                                             覚えやすいわけではない

研究の目的 印象に残りやすい 日本語パスワードの生成 印象に残りやすさをどう定義するか? 失敗 自然な日本語の組み合わせ 不自然な日本語の組み合わせ

定義したもの 不整合性C 印象に残りやすさを数式によって定義 印象度I 印象のアンケートによる主観評価 精度A 覚えやすさの実験

パスワードに使用する単語 Google n-gram 1gram 上位10,000語 Google n-gramとは よく使われている単語 覚えにくい単語が少ない Google n-gramとは Webから文を抽出(約200億文) 形態素解析 単語の頻度

提案手法 2つの単語の合成語のweb上での出現頻度 仮定:相殺効果を生じ,極端に頻度を下げる ような2語は印象に残りやすい 合成語 検索数 仮定:相殺効果を生じ,極端に頻度を下げる   ような2語は印象に残りやすい 単語1 検索数 革命 3970万 単語2 検索数 ばあちゃん 650万 合成語 検索数 革命ばあちゃん 1

不整合性C 不整合性C 単語1の検索件数をW₁ 単語2の検索件数をW₂ 合成語 “単語1+単語2”の検索件数をS

計算例 革命ばあちゃん W₁:39,700,000 W₂:6,500,000 S:1

合成語 パスワード W₁ W₂ S C プライバシー / 祭り 1.4×108 2 0.77 革命 / ばあちゃん 4.0×108 6.5×108 1 0.74 コーン / 公 1.0×108 1.2×108 5 0.73 よく / 情報 1.7×108 6.9×108 8.6×104 0.40 ひたすら / 書き込み 3.7×108 6.6×103 0.39 やっぱり / おかしい 1.9×108 2.9×106 0.25

印象度Iの実験 印象の主観評価 対象:18人 評価方法 16個のパスワード 印象度の強さを5段階で評価 評価の偏りが出ないよう正規化 1:印象に残りにくい 5:印象に残りやすい 評価の偏りが出ないよう正規化

印象度Iの例 2 2.3 1 合成語 … I プライバシー祭り 5 4 1.77 よく情報 3 1 -0.67 次第にくれる 2 -1.6 被験者1 被験者2 被験者3 … I プライバシー祭り 5 4 1.77 よく情報 3 1 -0.67 次第にくれる 2 -1.6 被験者jの平均 2.7

印象度Iの実験結果 No パスワード 印象度(I) 1 プライバシー祭り 2.05 2 半角コミュニケーション 1.83 3 革命ばあちゃん 4 市町村売り切れ 1.00 5 やっぱりおかしい -0.39 6 ちゃんと写真 -0.56 7 よく情報 -1.00 8 次第にくれる -1.11

精度Aの実験 対象:16人(1人に4つのパスワード) 期間:3日間 評価 指定されたパスワードを覚えてもらう 3日後に覚えているかテスト 最高点3点, 3回まで入力可 間違えるごとに1ずつ減点

精度Aの実験結果 パスワード 精度A シルバー悲劇 3 100% 革命ばあちゃん プライバシー祭り 1 83.3% コーン公 75.0% 被験者1 被験者2 被験者3 被験者4 精度A シルバー悲劇 3 100% 革命ばあちゃん プライバシー祭り 1 83.3% コーン公 75.0% やっぱり戦う 2 66.7% ひたすら書き込み 50.0% 次第にくれる 41.7% 初めて思い

実験結果1:不整合性Cと印象度Iの関係 プライバシー祭り Cの値が大きいほど印象度Iが高い 相関係数:0.617 初めて思い

実験結果2:印象度Iと精度Aの関係 印象度Iが高いと精度Aも高い 相関係数:0.733

実験結果3:不整合性Cと精度Aの関係 Cの値が大きいほど精度Aが高い よろしくちゃん 相関係数:0.431 初めて思い

考察 よろしくちゃん 初めて思い とあるお笑い芸人が使用 被験者がそれを覚えていた? 「初めて」 , 「始めて」 , 「はじめて」 よろしくちゃん! よろしくちゃん とあるお笑い芸人が使用 被験者がそれを覚えていた? 初めて思い 「初めて」 , 「始めて」 , 「はじめて」 良く使われる変換候補が多い

まとめ 今後の課題 不整合性Cにより,印象に残りやすい 日本語パスワードを定義し,実験により本方式が有効であることを証明した. グラフ C-I I-A C-A 相関係数 0.617 0.733 0.431 今後の課題 変換ミスや覚え間違いを減らす パスワードの強度の実験

補足ページ 要素技術

補足:Google N-gramとは? N-gram 検索対象を文字単位で分解し、後続の N-1 文字を含めた状態で出現頻度を求める方法 N=1:「ユニグラム(uni-gram)」  N=2:「バイグラム(bi-gram)」 N=3:「トライグラム(tri-gram)」 ←本実験で使用

補足:MeCab MeCab オープンソースの形態素解析エンジン 開発者:工藤拓( Googleソフトウェアエンジニア)

補足:N-gramの例 「菊池研究室」 「菊池」、「池研」、「研究」、「究室」、「室(終端)」 Google N-gramは同様の作業をGoogle全体 の文章に行いリストにしたもの

補足:形態素解析 計算機を用いた自然言語処理の基礎技術 用いる情報 文法の知識や辞書 作業 文を形態素の列に分割 それぞれの品詞を判別

補足:相関係数 二つの確率変数の間の相関を示す 1に近いほど相関が高い

不整合性Cの式 なぜlogを取ったか 試行錯誤の末 単語によって,出現頻度の桁数の違いが出る 分子分母の差をlogスケールで定量化