DCGANを用いた 画像生成システム 電気電子工学科 T215079 山田 真司  白井研究室.

Slides:



Advertisements
Similar presentations
はじめてのパターン認識 第1章 第4グループ 平田翔暉. パターン認識 パターン認識 o 観測されたパターンを、あらかじめ定められ たクラスに分類すること クラス o 硬貨: 1 円玉、 5 円玉、 10 円玉、 50 円玉、 100 円玉、 500 円玉 o アルファベット: 26 種類 o 数字:
Advertisements

静岡大学情報学研究科 戸根木千洋 ユーザーイメージ収集 インターフェースの開発. 2 目次 背景と目的 研究の構成 研究の詳細 イメージ収集インターフェースの提案 映画イメージ収集システムの開発 システムの評価 今後の課題.
静脈画像を鍵とする暗号化手 法に関する研究 大山研究室 安藤のぞみ. 研究の背景、目的 近年、バイオメトリクス認証が注目されて いる 静脈は身体内部の情報 → 偽造に強い 環境に左右されることが少ない 利用者の心理的抵抗が軽減される オープンなネットワークへのバイオメトリ クス認証の適用 : Double.
生体情報を利用したオンライン認証システムに関する研 究 情報工学科 大山・山口・小尾研究室 学士課程4年田中 丈登.
高度情報演習 1A “ テーマC ” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 芝浦工業大学 工学部 情報工学科 青木 義満 2006/04/10.
自動映像生成のための パーティクルフィルタによるボールの追 跡 2007 年 3 月 21 日 神戸大学大学院自然科学研究科 矢野 一樹.
ユーザーイメージ収集 インターフェイスの開発
顔表情クラスタリングによる 映像コンテンツへのタギング
電子透かしにおける マスキング効果の主観評価
コンピュータビジョン特論 OpenCVについて
画像処理学習用RTコンポーネントライブラリ 田窪 朋仁,大原 賢一,吉岡 健伸(大阪大学)
HOG特徴に基づく 単眼画像からの人体3次元姿勢推定
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第四回 演習課題 画像中からの物体抽出処理(背景情報を手がかりとして) 芝浦工業大学 工学部 情報工学科 青木 義満 2006/05/15.
パネル型クエリ生成インタフェース画像検索システムの改良
ロボットビジョン(ロボットの視覚能力)のための デジタル画像処理
「わかりやすいパターン認識」 第1章:パターン認識とは
Deep learningによる 読唇システム
Java言語による シューティングゲーム作成
感情推測システム構築のための顔表情認識の実践
Webを利用した授業支援システムの開発 北海道工業大学 電気電子工学科 H 渋谷 俊彦.
画像情報を用いた交通流計測 情報工学科 藤吉研究室 EP02076 都築勇司
Yahoo! インターンシップ プレゼンテーション選考 2015/7/3(金) 10:00~ 石川智己
2007年度 長岡技術科学大学オープンハウス 半透明人間
線形フィルタと畳み込み積分 マスクによる画像のフィルタリング 1.入力画像中の関心の画素のまわりの画素値
練習問題アイテムバンクの開発研究 ~再生形式~
情報工学総合演習 D-I 近似アルゴリズム 埼玉大学 理工学研究科 山田 敏規、 橋口 博樹、 堀山 貴史
高度情報演習1C 実践 画像処理プログラミング
長岡技科大オープンハウス 岐阜高専4年電子制御工学科 森 永二郎.
複数尤度を用いた 3次元パーティクルフィルタによる選手の追跡 IS1-39
Bottom-UpとTop-Down アプローチの統合による 単眼画像からの人体3次元姿勢推定
視点移動カメラにおけるカメラキャリブレーション
レッスン1 情報の収集と整理 から プレゼンへ (道具を使いこなす)
WIP中間発表 画像解析を用いた メイドの為の 無許可撮影通知システム
人工知能特論 9.パーセプトロン 北陸先端科学技術大学院大学 鶴岡 慶雅.
人工知能を動かしてみる(Keras を用いたニューラルネットワークの定義,コンパイル,学習,評価,予測)
中京大学 情報理工学部 機械情報学科 H 野口裕司
高度情報演習1A “テーマC” 実践 画像処理プログラミング 〜画像認識とCGによる画像生成〜 第二回 演習課題
高度情報演習1C 実践 画像処理プログラミング 第二回 演習課題
画像処理③ 05A1027  後藤航太.
深層学習を用いた音声認識システム 工学部 電気電子工学科 白井研究室 T213069 林健吉.
高度情報演習1A “テーマC” 実践 画像処理プログラミング 第六回 最終課題 画像処理による動物体自動抽出、モーションキャプチャ
中京大学 工学部 電気電子工学科 白井研究室 4年 T 為房直人
Nakano School of Business 経営情報ビジネス科 【 C言語入門(Test2)】
岩村雅一 知能情報工学演習I 第13回(後半第7回) 岩村雅一
GPSを使わないBebop Droneの 自動飛行
Data Clustering: A Review
AIを用いたドローンの 新たな姿勢制御方法に関する研究
OpenCV について OpenCV とは OpenCV の Python プログラム例 配列 画像の B, G, R の 3成分
15K1117 下窪 聖人 15K1013 坂本 倖輝 15K1112 黒川 晶太 15K1015 関根 修斗
一方向画像からの 3Dモデル生成 電気電子工学科 白井研究室 T215049 田原 大輝.
物体検出による視覚補助システム T215085 若松大仁 白井研究室.
顔特徴点移動量・点間距離変化量の組み合わせに基づく顔表情認識
Chapter5-2 その他の話題 15k1015 関根修斗.
Number of random matrices
Bottom-UpとTop-Down アプローチの組み合わせによる 単眼画像からの人体3次元姿勢推定
2007年度 長岡オープンハウス クロマキー合成 小山高専 電子制御工学科4年                       針谷 尚裕.
適応信号処理とその応用 大阪府立大学大学院工学研究科 電気・情報系専攻 大松 繁.
手書き文字の自動認識アプリケーション 15K1013 坂本 倖輝
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
ai-5. 人工知能の Python パッケージ TensorFlow と Keras の動作確認
2006年度 オープンハウス 画像からの顔領域の摘出
修士研究計画 CGM作成・共有支援基盤(仮)の構築
顔認識を用いた居眠り運転防止システム 白井研究室 T 山本大介
2018年度ビジョン研究室 ゼミナール・卒研紹介 指導教員:張善俊 6月20日(水) 6-209.
Webページタイプによるクラスタ リングを用いた検索支援システム
ニューラルネットワークの仕組み (Raspberry PI 演習で学ぶ) AI DATA VASSEL 資料
2. 画像とカメラ 金子邦彦.
人物再識別システムの 試作と評価 飯塚 敦志.
ベイジアンネットワークと クラスタリング手法を用いたWeb障害検知システムの開発
Presentation transcript:

DCGANを用いた 画像生成システム 電気電子工学科 T215079 山田 真司  白井研究室

動機および研究背景 ラフな場での発表資料やパンフレットなどにイラストなどの画像が利用され ることが多い。 ラフな場での発表資料やパンフレットなどにイラストなどの画像が利用され ることが多い。 イラストなどの画像は製作者が著作権を有しており、無断の使用や複写は 財産権の侵害に当たるなど利用については注意を払う必要がある。 自身で制作したものならば著作権の心配は無用。しかしながら素人がイラ ストを作成するのはなかなか難しいため、AIによる解決を図ろうと思い立っ た。 https://www.irasutoya.com/

動機および研究背景 GAN(競争的生成ネットワーク)を利用した画像生成技術は最近注目を浴びはじめ てる。 横顔から生成した顔画像 (左:本物、右:生成画像) Rui Huangら https://arxiv.org/abs/1704.04086

研究目的 著作権などの制約無しに、イラストの作成、利用を可能にするシステムの構築 画像生成にあたり、製作者の主観で目的の画像の分類分けを行い、狙った画像 が出来るようにする。

GAN(競争的生成ネットワーク)について GAN(Generative Adversarial Networks=競争的生成ネットワーク)とは人工知能の アルゴリズムの一つ。 生成ネットワーク(生成器)と、識別ネットワーク(識別機)の二つを学習させ、両者の 均衡がとれた状態を学習目標としたネットワーク 生成器 識別成功 noise 生成データ 識別器 識別器の結果 訓練データ 識別失敗

DCGANについて GANに対して畳み込みニューラルネット(CNN)を組み合わせたネットワークモ デル 生成器 画像出力 生成器 入力テンソル Alec Radford ら (2015) https://arxiv.org/abs/1511.06434

画像システムの概要

開発環境 学習時には学内GPUサーバーを利用 パッケージ Anaconda3 使用言語 Python3.6.6 追加ライブラリ Keras2.2.0 TensorFlow-gpu 1.11.0

DCGANによる画像生成 目的の画像情報の入力 画像の出力 Z変数 生成データ(不正解データ) 生成器 画像の種類、特徴の情報 識別成功 識別器 訓練データ (正解データ) 識別器の結果 識別失敗

識別器に関して 入力→ 128×128 RGB画像 出力→ 0 (不正解) or 1 (正解) 不正解→偽物と判断 正解→本物と判断 Layer (type) Output Shape Param # =========================================================== conv2d_1 (Conv2D) (None, 64, 64, 32) 896 _________________________________________________________________ leaky_re_lu_1 (LeakyReLU) (None, 64, 64, 32) 0 dropout_1 (Dropout) (None, 64, 64, 32) 0 conv2d_2 (Conv2D) (None, 32, 32, 64) 18496 leaky_re_lu_2 (LeakyReLU) (None, 32, 32, 64) 0 dropout_2 (Dropout) (None, 32, 32, 64) 0 batch_normalization_1 (Batch (None, 32, 32, 64) 256 conv2d_3 (Conv2D) (None, 16, 16, 128) 73856 leaky_re_lu_3 (LeakyReLU) (None, 16, 16, 128) 0 dropout_3 (Dropout) (None, 16, 16, 128) 0 batch_normalization_2 (Batch (None, 16, 16, 128) 512 conv2d_4 (Conv2D) (None, 16, 16, 256) 295168 leaky_re_lu_4 (LeakyReLU) (None, 16, 16, 256) 0 dropout_4 (Dropout) (None, 16, 16, 256) 0 flatten_1 (Flatten) (None, 65536) 0 dense_1 (Dense) (None, 1) 65537 activation_1 (Activation) (None, 1) 0 ============================================== Total params: 454,721 Trainable params: 454,337 Non-trainable params: 384 識別器に関して 入力→ 128×128 RGB画像 出力→ 0 (不正解) or 1 (正解) 不正解→偽物と判断 正解→本物と判断

識別器の学習について① 損失関数:2値クロスエントロピー 最適化関数:Adam 訓練データ (正解データ) 識別器 本物=1 偽物=0 学習しない Trainable=False 生成器 Z変数 生成画像 (不正解データ)

識別器の学習について② 正解データと不正解データを一つにして訓練データとするのではなく 訓練データ(正解データ) 生成画像 (不正解データ) 訓練データ 正解データと不正解データを一つにして訓練データとするのではなく バッチごとに正解データと不正解データを分けて学習させる。 訓練データ(正解データ) 訓練データ 生成画像 (不正解データ) 訓練データ

生成器に関して 入力→各要素が-1~1の100次元ベクトル 出力→128×128 RGB画像 Alec Radford ら (2015) _________________________________________________________________ Layer (type) Output Shape Param # ============================================= dense_2 (Dense) (None, 131072) 13238272 reshape_1 (Reshape) (None, 32, 32, 128) 0 up_sampling2d_1 (UpSampling2 (None, 64, 64, 128) 0 conv2d_5 (Conv2D) (None, 64, 64, 128) 147584 activation_2 (Activation) (None, 64, 64, 128) 0 batch_normalization_3 (Batch (None, 64, 64, 128) 512 up_sampling2d_2 (UpSampling2 (None, 128, 128, 128) 0 conv2d_6 (Conv2D) (None, 128, 128, 64) 73792 activation_3 (Activation) (None, 128, 128, 64) 0 batch_normalization_4 (Batch (None, 128, 128, 64) 256 conv2d_7 (Conv2D) (None, 128, 128, 3) 1731 activation_4 (Activation) (None, 128, 128, 3) 0 Total params: 13,462,147 Trainable params: 13,461,763 Non-trainable params: 384 入力→各要素が-1~1の100次元ベクトル 出力→128×128 RGB画像 Alec Radford ら (2015) https://arxiv.org/abs/1511.06434

生成器の学習に関して 損失関数:2値クロスエントロピー 最適化関数:Adam 生成器 生成画像 Z変数 学習しない Trainable=False 識別器 本物=1 偽物=0

学習曲線などを載せたい

訓練データについて① イラストのフリー素材を使用。サイズ→460×680 約250種のキャラクターの全身画像をデータ拡張によ り1000枚程度に ある程度の学習を進めたが形にならず断念 他にも、プラモデルの正面写真(600枚、128×128)や ポケットモンスターの画像(918枚、160×160)なども試 したがどれも断念 訓練画像 生成画像 訓練画像 生成画像 訓練画像 生成画像

訓練データについて② 画像に共通するものが多いと形になりやすいのでは ないか 画像に共通するものが多いと形になりやすいのでは ないか 3Dイラスト(実物写真)や立ち絵などの画像は情報量 が多い分、難しいのではないか 訓練画像 生成画像 立ち絵画像に対してアニメ顔検出を適用し、顔画像 の取得。データ拡張し2600枚ほどの顔画像で学習。 サイズは128×128 →顔らしきものは出来たが、精度が悪い 訓練画像 生成画像

訓練データの決定 画像に共通しているものが多い データ数が多く、種類が少ないもの 2Dイラストかつ画像の中の情報が少ないもの →映像ならば解決できるのでは 「名探偵コナン 異次元の狙撃手」を選択 映画作品の動画から静止画像を約12万枚キャプチャ キャプチャ画像にアニメ顔検出を行い顔画像のみを選択 ノイズ除去を行い2万4000枚の訓練データを作成 https://www.yodobashi.com/

画像の出力 出力した画像は顔になるものもあれば、顔と呼ぶには難しいものもあった 出力部にアニメ顔認識のフィルタを通過させる フィルタを通過した複数の画像の平均をとった画像を最終的な出力とした

特徴抽出① 出力された顔画像の中から取 り出したい特徴を持つ画像群 をつくる 画像群のZ変数の平均を特徴 をとる 出力画像群 出力された顔画像の中から取 り出したい特徴を持つ画像群 をつくる 画像群のZ変数の平均を特徴 をとる とった平均のZ変数同士の演算 から特徴を抽出する Z変数① Z変数② Z変数③ 平均画像 平均画像

特徴抽出② 四則演算の容量で特徴を付け足すことが可能 Z変数① Z変数② Z変数③

結果 顔に見える画像の出力には成功。 特徴抽出に関しては、~のキャラクターに似ている顔のような特徴は抽出出来た。 しかしながら、コナンのキャラクターに似た物になってしまい、著作権の観点から見ると怪しいものなった。 訓練画像 生成画像

考察、発展 訓練データ自体をキャラクター自体の種類が少なく、著作権フリーの素材を大量に用意することが可能であれば著作権の問題は解決できるであろうと思われる。 今後、訓練データ自体の画素数向上やデータ数が解決するならば、より高品質の画像が生成することが可能であると思われる。

ご清聴 ありがとうございます 質問、コメントをお願いします。

アニメ顔画像認識 Open CVのカスケードとしてアニメ顔認識が https://github.com/nagadomi/lbpcascade_animeface こちらのGitHub にて公開されている。 訓練データ数は約2万5千枚

Z変数

訓練データ①

訓練データ②

訓練データ③

訓練データ④

参考文献 Ian J.Goodfellow ら (2014)/ 『Generative Adversarial Networks』 Alec Radford ら (2015)/ 「UnsupervisedRepresentationLearningwithDeepConvolutionalGenerativeAdversarial Networks」 Tom White ら ( 2016) / 「Sampling Generative Networks」 [4]坂本俊之 / (2017)/C&R研究所 「Chainerで作るコンテンツ自動生成AIプログラミング入門」