日本大学 文理学部 情報システム解析学科 谷研究室 益田真太郎

Slides:



Advertisements
Similar presentations
画像処理・実習 第七回: 2値化画像(2値化処理) 東海大学 情報理工学部情報メディア学科 濱本和彦.
Advertisements

果物識別 補足資料 1. やりたい事  入力された画像内に映っている果物が何かを自動判 別するプログラムを組むこと 識別器 りんご です.
復習 配列変数の要素 5は配列の要素数 これらの変数をそれぞれ配列の要素と呼ぶ この数字を配列の添え字,またはインデックスと呼ぶ
復習 配列変数の要素 5は配列の要素数 これらの変数をそれぞれ配列の要素と呼ぶ この数字を配列の添え字,またはインデックスと呼ぶ
シーケンス図の生成のための実行履歴圧縮手法
遺伝的アルゴリズムにおける ランドスケープによる問題のクラス分類
Signal Masterによる フィルタバンクの実装
第四章 情報源符号化の基礎 4・1 情報量とエントロピー 4・2 エントロピー符号化 4・3 音声符号化 4・4 画像符号化.
3次元nクイーン問題の 解に関する研究 論理工学研究室 伊藤精一
UECコンピュータ大貧民大会 参加後の考察
点対応の外れ値除去の最適化によるカメラの動的校正手法の精度向上
富山大学 公開講座 2008 「QRコードを作ろう!」 ~ QRコードを作ろう! ~.
TCPコネクションの分割 によるスループットの向上
LZ圧縮回路の設計とハード・ソフト 最適分割の検討 電子情報デザイン学科 高性能計算研究室 4回生 中山 和也 2009/2/27.
情報・知能工学系 山本一公 プログラミング演習Ⅱ 第4回 配列(2) 情報・知能工学系 山本一公
本時の目標 正の数、負の数の大小関係や数直線上での表し方、絶対値の意味を理解する。
第5回 ディジタル回路内の数値表現 瀬戸 ディジタル回路内部で,数を表現する方法(2進数)を学ぶ 10進数⇔2進数⇔16進数の変換ができる
群論とルービックキューブ 白柳研究室  水野貴裕.
圧縮類似度を用いた方言の自動分類 ~ライス符号を用いた前処理~ ~連結クラスタリング法~ ~余弦類似度を用いた方言分類木の評価~
心理学情報処理法Ⅰ コンピュータにおけるデータ表現 マルチメディアとコンピュータ.
動的ハフマン符号化の例 入力:ABCDEからなる文字列 出力:動的に作ったハフマン木.
EMアルゴリズム クラスタリングへの応用と最近の発展
2012年度 情報数理 ~ QRコードを作ろう!(1) ~.
2008年度 情報数理 ~ QRコードを作ろう!(1) ~.
Copyright Yumiko OHTAKE
自動車レビューにおける検索と分析 H208032 松岡 智也 H208060 中西 潤 H208082 松井泰介.
最短路問題のための LMS(Levelwise Mesh Sparsification)
10.通信路符号化手法2 (誤り検出と誤り訂正符号)
2010年度 情報数理 ~ QRコードを作ろう!(1) ~.
変更文の移動を可能にした 静的単一代入形式上の部分冗長性除去
地理情報システム論演習 地理情報システム論演習
プログラム実行履歴を用いたトランザクションファンクション抽出手法
サポートベクターマシン によるパターン認識
Fuzzy c-Means法による クラスター分析に関する研究
第11回   ディジタル画像(2) ディジタル画像処理(2)
定兼邦彦 今井浩 東京大学理学系研究科 情報科学専攻
Java Virtual Machine 高速化のためのbyte code 解析 An analysis of byte code to improve the performance of Java Virtual Machine 鈴木タカハル 谷研究室 Feb, 2003.
利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成
画像処理プログラムの説明.
岩村雅一 知能情報工学演習I 第8回(C言語第2回) 岩村雅一
中京大学 情報理工学部 機械情報学科 H 野口裕司
コードクローン検出ツールを用いた ソースコード分析システムの試作と プログラミング演習への適用
遺伝的アルゴリズムを用いた 構造物の最適形状探索の プログラムの作成
Ibaraki Univ. Dept of Electrical & Electronic Eng.
Ibaraki Univ. Dept of Electrical & Electronic Eng.
アクションゲームにおけるプレイヤのレベルに応じたマップの自動生成手法の研究
2013年度 プログラミングⅡ ~ 計算してみよう ~.
2015年度 プログラミングⅡ ~ 計算してみよう ~.
情報処理Ⅱ 第2回:2003年10月14日(火).
コードクローン分類の詳細化に基づく 集約パターンの提案と評価
ナップサック問題 クマさん人形をめぐる熱いドラマの結末.
わかりやすいパターン認識 第7章:部分空間法  7.1 部分空間法の基本  7.2 CLAFIC法                  6月13日(金)                  大城 亜里沙.
「ICAによる顔画像特徴量抽出とSVMを用いた表情認識」
多重ベータ混合モデルを用いた調波時間構造の モデル化による音声合成の検討
短い部分文字列の ミスマッチトレランスを 高速計算するアルゴリズム
構造的類似性を持つ半構造化文書における頻度分析
設計情報の再利用を目的とした UML図の自動推薦ツール
A-17 検索履歴のプライバシーを秘匿した ユーザクラスタリング
アルゴリズムとデータ構造 --- 理論編 --- 山本 真基
多重関数を用いた調波時間スペクトル形状のモデル化による音声合成 1-P-4
本時の目標 正の数、負の数の大小関係や数直線上での表し方、絶対値の意味を理解する。
Webページタイプによるクラスタ リングを用いた検索支援システム
オペレーティングシステム 作成 T21R003 荏原 寛太.
岩村雅一 知能情報工学演習I 第8回(後半第2回) 岩村雅一
岩村雅一 知能情報工学演習I 第8回(C言語第2回) 岩村雅一
プログラミング演習I 数値計算における計算精度と誤差
情報処理Ⅱ 第2回 2004年10月12日(火).
確率的フィルタリングを用いた アンサンブル学習の統計力学 三好 誠司 岡田 真人 神 戸 高 専 東 大, 理 研
Q q 情報セキュリティ 第7回:2005年5月27日(金) q q.
Presentation transcript:

日本大学 文理学部 情報システム解析学科 谷研究室 益田真太郎 About encoding the dialect that uses the rice code ライス符号を用いた方言の符号化について 日本大学 文理学部 情報システム解析学科 谷研究室 益田真太郎

目次 1.背景 2.先行研究 3.研究動機 4.研究項目 5.研究結果 6.考察、今後の課題

目次 1.背景 2.先行研究 3.研究動機 4.研究項目 5.研究結果 6.考察、今後の課題

方言の自動分類とは データ間の類似度を用いて自動分類 NHK むかしむかしあるところにおじいさんとおばあさんが… 岩手 むがすむがすあるどころにおずうさんとおばあさんが… 静岡 ずうっとみゃあにあるとこでじいじいとばあばあみ… 大阪 むかしむかしあることろにおじいさんとおばあさんが… 那覇 むかしむかしあるところんかいたんめえとんめえが… データ間の類似度を用いて自動分類

研究の背景 方言の自動分類の手順 方言桃太郎(音源) テキストファイル 前処理 圧縮+類似度距離の算出 クラスタリング 系統樹の作成

前処理とは 全国の方言データ (文字) 圧縮(bzip2) 全国の方言データ

前処理とは 前処理 圧縮(bzip2) 前処理とは圧縮前にデータに処理を加えより圧縮後のデータを小さくすること 全国の方言データ (文字) 前処理 全国の 方言データ 圧縮(bzip2) 全国の 方言データ さらに小さくなった 前処理とは圧縮前にデータに処理を加えより圧縮後のデータを小さくすること

本研究では先行研究で、良いとされているbzip2(圧縮)を用いて距離を算出する。 なぜ、前処理を行うのか 本研究では先行研究で、良いとされているbzip2(圧縮)を用いて距離を算出する。 圧縮類似度に基づくデータ 間の類似度を求める式 bzip2が小さいほどより良い圧縮類似度が求まるとされている

本研究では先行研究で、良いとされているbzip2(圧縮)を用いて距離を算出する。 なぜ、前処理を行うのか 本研究では先行研究で、良いとされているbzip2(圧縮)を用いて距離を算出する。 圧縮類似度に基づくデータ 間の類似度を求める式 bzip2が小さいほどより良い圧縮類似度が求まるとされている bzip2(圧縮)をより小さくするため前処理を行う

目次 1.背景 2.先行研究 3.研究動機 4.研究項目 5.研究結果 6.考察、今後の課題

先行研究での前処理 先行研究では、 圧縮類似度を算出する際には無駄な情報を省くため 文字を数値に置き換えて単純化する。 先行研究では前処理1、2を行った。

前処理1(pre1) 前処理2(pre2) 作成した1バイトのコードに変換 ■先行研究での前処理 あいうえお順に番号付け 全てのデータの文字の出現数 をカウントし、 出現頻度の多い順に番号付け 作成した1バイトのコードに変換

目次 1.背景 2.先行研究 3.研究動機 4.研究項目 5.研究結果 6.考察、今後の課題

研究動機 前処理の流れ 文字

研究動機 前処理の流れ 前処理1,2 文字 数値

研究動機 前処理の流れ もっとファイルサイズを小さくしたい 前処理1,2 文字 数値

研究動機 前処理の流れ もっとファイルサイズを小さくしたい 前処理1,2 数値の符号化 文字 数値 符号

研究動機 前処理の流れ もっとファイルサイズを小さくしたい 数値を符号化することによりファイルサイズを 小さくできるのでは 前処理1,2 数値の符号化 文字 数値 符号 数値を符号化することによりファイルサイズを 小さくできるのでは

目次 1.背景 2.先行研究 3.研究動機 4.研究項目 5.研究結果 6.考察、今後の課題

目次 1.背景 2.先行研究 3.研究動機 4.研究項目 -整数の符号化 -研究概要 -ライス符号 5.研究結果 6.考察、今後の課題

整数の符号化とは、主にデータ圧縮において 整数を符号語にするための手法 整数をなるべく短い符号語で表現し、 全体の情報量を少なくする

本研究で使う符号 代表的な符号 アルファ符号 ガンマ符号 デルタ符号 ゴロム符号 ライス符号

ライス符号は実装が簡単なので、画像や音声の圧縮アルゴリズムの中 で使われることがあります 本研究で使う符号 代表的な符号 ライス符号は実装が簡単なので、画像や音声の圧縮アルゴリズムの中 で使われることがあります アルファ符号 ガンマ符号 デルタ符号 ゴロム符号 ライス符号 ライス符号

目次 1.背景 2.先行研究 3.研究動機 4.研究項目 -整数の符号化 -研究概要 -ライス符号 5.研究結果 6.考察、今後の課題

前処理1(pre1) 前処理2(pre2) ■本研究での前処理 あいうえお順に番号付け (1バイト) 全てのデータの文字の出現数 をカウントし、 出現頻度の多い順に番号付け (1バイト)

ライス符号化 前処理2(pre2) 前処理1(pre1) 前処理1-r(pre1-r) 前処理2-r(pre2-r) ■本研究での前処理 あいうえお順に番号付け (1バイト) 全てのデータの文字の出現数 をカウントし、 出現頻度の多い順に番号付け (1バイト) ライス符号化 前処理1-r(pre1-r) 前処理2-r(pre2-r) あいうえお順に番号付け (ライス符号化) 全てのデータの文字の出現数 をカウントし、 出現頻度の多い順に番号付け (ライス符号化)

本研究実験 圧縮(bzip2)前 圧縮(bzip2)後 比較 先行研究 前処理1、2の ファイルサイズ 前処理1、2の ファイルサイズ 比較 本研究 前処理1-r、2-r(ライス符号化) のファイルサイズ 前処理1-r、2-r(ライス符号化) のファイルサイズ

本研究実験 圧縮(bzip2)前 圧縮(bzip2)後 比較 ライス符号化が前処理で有効かを実験する 先行研究 前処理1、2の ファイルサイズ 前処理1、2の ファイルサイズ 比較 本研究 前処理1-r、2-r(ライス符号化) のファイルサイズ 前処理1-r、2-r(ライス符号化) のファイルサイズ ライス符号化が前処理で有効かを実験する

目次 1.背景 2.先行研究 3.研究動機 4.研究項目 -整数の符号化 -研究概要 -ライス符号 5.研究結果 6.考察、今後の課題

ライス符号の説明の前にα符号について説明します ライス符号とは ライス符号の説明の前にα符号について説明します

アルファ符号とは、一進法符号(単進符号, unary)とも呼 ばれる、正の整数を表す可変長符号の一つ α符号とは アルファ符号とは、一進法符号(単進符号, unary)とも呼 ばれる、正の整数を表す可変長符号の一つ n α符号 0 の個数で整数を表している ライス符号の中で使われる

ライス (Rice) 符号はゴロム符号の特別な場合です ライス符号とは ライス (Rice) 符号はゴロム符号の特別な場合です

ライス符号はパラメータ b を使って 整数 n を符号化します アルゴリズムは次のようになります ライス符号とは ライス符号はパラメータ b を使って 整数 n を符号化します アルゴリズムは次のようになります

3. (∃k ∈N)b=2k場合、q の k ビットでバイナリ符号化 アルゴリズム 1. 商 p = n / b, 剰余 q = n % b を求める  2. p をα符号で符号化          3. (∃k ∈N)b=2k場合、q の k ビットでバイナリ符号化    4. !(∃k∈ N)b=2kの場合、q を CBT 符号で符号化 ゴロム符号 ライス符号

b=4の場合で n(0~15)をライス符号化してみる

アルゴリズム ライス符号の簡単な例(b=4) 1. 商 p = n / b, 剰余 q = n % b を求める  2. p をα符号で符号化      3. (∃k ∈N)b=2k場合、q のk ビットでバイナリ符号化   ライス符号

アルゴリズム ライス符号の簡単な例(b=4) 1. 商 p = n / 4, 剰余 q = n % 4 を求める  2. p をα符号で符号化       3. (∃2 ∈N)b=22場合、q の2ビットでバイナリ符号化   ライス符号(b=4=22)

アルゴリズム ライス符号の簡単な例(b=4) 1. 商 p = n / 4, 剰余 q = n % 4 を求める  2. p をα符号で符号化      3. (∃2 ∈N)b=22場合、q の2ビットでバイナリ符号化   ライス符号(b=4=22)

3. (∃2 ∈N)b=22場合、q の2ビットでバイナリ符号化 1. 商 p = n / 4, 剰余 q = n % 4 を求める  2. p をα符号で符号化       3. (∃2 ∈N)b=22場合、q の2ビットでバイナリ符号化   ライス符号(b=4=22)

3. (∃2 ∈N)b=22場合、q の2ビットでバイナリ符号化 1. 商 p = n / 4, 剰余 q = n % 4 を求める  2. p をα符号で符号化        3. (∃2 ∈N)b=22場合、q の2ビットでバイナリ符号化   ライス符号(b=4=22)

3. (∃2 ∈N)b=22場合、q の2ビットでバイナリ符号化 1. 商 p = n / 4, 剰余 q = n % 4 を求める  2. p をα符号で符号化        3. (∃2 ∈N)b=22場合、q の2ビットでバイナリ符号化   ライス符号(b=4=22)

3. (∃2 ∈N)b=22場合、q の2ビットでバイナリ符号化 1. 商 p = n / 4, 剰余 q = n % 4 を求める  2. p をα符号で符号化       3. (∃2 ∈N)b=22場合、q の2ビットでバイナリ符号化   ライス符号(b=4=22)

3. (∃2 ∈N)b=22場合、q の2ビットでバイナリ符号化 1. 商 p = n / 4, 剰余 q = n % 4 を求める  2. p をα符号で符号化       3. (∃2 ∈N)b=22場合、q の2ビットでバイナリ符号化   ライス符号(b=4=22)

3. (∃2 ∈N)b=22場合、q の2ビットでバイナリ符号化 1. 商 p = n / 4, 剰余 q = n % 4 を求める  2. p をα符号で符号化       3. (∃2 ∈N)b=22場合、q の2ビットでバイナリ符号化   ライス符号(b=4=22) 次にb=8の場合と比較してみます

ライス符号の簡単な例(b=4,8) b=4 b=8

ライス符号の簡単な例(b=4,8) b=4 b=8 このように、ライス符号はパラメータ b を変更すると符号語も変化します

パラメータbを変更した際のライス符号の変化 n(0~80)をライス符号化してみた 前処理1、2 で使われる数値の範囲

パラメータbを変更した際のライス符号の変化

パラメータbを変更した際のライス符号の変化 値が大きい 値がb=16と同じ

パラメータbを変更した際のライス符号の変化 値が大きい 値がb=16と同じ

ライス符号化が前処理で有効か ライス符号化 前処理1(pre1) 前処理2(pre2) ■本研究での前処理 あいうえお順に番号付け (1バイト) 全てのデータの文字の出現数 をカウントし、 出現頻度の多い順に番号付け (1バイト) ライス符号化 pre1-r pre1-r pre2-r pre2-r b=8 b=8 b=16 b=8 b=16 ライス符号化が前処理で有効か

目次 1.背景 2.先行研究 3.研究動機 4.研究項目 5.研究結果 6.考察、今後の課題

比較 前処理2(pre2) 前処理1(pre1) 前処理1-r(pre1-r) 前処理2-r(pre2-r) ■圧縮前のファイルサイズ比較(ライス符号(b=8)) 前処理2(pre2) 前処理1(pre1) あいうえお順に番号付け (1バイト) 全てのデータの文字の出現数 をカウントし、 出現頻度の多い順に番号付け (1バイト) 比較 前処理1-r(pre1-r) 前処理2-r(pre2-r) b=8 (ライス符号化) b=8 (ライス符号化)

圧縮前のファイルサイズ比較(ライス符号(b=8))

pre2-rにおいてファイルサイズが大幅に小さくなった 圧縮前のファイルサイズ比較(ライス符号(b=8)) pre2-rにおいてファイルサイズが大幅に小さくなった

比較 前処理2(pre2) 前処理1(pre1) 前処理1-r(pre1-r) 前処理2-r(pre2-r) ■圧縮前のファイルサイズ比較(ライス符号(b=16)) 前処理2(pre2) 前処理1(pre1) あいうえお順に番号付け (1バイト) 全てのデータの文字の出現数 をカウントし、 出現頻度の多い順に番号付け (1バイト) 比較 前処理1-r(pre1-r) 前処理2-r(pre2-r) b=16 (ライス符号化) b=16 (ライス符号化)

圧縮前のファイルサイズ比較(ライス符号(b=16))

pre1-r、2-rにおいて大幅にファイルサイズが小さくなった 圧縮前のファイルサイズ比較(ライス符号(b=16)) pre1-r、2-rにおいて大幅にファイルサイズが小さくなった

比較 前処理2(pre2) 前処理1(pre1) 前処理1-r(pre1-r) 前処理2-r(pre2-r) ■圧縮後のファイルサイズ比較(ライス符号(b=8)) 前処理2(pre2) 前処理1(pre1) あいうえお順に番号付け (1バイト) 全てのデータの文字の出現数 をカウントし、 出現頻度の多い順に番号付け (1バイト) bzip2 bzip2 比較 前処理1-r(pre1-r) 前処理2-r(pre2-r) b=8 (ライス符号化) b=8 (ライス符号化) bzip2 bzip2

圧縮後のファイルサイズ比較(ライス符号(b=8))

pre1-rにおいてファイルサイズが大幅に大きくなった 圧縮後のファイルサイズ比較(ライス符号(b=8)) pre1-rにおいてファイルサイズが大幅に大きくなった

比較 前処理2(pre2) 前処理1(pre1) 前処理1-r(pre1-r) 前処理2-r(pre2-r) ■圧縮後のファイルサイズ比較(ライス符号(b=16)) 前処理2(pre2) 前処理1(pre1) あいうえお順に番号付け (1バイト) 全てのデータの文字の出現数 をカウントし、 出現頻度の多い順に番号付け (1バイト) bzip2 bzip2 比較 前処理1-r(pre1-r) 前処理2-r(pre2-r) b=16 (ライス符号化) b=16 (ライス符号化) bzip2 bzip2

圧縮後のファイルサイズ比較(ライス符号(b=16))

pre1-rにおいてファイルサイズが大幅に大きくなった 圧縮後のファイルサイズ比較(ライス符号(b=16)) pre1-rにおいてファイルサイズが大幅に大きくなった

目次 1.背景 2.先行研究 3.研究動機 4.研究項目 5.研究結果 6.考察、今後の課題

ライス符号化を施すことにより 圧縮前のファイルサイズは小さくなったが 圧縮後のファイルサイズは大きくなった 考察 ライス符号化を施すことにより          圧縮前のファイルサイズは小さくなったが   圧縮後のファイルサイズは大きくなった   

ライス符号化を施すことにより 圧縮前のファイルサイズは小さくなったが 圧縮後のファイルサイズは大きくなった 考察 ライス符号化を施すことにより          圧縮前のファイルサイズは小さくなったが   圧縮後のファイルサイズは大きくなった    前処理にライス符号化を施すことが有効かどうかは現時点ではわからなかった 前処理にライス符号化を施すことが有効かどうかは現時点ではわからなかった

bzip2以外の圧縮方法で実験し、ライス符号化が方言の自動分類における精度の向上に有効か 確かめる 今後の課題 bzip2以外の圧縮方法で実験し、ライス符号化が方言の自動分類における精度の向上に有効か 確かめる                        

おわり