Ut Video Codec Suite 高速化の11年

Slides:

Advertisements

Similar presentations

1 広島大学理学研究科尾崎裕介石川健一. 1. Graphic Processing Unit (GPU) とは？ 2. Nvidia CUDA programming model 3. GPU の高速化 4. QCD with CUDA 5. 結果 6. まとめ 2.

Advertisements

G ゼミ 2010/5/14 渡辺健人. パフォーマンスの測定 CUDA Visual Profiler CUDA の SDK に標準でついているパフォーマンス測定用のツール使い方： exe ファイルのパスと作業ディレクトリ指定して実行するだけ注意点 : GPU のコード実行後にプログラム終了前に,

JT-H ２６５（第 1 版）高効率ビデオ符号化方式 HIGH EFFICIENCY VIDEO CODING メディア符号化専門委員会ＪＴ－ H ２６５第 1.0 版 OHP- １.

データの圧縮.

「AMDで使うと遅いんだけど」 x86/x64最適化勉強会 #4 LT

Motion-JPEG2000を使ったノードに最適な動画像配信

連続系アルゴリズム演習第2回 OpenMPによる課題.

計算理工学基礎「ハイパフォーマンスコンピューティングの基礎」

CPUについて HN:セシル.

Chapter11-4(前半) 加藤健.

Ibaraki Univ. Dept of Electrical & Electronic Eng.

Intel AVX命令を用いた並列FFTの実現と評価

最新ファイルの提供を保証する代理FTPサーバの開発

富山大学公開講座 2008 「QRコードを作ろう！」～ QRコードを作ろう！～.

Webアプリケーション開発の基本的なポイント

LZ圧縮回路の設計とハード・ソフト最適分割の検討電子情報デザイン学科高性能計算研究室４回生　中山　和也 2009/2/27.

Xenを用いたクラウドコンピューティングにおける情報漏洩の防止

情報理工学部情報システム工学科ラシキアゼミ3年 H 岡田貴大

実行時のメモリ構造(1) Jasminの基礎とフレーム内動作

神奈川大学大学院工学研究科電気電子情報工学専攻

読んだもの１ P0145R1: Refining Expression Evaluation Order for Idiomatic C++

全体ミーティング (6/13) 村田雅之.

応用情報処理V 第1回　プログラミングとは何か 2004年9月27日.

心理学情報処理法Ⅰ コンピュータにおけるデータ表現マルチメディアとコンピュータ.

2007/1/18 山下諒蔵佐藤春旗前田俊行大山恵弘佐藤秀明住井英二郎

2012年度情報数理～ QRコードを作ろう！（１）～.

2008年度情報数理～ QRコードを作ろう！（１）～.

日本大学文理学部情報システム解析学科谷研究室益田真太郎

第７章　データベース管理システム７．１データベース管理システムの概要７．２データベースの格納方式７．３問合せ処理.

応用情報処理V 第1回　プログラミングとは何か 2003年9月29日.

プログラムはなぜ動くのか.

オペレーティングシステム i386アーキテクチャ(2)

発表者 2011/01/08 楽しい２５６バイトイントロの世界発表者 2011/01/08.

最短路問題のための LMS(Levelwise Mesh Sparsification)

コンテンツ配信エンコード (符号化) CBR (Constant Bit Rate) VBR (Variable Bit Rate)

IIR輪講復習 #5 Index compression

2010年度情報数理～ QRコードを作ろう！（１）～.

オーサリングツール＆ブラウザの技術的トピック

型付きアセンブリ言語を用いた安全なカーネル拡張

SpectreとMeltdown ITソリューション塾・第28期 2018年5月30日株式会社アプライド・マーケティング大越章司

CPUの仕組み 1E16M002-5 阿部知也 1E16M007-3 伊藤達哉 1E16M026-9 小島祥太郎 1E16M069-8 峰晴晃優 1E16M070-0 宮路暁久 1E14M070-5 南元喜.

コンピュータを知る１Ｅ１６Ｍ００９－１梅津たくみ１Ｅ１６Ｍ０１７－８小沢あきら１Ｅ１６Ｍ０３５－０柴田かいと

動画ファイル形式コンピュータでは、文字や画像、動画、音声といった様々な種類の情報を扱うことができるが、記憶装置に記録されるデータそのものは0と1の情報でしかない。動画ファイルの形式としてはMPEGやAVIです。

澤見研究室 I04I021 片山祐輔 I05I095 山田大志 I06I040 野崎祥志

Ut Video Codec Suite ～これまでとこれから～

梅澤威志隣の芝は茶色いか梅澤威志

コンピュータ系実験Ⅲ 「ワンチップマイコンの応用」第１週目アセンブリ言語講座

オペレーティングシステムJ/K (仮想記憶管理)

第7回授業計画の修正中間テストの解説・復習前回の補足（クロックアルゴリズム・PFF) 仮想記憶方式のまとめ特別課題について

通信機構合わせた最適化をおこなう並列化ンパイラ

動画形式 2010年11月.

先進的計算基盤システムシンポジウム SACSIS2007併設企画マルチコアプログラミングコンテスト「Cellスピードチャレンジ2007」

未使用メモリに着目した複数ホストにまたがる仮想マシンの高速化

プロジェクト演習Ⅱ インタラクティブゲーム制作

個人の動画配信のためのWebサーバ構築 06A1058　古江　和栄.

様々な情報源（４章）.

複数ホストにまたがって動作する仮想マシンの障害対策

VMMのソフトウェア若化を考慮したクラスタ性能の比較

先週の復習: CPU が働く仕組みコンピュータの構造 pp 制御装置＋演算装置＋レジスタ制御装置がなければ電卓と同様

動画配信捕捉のためのWEBサーバ構築 06A1058　古江　和栄.

09. メモリ・ディスアンビギュエーション五島正裕.

第5回メモリ管理（２）オーバレイ方式論理アドレスとプログラムの再配置静的再配置と動的再配置仮想記憶とメモリ階層セグメンテーション

Ibaraki Univ. Dept of Electrical & Electronic Eng.

第４回　メモリ管理主記憶（メインメモリ）の管理固定区画方式と可変区画方式空き領域の管理スワッピング.

全体ミーティング (5/23) 村田雅之.

Mondriaan Memory Protection の調査

計算機アーキテクチャ１（計算機構成論（再））第二回命令の種類と形式

SMP/マルチコアに対応した型付きアセンブリ言語

Ibaraki Univ. Dept of Electrical & Electronic Eng.

コンピュータと音 B3 入野仁志(irino).

Presentation transcript:

Ut Video Codec Suite 高速化の11年梅澤威志/ゆーむ (twitter: @umezawa_takeshi) IM@S Engineer Talks 2019

自己紹介梅澤威志 / ゆーむP 本業は某ネット企業のソフトウェアエンジニア箱マスからのアイマスP ニコマスも少々響P Blog: http://umezawa.dyndns.info/wordpress/ GitHub: https://github.com/umezawatakeshi 箱マスからのアイマスP ニコマスも少々ニコ百: https://dic.nicovideo.jp/a/ゆーむp 響P ぬーかわ

目次 Ut Video Codec Suite is 何作り始めたきっかけ圧縮手法高速化の歴史

Ut Video Codec Suite is 何

Ut Video Codec Suite is 何映像キャプチャ向け可逆圧縮コーデック各種プラットフォームで使えた（過去形（涙 http://umezawa.dyndns.info/wordpress/?cat=28 https://github.com/umezawatakeshi/utvideo FFmpeg に互換実装がある

いろんなところで使われているニコマス方面とか MMD 方面とかニコニコのコンテンツツリーで子作品25240 （2019-07-06現在） http://commons.nicovideo.jp/tree/im1922939

いろんなところで使われている (2) 海外に紹介されたり FFmpeg に互換実装が追加されたり D:\ffmpeg-4.1.3-win64-static\bin>ffmpeg.exe -codecs ffmpeg version 4.1.3 Copyright (c) 2000-2019 the FFmpeg developers built with gcc 8.3.1 (GCC) 20190414 （中略） Codecs: D..... = Decoding supported .E.... = Encoding supported ..V... = Video codec ..A... = Audio codec ..S... = Subtitle codec ...I.. = Intra frame-only codec ....L. = Lossy compression .....S = Lossless compression ------- D.VIL. txd Renderware TXD (TeXture Dictionary) image D.V.L. ulti IBM UltiMotion (decoders: ultimotion ) DEVI.S utvideo Ut Video DEVI.S v210 Uncompressed 4:2:2 10-bit D.VI.S v210x Uncompressed 4:2:2 10-bit （以下略）

いろんなところで使われている (3) 映像作品の納品フォーマットとして（伝聞映像上映イベントの再生フォーマットとして FRENZ というイベントで 2017 年から使われている https://frenz.jp/

作り始めたきっかけ

エースコンバット6をキャプりたかった 2007年にエスコン6のプレイ動画をHD (720p) でキャプりたかった非圧縮 YUV422 だと 1280x720x2x60=約110MB/s 今なら単発HDDでもこれぐらい出るが当時は無理だった（最外周の一番速いところでも70MB/sぐらい） SSDもまだまだバカ高かった何らかの圧縮をしてからHDDに保存する必要があるちなみにできた動画が https://www.nicovideo.jp/watch/sm1770031

Huffyuv 2007年後半、キャプチャ向け映像コーデックとして有力なのは Huffyuv であった HDキャプチャ用途だと以下の問題があった圧縮比がちょっと足りない速度がちょっと足りないシングルスレッド MMX 前提（= SSE2 を使っていない）

どう問題になるか圧縮比があまり高くないので、やっぱり単発HDDでは追いつかないことが時々ある仕方ないので2台でRAID0していた RAIDしても今度はCPUの処理が追いつかないことが時々ある定格 2.4GHz の CPU を 3.0GHz まで OC してお茶を濁す

ちかたない自分に需要がある自分に作る能力がある作ることに対する興味があるので作る他人にもたぶん需要がある自分に作る能力がある作ることに対する興味があるので作る年末ごろからどういう方向で作るかを考え始めた（…と記憶している（曖昧

圧縮手法

そもそも論一般的に映像エンコードはこんな処理をする左右の画像は http://icooon-mono.com/ より

圧縮手法大枠としては Huffyuv と変わらない異なる圧縮原理を考えるような脳みそは無い Huffyuv が（時代背景のせいで）できなかったことをやることによって性能を向上させる説明（手法の必然性）の理解しやすさの観点から、圧縮の処理順序の逆順で説明する

圧縮手法 – ハフマン符号エントロピー符号化の一種であるハフマン符号を使って圧縮 Huffyuv では符号語テーブルが画像によらず固定だったので最適な符号化になっておらず圧縮比が低かったが、UtVideo では（ほぼ）正しくハフマン符号を使うので（ほぼ）最適である

圧縮手法 – フレーム内予測単に画像を直接ハフマン符号化しても小さくならない近傍のピクセルから値を予測してそれとの差を取り、値をゼロ付近に集めてエントロピー（情報量）を削減すると、圧縮しやすくなる予測の際は、近傍のピクセルと値が近いことが多い、という性質を利用する

圧縮手法 – フレーム内予測 (2) 予測タイプは現在3種類ある left – 左の値を予測値とする gradient – 左、上、左上の値からなる1次関数で予測値を得る予測値 = left + top – topleft median – 左、上、 gradient の3つのうちの中央値を予測値とする予測値 = median(left, top, gradient) UtVideo においては median, left, gradient の順に実装した

圧縮手法 – フレーム内予測 (3) 予測値の計算（と予測値との差の計算）は3種類とも SIMD 化できるピクセル間に依存関係がないので、ちゃんと要素数分だけ速くなる SIMD (Single Instruction Multiple Data) 複数のデータに対して同一の処理をまとめて行う並列化体系のこと

圧縮手法 – フレーム内予測 (4) 予測の復元（「予測値との差」だけがある状態から元の値を計算する）は、 median の場合 SIMD 化できない前のピクセルの値が次のピクセルの予測値の計算に使われており、しかも式が線形ではないから gradient と left は線形なので、要素数分とまでは行かないが SIMD 化で速くなる

圧縮手法 – planar 変換チャンネルごとに分解する（planar変換）画像は三原色（+アルファチャンネル）から成るが、チャンネルごとに圧縮のしやすさが異なる。圧縮のしやすさが異なるものは別々に処理した方が効率が良い

唐突に x86 のレジスタ構成 x86 のレジスタはこういう形式でアクセスできるようになっている EBX, ECX, EDX もある（他にもあるけど割愛） EAX に 0x12345678 を入れると、 AX として見ると 0x5678、 AH は 0x56、 AL は 0x78 となるここで AL に 0x90 を入れると AX は 0x5690 になる

細かいデザインハフマン符号化では、シンボルに対する符号語をテーブル参照で取ってきて、シフトしてつなげていく、という処理になる

細かいデザインハフマン符号化では、シンボルに対する符号語をテーブル参照で取ってきて、シフトしてつなげていく、という処理になる

細かいデザインハフマン符号化では、シンボルに対する符号語をテーブル参照で取ってきて、シフトしてつなげていく、という処理になる

細かいデザイン (2) CL レジスタに符号語長が入ると都合が良い ECX レジスタの上位 24bit が空いてるので符号語を入れる x86 の可変シフト命令ではシフトするビット数を CL レジスタで指定するため ECX レジスタの上位 24bit が空いてるので符号語を入れる符号語長と符号語を一発で ECX にロードできる

高速化の歴史

1.1.3 (2008-04-18) 最初の public release 予測タイプは median のみ遅い合計約2000行

2.1.0 (2008-05-01) スライス方式によりマルチスレッド化したスレッド間の同期処理はほとんどないので単純にコア数分だけの高速化になっている

2.2.0 (2008-05-07) ハフマン符号の符号化/復号化とフレーム内予測の予測/復元をアセンブリ言語で書いた特に、コンパイラが吐いてくれない命令を駆使することで高速化した SHLD – ハフマン符号化/復号化 BSR – ハフマン復号化 CMOVcc – フレーム内予測これでおおむね Huffyuv と同程度の速度になった

3.3.0 (2008-05-17) 部分レジスタストールを回避するように書き換えて predict median の復元を高速化長いレジスタ（たとえば EAX）の部分（たとえば AL）を更新した後に、更新した場所以外を含む領域を使おうとすると、部分の更新を一旦全体に結合するためにペナルティがかかる。これを部分レジスタストールという readme によるとハフマン符号等も含めた全体で 20% ほど速くなったらしい（単体だと50%ぐらい？

3.3.0 (2008-05-17) (2) SHLD 命令の使い方が甘かったのを改良してハフマン符号の符号化を高速化元の符号化のコードは C++ で書いたものをそのままアセンブリ言語で書き直した感じの物で、あまり効率が良くなかった

3.7.0 (2008-06-07) predict median の復元で CMOVcc 命令を駆使する代わりに MMX の PMAX/PMIN 命令を使って高速化 MMX は SIMD 命令セットであるが、この修正では最大値/最小値を一発で計算する命令を単一要素に対して使っている（CMOVcc 命令はそれほど速くないこの時の blog に「肝心のハフマンデコードが速くならないのでそろそろ限界が…」とか書いてある

3.8.0 (2008-06-10) ハフマンデコードが速くならないので諦めて predict left フレーム内予測方式を追加それなりにややこしい処理をする predict median と比べると単純であり、復元がハフマン復号化のついでにできるので圧倒的に高速である（デコードは全体で1.5倍速代わりに圧縮比は下がる

7.0.0 (2009-10-22) x64 版を追加ちなみに Windows 7 の発売日あわせである UtVideo のバージョンも 7 なのはたまたまとりあえず全部 C++ で書いてある（昔からある C++ コードが使われる）ので非常に遅い

7.1.0 (2010-04-04) AMD Athlon （K10 マイクロアーキテクチャ）でRGB/RGBA の処理が猛烈に遅い問題の解決具体的には全体で3倍ぐらい遅かった RGB/RGBA の場合、 planar 変換時に各 plane のポインタが同じ速度で進む各 plane バッファの先頭アドレスはそれぞれ「キリがいい」ので、各ポインタが常にキャッシュの同じエントリアドレスを指す

7.1.0 (2010-04-04) (2) K10 だと1次キャッシュが 2way セットアソシアティブなので、メモリアクセスするたびにキャッシュがスラッシングして猛烈に遅かった対策として、最初からずらしておけば、今度は絶対に同じエントリアドレスにはならない https://speakerdeck.com/umezawatakeshi/x86-x64-optimization-study-4-ut-video-codec-suite-is-slow-on-amd-processors を参照

8.2.0 (2010-09-05) 短い符号語の場合にテーブル一発参照方式をとることでハフマン復号化を高速化以前はデコードテーブルを小さく（約4KB）するためにめんどくさい（=時間のかかる）処理をやっていたが、今時1次キャッシュは32KBあるのでシンプルに行けることに気づいた全体として20%以上速くなったらしい

8.2.0 (2010-09-05) (2) こんな感じ符号語長のところに「12bit に収まっていない」と書いてあったら、次のシンボルのデコードは以前と同じ処理にフォールバックする

8.3.0 (2010-10-11) 8.4.0 (2010-10-17) predict left で native なフォーマットへのデコードで、ハフマン復号化の出力を planar 形式を経由せずに直接フレームバッファに書き込むようにして高速化 predict left の場合ハフマン復号化のついでにフレーム内予測の復元をすることが現実的メモリコピーと変換処理が削減された

8.3.0 (2010-10-11) (2) 8.4.0 (2010-10-17) (2) こんな感じで直接復号化していく

8.5.0 (2010-11-02) ハフマン復号化でループ内のレジスタ間 MOV 命令を1個削減して高速化命を削ってクロックを削れ！ループが1周10クロックぐらいなので、これだけで10%も速くなる命を削ってクロックを削れ！あと x64 が x86 と同程度にアセンブラ化された

12.1.0 (2013-04-23) packed <-> planar 変換を SIMD 化して高速化 Sandy Bridge (Core i 2000 series) だとシャッフル命令が十分に速い 2008年ごろは開発マシンに Merom (Core 2 Quad Q6600) を使っており、シャッフル命令が速くなかったせいで逆に遅くなっていたちなみにシャッフル命令が「だいぶ速くなった」のは Penryn （Merom の次）である。

12.1.0 (2013-04-23) (2) RGBA の変換の場合、以前は 64 シンボル処理するのに 64 クロック SIMD 化すると Sandy Bridge で 6 クロック Merom で走らせるとたぶん 24 クロックあれ、なんで遅くなるんだ…？

12.2.0 (2013-05-12) 再び部分レジスタストールを回避してハフマン復号化が高速化全体で見て5～10%ぐらい部分レジスタストール怖い

13.2.0 (2013-09-21) x64 で、64bit レジスタを駆使することで SHLD 命令を回避してハフマン復号化を高速化した Haswell マシン (Core i7-4770) を調達したので BMI2 命令 (SHLX, SHRX) を使ってさらに高速化両方合わせて Haswell なら最大25%高速化

17.2.0 (2016-12-30) ハフマン復号化で、テーブル1回の lookup で複数シンボル同時に出力するようにして劇的に高速化したハフマン復号化単体で言うと倍ぐらい行けるただし、復号化のついでに predict left の復元をやることができなくなる（やろうとすると複雑すぎて遅くなる）ので、デコード全体としてはそこまでではない

17.2.0 (2016-12-30) (2) それなりに圧縮できている場合は複数シンボルぶんの符号語が 12bit の中に収まっている可能性が高いので、だったらまとめて処理すれば速い代わりにデコードテーブルがかなり大きくなった（3倍）

17.2.0 (2016-12-30) (3) こんな感じこの図の例だと 3シンボル同時に出力される

18.0.0 (2017-04-01) predict gradient フレーム内予測方式を追加圧縮比が predict left より高めで、かつ SIMD 化のしやすさは left と同程度、といういいことづくめ圧縮比が高いとメモリアクセス等が減るので、結果的に速くなる今まで実装を避けていたのを後悔するレベル

18.0.0 (2017-04-01) (2) ハフマン符号化をループアンローリングして高速化ループ1周が数クロックなので、アンローリングの結果としてループ終了判定が削減されるだけでそれなりに速くなる（そこまで劇的な効果は無かったがこのあたりでフルHDの YUV420 クリップのデコードが 1000fps を超えた

20.2.0 (2019-01-14) x64 で、2シンボル同時に符号化することでハフマン符号化を高速化符号語長は最大24bitであるが、64bitレジスタになら2シンボル分載せることができることを利用する

20.2.0 (2019-01-14) (2) 2シンボルずつ符号化する場合、エンコードテーブルが1次キャッシュ (32KB) どころか2次キャッシュ (256KB) にも収まらない 1シンボルずつなら 8B x 256エントリ = 2KB であるが、 2シンボルずつだと 8B x 64Kエントリ = 512KB 一方、シンボルの出現確率には偏りがあるので、よくアクセスされるのは 256KB の範囲に収まるとみなして構わない

20.2.0 (2019-01-14) (3) 2次キャッシュにおおむね収まるなら、レイテンシの増加による性能劣化を上回って高速化できる 2次キャッシュのレイテンシは1次キャッシュの 3倍であるが、ループアンローリングのついでに先行して符号語をロードすることでレイテンシを完全に隠蔽できる x64 だとレジスタが多いのでこういうことが可能結果としてハフマン符号化だけを見ると倍速で処理できるようになった

20.3.0 (2019-03-14) 20.5.0 (2019-05-09) 一時バッファとしての planar フォーマットを経由せず、レジスタ上で処理してメモリアクセスを削減することで、特にマルチスレッド時の高速化をしたマルチスレッド時はコアの処理速度ではなくメインメモリの帯域で律速しているから極端な計測条件だと倍速になる

20.3.0 (2019-03-14) (2) 20.5.0 (2019-05-09) (2) 劇的に速くなることは理論的に予想できていたが、ルーチンの種類が爆発的に増えるので避けていた

20.3.0 (2019-03-14) (3) 20.5.0 (2019-05-09) (3) 複数 plane 同時に処理することになるので、ついでに predict median の復元の効率化が図られてそこでも高速化した同じ plane の前のピクセルには依存関係があるが、異なる plane のピクセルには依存関係がないので並列処理可能

結局どこまで速くなったか 60倍 Core i7-4770 / 8.4.0 までは x86 8.5.0 からは x64 マルチスレッド / predict median / crowd_run 4K

One More Thing… 19.0.0 の時に SIMD にやさしいフォーマットとして UtVideo T2 を追加したさすがに発表時間が足りないので詳細は割愛

俺たちの最適化はこれからだ！梅澤先生の次回作次バージョンにご期待ください T2 の説明もご期待ください（いつだ