Cloudera Apache Hadoopトレーニング 番外編 Cloudera World Tokyo 2014 2014/11/6 ライトニングトーク Tatsuo Kawasaki, Cloudera
About Me 川崎 達夫 (かわさき たつお) Senior Instructor @ Cloudera 川崎 達夫 (かわさき たつお) Senior Instructor @ Cloudera email: kawasaki@cloudera.com twitter: @kernel023 3年ぐらい日本でトレーニングをやっている 最近はHiveやImpala、Pigのトレーニング、今後Sparkも始まる
最近のHadoop事情 Hadoopが登場して8年半、Hadoopコアもエコシ ステムも大きく進化しています その中から最近のトピックを紹介します
1. HDFSの単一障害点? HDFSには単一障害点があるから使えないよね -> いいえ、高可用性の構成を組むことができます
2. HDFSは遅い? HDFSのパフォーマンスってイマイチなんだって …. -> 最近のHDFSはかなり高速化されています HDFS Caching (HDFS-4949) Short-circuit read (HDFS-2246) Zero copy read (mmap) (HDFS-4953) SSE4.2 CRC32 (HDFS-2080) Read Path improvement (HDFS-2080) …. もちろんワークロードに依存するので、ベンチマーク等での評価をお勧めします。その際は最新版(CDH5.2やHadoop 2.5.1)で!
3. HDFSには機能が足りない? HDFSって機能が足りないのよね.. -> 最近のHDFSには多くの機能が追加されていま す Extended Attributes (拡張属性) ディレクトリスナップショット NFSゲートウェイ HDFSキャッシング フェデレーション ローリングアップグレード 暗号化 (HDFS-6134: 2.6.0以降) Hueを使えばGUIでアクセスも可 HDFS Snapshot
4. MapReduce(YARN)には単一障害点が? -> HDFS同様に、高可用性の構成が可能です Resource Manager (Standby) (Active) NodeManager … Job History Server Master Nodes Slave Nodes
5. MRv1からMRv2への移行は? MRv1からMRv2の移行って、新しいAPIを使って アプリの書き直しが必要なんでしょ? -> いいえ、MRv1とMRv2は、旧API (mapred)、新 API (mapreduce)の両方に対応しています 開発者の負担は少ない バイナリーコンパチビリティ 一部のソースコードのビルドには コードの変更が必要 [*1] 運用側の負担はある 運用や設定項目が変更となるので YARNについての理解が必要 *1) http://tiny.cloudera.com/yarnmigrate
6. Hadoopを分析に使うには遅くて.. Hiveで分析しているんだけど遅くって… -> 選択肢が増えています SQL on Hadoop Hiveは処理基盤にMapReduceを使用しているため、分析等の用途に使うには速度面などに課題があるかもしれません 現在はMapReduceを使用しない SQL on Hadoopの選択肢があります Cloudera Impala、Presto、SparkSQLなど 参考ベンチマーク [*1] Apache Spark オンメモリデータ処理の分散処理基盤 将来的にMapReduceの置き換えに? Impala B-4 YJ杉山 Spark B-5 MUIT土佐、B-5 NTTD土橋, C-5 NEC中台 *1 http://www.slideshare.net/Cloudera_jp/evolution-of-impala-hcj2014
7. Hadoopの構築、運用って大変? Hadoopの構築や運用って、ツールを組み合わせて やらないといけないから大変だよね -> 多くの運用、管理ツールが登場しています Cloudera Manager(構築/運用),Cloudera Navigator(監査) Ambari(構築/運用) Hue (主にユーザー用途) Navigator C-2 Hue LT夜 Hue Cloudera Manager
まとめ Hadoopが登場して8年半、Hadoopコアもエコシステムも 大きく進化しています 進化したHadoopを活用しましょう! http://www.cloudera.co.jp/university/
Cloudera University トレーニング コース 概要 Cloudera Apache Hadoop エッセンシャル 1 日 なぜHadoopが存在しているのか、いつ利用するのが適切か、拡張を成功させるために必要なリソースは何かを学習します。Hadoopの主要なコンポーネントと広範囲なHadoopエコシステムを紹介します。 Cloudera Apache Hadoop 開発者向け トレーニング 4 日間 HDFSとMapReduceの基本と同様に、APIを使用してどのようにプログラムを記述するのか、デバッグと最適化のテクニック、大きなワークフローの管理方法を学習します。関連するApacheプロジェクトの概要を紹介します。 Cloudera Apache Hadoop 管理者向け トレーニング 4 日間 Hadoopシステム管理者のコンセプトと実務について、インストールと設定、デプロイにおける問題の診断と解決するための負荷分散とチューニングについて学習します。 Cloudera Apache Spark 開発者向けトレーニング 3日間 バッチ、ストリーミング、インタラクティブな分析を組み合わせた完全に統合したビッグデータアプリケーションを構築するために、Apache Sparkを使用した開発者のためのコースです。 Cloudera Apache HBase トレーニング 4日間 低遅延クエリと高スループットを実現するための分散データストアとして、HBaseの使用方法を学習します。本コースではスキーマ設計、アプリケーションの作成、設定とメンテナンスも網羅しています。 Cloudera データサイエンス入門 3日間 (日本での開催は未定) Apache Hadoopで分析とデータ変換を行うための、2つの人気のあるApacheプロジェクト、HiveとPigの使用方法について、フィルタ、結合、ユーザー定義関数などを学習します。 データサイエンス入門:レコメンドシステムを 構築する 3日間 (日本での開催は未定) データサイエンティストとは何か、解決できる問題は何か、異なる業界においてデータからビジネスの価値を導くために現実的な課題に適用する方法について学習します。自動化されたレコメンダシステムを実装します。
Thank You!