Cloudera Apache Hadoopトレーニング 番外編

Slides:



Advertisements
Similar presentations
プロジェクト名称 Inception Deck (Project Charter) 201X.XX.XX.
Advertisements

Oracle Application Express アーキテクチャ. © 2009 Oracle Corporation アーキテクチャ概要 データベース 9iR2 、 10g 、 11g 、 XE 内に統合 メタデータ駆動型 APEX リスナー、組込みゲートウェイ、または ModPLSQL を使用.
1 安全性の高いセッション管理方 式 の Servlet への導入 東京工業大学 理学部 千葉研究室所属 99-2270-6 松沼 正浩.
こさっきー クラウドの一般的なご紹 介. 目次 1. クラウドとは? 2. なぜクラウドって生まれたの? 3. クラウドってナニが新しいの? 4. クラウドのメリット・デメリット 「クラウド、クラウドって、 “ 雲をつかむような ” 話 だねー」 「昔からあったでしょう?そんな話」
テスト環境の見直しで貴社の開発が劇的に変わる!! 納期や品質の向上の決め手は、テスト環境の最適化にあります。
「図書管理」のための Webアプリケーション開発 -Apache/Tomcat/MySQL/Java on Windows XP-
AdventNet SwisSQL データベース自動移行ツール.
FPGA 株式会社アプライド・マーケティング 大越 章司
BOM for Windows セキュリティログ監視キット ファイル・アクセスログ収集ソリューション
IIS 4.0で開発をするコツ Webアプリケーション構築.
Windows HPC Server を使ってみる
Chapter11-4(前半) 加藤健.
管理権限とアクセス権 サイボウズ株式会社 Copyright © Cybozu.
Webアプリケーション開発の 基本的なポイント
JPAを利用した RESTful Webサービスの開発
.NET テクノロジー を利用した SAP ソリューションの拡張 (3階層化) (評価環境構築ガイド)
Copyright by Rich & Giro
Docker.
マルチプラットフォーム対応 P2Pファイル共有ソフトの開発
WebサービスII (第10回) 2007年11月28日 植田龍男.
PacSec Nov 6, ISMSおよびその重要性 Richard Keirstead CISSP, BS7799 主任監査員
データマイニングのための柔軟なデータ取得、操作を支援するAPIの設計
マルチプラットフォーム対応 P2Pファイル共有ソフトの開発
Microsoft Office Project 2007
Fiery Color Profiler Suite v4.7
複数のコンピュータ(ノード)を一群にまとめて、信頼性や処理性能の向上を実現するシステム
データモデリング トップダウンモデルと ボトムアップモデルの融合
自作組込みOSを エミュレータで 動かしてみた 坂井弘亮 (KOZOSプロジェクト) Twitter ID:kozossakai.
Linked e-Stat インディゴ株式会社 STAT DASH グランプリ 2016 行政サービス開拓部門 2016/3/5
市販のソフトウェアが これほど脆弱な理由 (それをどのように解決するか).
垂直統合システム / Converged System
Delphi Day ~Delphi 概要、および新バージョンのご紹介~
JavaScript Language Update
都市情報学専攻 情報基盤研究分野  M04UC513  藤田昭人
複数CPU間のための共有メモリ 小島 隆史(中央大学大学院理工学研究科 國井研究室)
CSP記述によるモデル設計と ツールによる検証
TA 高田正法 B10 CPUを作る 2日目 SPIMのコンパイル TA 高田正法
.NET テクノロジー を利用した SAP ソリューションの拡張 (3階層化) (評価環境構築ガイド)
mySAP CRM を支える Microsoft テクノロジー概説
マイクロソフト株式会社 SAP/Microsoft コンピテンスセンター
A Brain-Friendly Guide
Oracle APEX Forms変換の概要
オブジェクト指向 プログラミング 第十四回 知能情報学部 新田直也.
SharePointによるSQL BI 2012年8月4日.
Riakデータベース on SoftLayer
最適設計と設備投資の経済計算 JMAセミナー 目標 6時間 期間 3ヶ月 講師 MEマネジメントサービス編
Microsoftのマルチプラットフォーム戦略
.NET Framework 3.0 概要 (旧称 : WinFX)
オブジェクト指向 プログラミング 第十四回 知能情報学部 新田直也.
アップデート 株式会社アプライド・マーケティング 大越 章司
平成30年度高知工科大学教職科目 微分方程式特論I 11 高知大学教育学部技術教育コース 北川 晃.
SOA基盤製品 「見る、聞く、体験する SOAノウハウツアー」
ゲーム開発モデルの基礎.
宇宙科学統合解析環境の構築とAstro-E2解析支援
Ibaraki Univ. Dept of Electrical & Electronic Eng.
~求められる新しい経営観~ 経済学部 渡辺史門
端末・エッジ・クラウド連携の三位一体による 「考えるネットワーク」の研究
セカンダリ データベースを Linux に移行して 9 か月未満で投資を回収
修士研究計画 CGM作成・共有支援基盤(仮)の構築
SQL Server ベースの SAP システム における高可用性ソリューション
Db2 Warehouse on Cloud Db2 on Cloud フルマネージドサービス提案時の注意点
「拝啓、さかもとと申します」 2008年6月28日 わんくま同盟 勉強会初参戦。 ※最重要 -質問はご遠慮願います-
「拝啓、さかもとと申します」 2008年6月28日 わんくま同盟 勉強会初参戦。 ※最重要 -質問はご遠慮願います-
フィンテック企業が Linux で SQL Server の パフォーマンスと スケーラビリティを取得
SAPジャパン株式会社 エデュケーション・サービス事業本部 2009年7月
知識ベースの試作計画 ●●●研究所 ●●●技術部 稲本□□ 1997年1月.
特定ユーザーのみが利用可能な仮想プライベート・ネットワーク
ベイジアンネットワークと クラスタリング手法を用いたWeb障害検知システムの開発
アップデート.
岩手県立大学ソフトウエア情報学部 3年 鈴木研究室所属 井ノ上 憲司
Presentation transcript:

Cloudera Apache Hadoopトレーニング 番外編 Cloudera World Tokyo 2014  2014/11/6 ライトニングトーク Tatsuo Kawasaki, Cloudera

About Me 川崎 達夫 (かわさき たつお) Senior Instructor @ Cloudera 川崎 達夫 (かわさき たつお) Senior Instructor @ Cloudera email: kawasaki@cloudera.com twitter: @kernel023 3年ぐらい日本でトレーニングをやっている 最近はHiveやImpala、Pigのトレーニング、今後Sparkも始まる

最近のHadoop事情 Hadoopが登場して8年半、Hadoopコアもエコシ ステムも大きく進化しています その中から最近のトピックを紹介します

1. HDFSの単一障害点? HDFSには単一障害点があるから使えないよね -> いいえ、高可用性の構成を組むことができます

2. HDFSは遅い? HDFSのパフォーマンスってイマイチなんだって …. -> 最近のHDFSはかなり高速化されています HDFS Caching (HDFS-4949) Short-circuit read (HDFS-2246) Zero copy read (mmap) (HDFS-4953) SSE4.2 CRC32 (HDFS-2080) Read Path improvement (HDFS-2080) …. もちろんワークロードに依存するので、ベンチマーク等での評価をお勧めします。その際は最新版(CDH5.2やHadoop 2.5.1)で!

3. HDFSには機能が足りない? HDFSって機能が足りないのよね.. -> 最近のHDFSには多くの機能が追加されていま す Extended Attributes (拡張属性) ディレクトリスナップショット NFSゲートウェイ HDFSキャッシング フェデレーション ローリングアップグレード 暗号化 (HDFS-6134: 2.6.0以降) Hueを使えばGUIでアクセスも可 HDFS Snapshot

4. MapReduce(YARN)には単一障害点が? -> HDFS同様に、高可用性の構成が可能です Resource Manager (Standby) (Active) NodeManager … Job History Server Master Nodes Slave Nodes

5. MRv1からMRv2への移行は? MRv1からMRv2の移行って、新しいAPIを使って アプリの書き直しが必要なんでしょ? -> いいえ、MRv1とMRv2は、旧API (mapred)、新 API (mapreduce)の両方に対応しています 開発者の負担は少ない バイナリーコンパチビリティ 一部のソースコードのビルドには コードの変更が必要 [*1] 運用側の負担はある 運用や設定項目が変更となるので YARNについての理解が必要 *1) http://tiny.cloudera.com/yarnmigrate

6. Hadoopを分析に使うには遅くて.. Hiveで分析しているんだけど遅くって… -> 選択肢が増えています SQL on Hadoop Hiveは処理基盤にMapReduceを使用しているため、分析等の用途に使うには速度面などに課題があるかもしれません 現在はMapReduceを使用しない SQL on Hadoopの選択肢があります Cloudera Impala、Presto、SparkSQLなど 参考ベンチマーク [*1] Apache Spark オンメモリデータ処理の分散処理基盤 将来的にMapReduceの置き換えに? Impala B-4 YJ杉山 Spark B-5 MUIT土佐、B-5 NTTD土橋, C-5 NEC中台 *1 http://www.slideshare.net/Cloudera_jp/evolution-of-impala-hcj2014

7. Hadoopの構築、運用って大変? Hadoopの構築や運用って、ツールを組み合わせて やらないといけないから大変だよね -> 多くの運用、管理ツールが登場しています Cloudera Manager(構築/運用),Cloudera Navigator(監査) Ambari(構築/運用) Hue (主にユーザー用途) Navigator C-2 Hue LT夜 Hue Cloudera Manager

まとめ Hadoopが登場して8年半、Hadoopコアもエコシステムも 大きく進化しています 進化したHadoopを活用しましょう! http://www.cloudera.co.jp/university/

Cloudera University トレーニング コース 概要 Cloudera Apache Hadoop エッセンシャル 1 日 なぜHadoopが存在しているのか、いつ利用するのが適切か、拡張を成功させるために必要なリソースは何かを学習します。Hadoopの主要なコンポーネントと広範囲なHadoopエコシステムを紹介します。 Cloudera Apache Hadoop 開発者向け トレーニング 4 日間 HDFSとMapReduceの基本と同様に、APIを使用してどのようにプログラムを記述するのか、デバッグと最適化のテクニック、大きなワークフローの管理方法を学習します。関連するApacheプロジェクトの概要を紹介します。 Cloudera Apache Hadoop 管理者向け トレーニング 4 日間 Hadoopシステム管理者のコンセプトと実務について、インストールと設定、デプロイにおける問題の診断と解決するための負荷分散とチューニングについて学習します。 Cloudera Apache Spark 開発者向けトレーニング 3日間 バッチ、ストリーミング、インタラクティブな分析を組み合わせた完全に統合したビッグデータアプリケーションを構築するために、Apache Sparkを使用した開発者のためのコースです。 Cloudera Apache HBase トレーニング 4日間 低遅延クエリと高スループットを実現するための分散データストアとして、HBaseの使用方法を学習します。本コースではスキーマ設計、アプリケーションの作成、設定とメンテナンスも網羅しています。 Cloudera データサイエンス入門 3日間 (日本での開催は未定) Apache Hadoopで分析とデータ変換を行うための、2つの人気のあるApacheプロジェクト、HiveとPigの使用方法について、フィルタ、結合、ユーザー定義関数などを学習します。 データサイエンス入門:レコメンドシステムを 構築する 3日間 (日本での開催は未定) データサイエンティストとは何か、解決できる問題は何か、異なる業界においてデータからビジネスの価値を導くために現実的な課題に適用する方法について学習します。自動化されたレコメンダシステムを実装します。

Thank You!