ETLツールと連携した提案事例 ウチダスペクトラム株式会社 SMART/InSightソリューショングループ sfukuda@spectrum.co.jp Rev.1 2013/05/24(金) ウチダスペクトラム株式会社 SMART/InSightソリューショングループ プロダクトマネージメントオフィス プロジェクトマネージャー 福田 進
SMART/InSightへのデータ投入 各種データをサーチエンジンへ投入 サーチエンジンに組み込まれたクローラーにより各種検索対象となるデータからインデックスを生成します。 この時、必ずしも検索対象として直接利用が困難なデータソースが存在します。 データ 活用・共有 サーチポータル データ 収集・蓄積 サーチエンジン データソース Web Site データベース Lotus/Notes SharePoint File Server
別途、外部クローラーManifoldCF, Fluentd等を利用しても同様です。 標準提供のクローラーの機能 サーチエンジンにて標準提供されるクローラーは基本的に非定型文書や直接接続する事が出来るデータベース、各種CMS等から取得できる内容を未加工のまま取り込む事が基本機能です。 取得後のコンテンツを加工してインデックスに取り込む際には検索エンジンのフィルターを個別に作成する必要があり、複雑化した場合、扱いが非常に困難になります(簡単な内容はInSight内でも提供) 別途、外部クローラーManifoldCF, Fluentd等を利用しても同様です。 各種データソース 1→男性 2→女性 0→不明 その他 検索インデックス 文書又は フィールドのデータ *上記は単純な事例です。
ETL処理 標準クローラーでの提案が困難な場合 エクセルシートの特定のセル位置やワード、PDFの特定項目からインデックス対象を取得したい。 →特殊なスクレーパーを個別に用意する。 複数のデータベースのレコード情報をマージして単一インデックスを作成した。 →インデックス対象に対して別途ビュー作成したり、事前のクレンジ ング処理によりインデックス可能な様式に構成する。 スクレープ、クレンジング処理を再利用可能 ETL処理
ETL処理 ETL処理とは Wikipedia によると Extract 外部の情報源からデータを抽出 各種データの変換、交換 Transform 抽出したデータをビジネスでの必要に応じて変換・加工 Load 最終的ターゲット(すなわちデータウェアハウス)に変換・加工済みのデータを ロード 各種データの変換、交換 *ネットワークでいうハブ相当の処理を担当 各種ファイル 各種DB ETL処理 (未確認) Web API JSON,XML等 *取り扱えるデータ種別は後述する為、一部のみ表示。
Talend DataIntegration,etc 数ある各種ETL製品のなかでTalendを推奨 コンポーネント数が充実している。 Javaのコードを生成する事で既存のJar(Java)コンポーネント用のコンポーネントの作成が可能。 ガードナー等の評価機関が高い割に初期導入のコストは低め 弊社がSI&コンサルティングパートナー
ライセンス体系―オープンソース版(GPL)、商用サブスクリプション版 Talend DI製品:GPLライセンスと商用ライセンスの相違点 # 項目 GPL製品 商用製品 1 対象製品 Talend Open Studio for Data Integration Talend Enterprise Data Integration 2 使用者のコスト負担 無償 有償 3 ライセンス形態 製品:GPL v2 生成プログラム:LGPL v2.1 サブスクリプションライセンス ※「Talend株式会社商用ソフトウェアライセンスおよびサービス契約」に基づく 4 生成プログラムの 使用・改変・頒布制限 LGPLに基づく 「Talend株式会社商用ソフトウェアライセンスおよびサービス契約」に基づきサブスクリプションライセンスの所有者に永久許諾 5 製品機能・問題事項に 関するお問い合わせ コミュニティベース (http://www.talendforge.org) ※別途有償でのサポートメニューも提供 SLAベースのサポートを提供 (Support Portal, e-mail, etc.) 6 ソースコード、及び 実行バイナリの入手 誰でも入手可能 サブスクリプションライセンスの 所有者のみTalendへ請求可能 ※ - 商用製品で生成するプログラムには、サブスクリプションライセンスの所有者がCopyright等を設定可能です。 - GPL製品にて定義したメタデータ、ジョブ、コンテキスト等は、商用製品への移行が可能です。
VS オープンソース版と商用ライセンス オープンソース版は単体のWindowsアプリケーション(Eclipseベース) 商用版は同様にWindowsベースのアプリケーションに加え サーバーによる分散ジョブ管理、SVNによるチーム開発等様々な機能を提供
5つの企業向けソリューション製品 3つの企業向けテクノロジー製品 製品体系 Data Management Data Enterprise Big Data Data Management Data Services MDM Enterprise Integration 3つの企業向けテクノロジー製品
Talend Enterprise Data Integration - データ統合 多様なデータ統合処理を標準化するテクノロジー製品
Talend Enterprise Big Data – データ統合 ビックデータ環境の統合を実現するテクノロジー製品
Talend Enterprise ESB(Enterprise Service Bus) アプリケーション統合を実現するテクノロジー製品
どの様なデータソースを取り扱えるか? 標準で450+のコンポーネントが提供
更に - コミュニティーによる提供 TalendForge オープンコミュニティーによる部品共有(ライセンス体系は個別) Solr, Twitter, Google Analystics等向けコンポーネントもあります 国内におけるコミュニティー
複数の顧客情報をETLプロセスでまとめてから中間DBを作成 LWEの標準クローラーにてインデックスを作成 弊社による提案事例(某旅行会社様) 複数の顧客情報をETLプロセスでまとめてから中間DBを作成 LWEの標準クローラーにてインデックスを作成 参照URL http://smartinsight.jp/solition/campaign 各部門で管理された複数の独立した顧客情報 共通する特定のキーによるハッシュ値に基づき簡易的な名寄せ相当の処理 Talend Data Integrator クロール処理
オンプレミス環境やクラウド上のM/R処理へデータ投入回収、回収後のデータをインデックス可能な様式に生成 その他のマッシュアップ用途 オンプレミス環境やクラウド上のM/R処理へデータ投入回収、回収後のデータをインデックス可能な様式に生成 TreasureData, Google BigQuery,etc LinkedDataをクロールして用途に応じたインデックスを生成 ldspider,etc ダッシュボード情報生成に伴いOLAPエンジンへ投入すると共に並列して軸情報をインデックス化する事でOLAPエンジンでは処理が困難なドリルスルー処理を構築等 QlickView,Jedox(Palo),etc ほんの一例ですが、御社のアイディア次第で活用が可能かと・・
操作画面例(1)データ処理とジョブフローをGUIベースで定義
操作画面例(2)スキーマの再配置
原則、ユーザーロックライセンスでのサブスクリプションでx1ユーザーより購入が可能。 導入費用 原則、ユーザーロックライセンスでのサブスクリプションでx1ユーザーより購入が可能。 用途に応じて異なりますが、Enterprise Data Integration の場合、 x1ユーザーあたり120万~ご利用いただけ、契約ユーザーであれば 構成機材の台数に制限はありません。 詳細は個別にご相談頂ければと存じます。
ご静聴有り難うございました。 Any Q ?