Data Integrationでできること

Data Integration(データ連携)とは、各種のソースからデータを抽出および結合し、形式を変更し、保存先にデータを格納するプロセスを示します。

HULFT Squareでは、各リソースの仕様の知識がなくても、コネクターを使用してさまざまなリソースの各種入出力データを処理できます。以下の図は、HULFT Squareでどのようにデータ連携が実現されるかを示しています。

図1.1 データ連携の概要

デザイナー

デザイナーでは、ETLスクリプトの開発、実行、およびデバッグをグラフィカルに行うことができます。スクリプトを作成するときにコードを記述する必要はありません。アイコンをドラッグして設定するだけで、データ接続とデータ連携を作成できます。

プロジェクトページで、目的のプロジェクトのプロジェクトを開くアイコンを選択するとデザイナーが開きます。

図1.2 デザイナー

オペレーション

オペレーションは、データの読み取りや変換、書き込みなどの処理を行う単位です。オペレーションはデザイナー上では1つのアイコン(コンポーネントアイコン)として表示されます。たとえば、CSVファイルからデータを読み取る処理はCSVファイル読み取り処理と呼ばれ、csv_readコンポーネントアイコンで表現されます。

コンポーネント

コンポーネントはオペレーションを表します。

コンポーネントは、以下の種類に分類されます。

  • コネクター

  • コンバーター

  • スクリプトコンポーネント

コンポーネントは、デザイナーのツールパレットでアイコンとして表示されます。

図1.3 コンポーネント

コネクター

コネクターとは、主にデータベースなどの外部のシステムからデータの読み取り、書き込みを行うコンポーネントです。以下の種類のコネクターが用意されています。

  • 基本

  • データベース

  • ファイル

  • アプリケーション

  • ネットワーク

  • クラウド

  • 暗号化

  • HULFT

コネクターは、デザイナーのツールパレットの下部分に表示されます。

図1.4 コネクター

コネクターによっては、使用するために追加のライセンスが必要になる場合があります。

= 備考 =

コネクターはDataSpider Servistaでは"アダプタ"と呼ばれています。

コンバーター

コンバーターとは、コネクターで読み取った結果データや変数を変換するためのコンポーネントです。

以下の種類のコンバーターが用意されています。

  • Mapper

  • 文字

  • XSLT

デザイナーのツールパレットで、コンバーターは基本および変換カテゴリに表示されます。

図1.5 コンバーター

Mapper

Mapperとは、あるコンポーネントで読み取ったデータを変換および加工して別のコンポーネントに書き込んだり、変数に代入したりできるコンポーネントです。

以下の種類のMapperが用意されています。

デザイナーのツールパレットで、これら3つのMapperは基本および変換カテゴリに表示されます。

図1.6 Mapper

Mapperエディターを使用して、Mapperを作成します。

スクリプトコンポーネント

スクリプトコンポーネントは、フロー制御や、他のスクリプトの呼び出し、メモの作成など、スクリプトの作成に必要な機能を表します。

デザイナーのツールパレットで、スクリプトコンポーネントは基本カテゴリに属し、処理フロー、またはその他サブカテゴリに分類されます。

図1.7 スクリプトコンポーネント

フロー

スクリプトには、処理の流れを表すプロセスフローと、データの流れを表すデータフローがあります。プロセスフローとデータフローを総称してフローと呼びます。

HULFT Squareでは、フローをプロセスフローとデータフローに分離することにより、一度処理した処理結果を後続のコンポーネントで何度も使用することができます。

フローを作成するには、まず起点となるコンポーネントアイコンを選択し、フローをつなげたいコンポーネントアイコンまでドラッグ&ドロップします。

プロセスフロー

プロセスフローとは、処理の流れを表します。スクリプトはプロセスフローで結ばれた順番に処理されます。

プロセスフローは、startコンポーネントから開始され、endコンポーネントおよびbreakコンポーネントで終了します。

データフロー

データフローとは、データの流れを表します。

読み取り系コネクターやコンバーターから書き込み系コネクターやコンバーターにデータフローを引くことができます。

結果データ

コンポーネントの処理結果を結果データと呼びます。

主に読み込み系コネクターとコンバーターが結果データを生成します。また、書き込み系コネクターとコンバーターは結果データを入力データとして扱います。

入出力

入出力とは、スクリプトの引数(スクリプト入力変数)と戻り値(スクリプト出力変数)のことです。入出力は、スクリプトで定義されたスクリプト変数に、入出力用の属性を付加することで実現されています。

HULFT Squareのスクリプトは複数の引数を取ることができ、複数の戻り値を返すことができます。

実行ID

スクリプトには、HULFT Square上で一意なIDが割り振られます(1スクリプトにつき1つ)。これを実行IDと呼びます。

実行IDは、デザイナー内の実行ログビューやモニタリングのイベントログでスクリプトを識別する際に必要となります。