Hadoop HDFSに任意の名前でファイルをアップロードしたい

キーワード:Hadoop,HDFS,ビッグデータ
シナリオ一覧に戻る

概要

Hadoop HDFSにファイルをアップロードしたい場合、ファイルアップロード処理を使用します。

サンプルプロジェクトの説明

ディレクトリ内のファイル名一覧を取得し、ファイル名に実行日付を付与してHDFSにアップロードします。


処理の流れ

サンプルプロジェクトの処理の流れは以下の通りです。
  1. ファイル名一覧取得処理」でディレクトリ内のファイル名一覧を取得します。
  2. 繰り返し(データ件数)処理」でファイル件数分、以下の処理を繰り返します。
    1. マッピング処理」でファイル名を編集し、スクリプト変数に代入します。
    2. ファイルアップロード処理」でHDFSにファイルをアップロードします。
実行結果のイメージについては、以下を参照してください。

ポイントとなる機能

名前 説明 ツールパレット上の場所
マッピング処理 入力データの変換を行います。 「変換」-「基本」-「マッピング」
ファイルアップロード処理 HDFS(Hadoop Distributed File System)にファイルをアップロードします。 「ビッグデータ」-「Hadoop HDFS」-「ファイルアップロード」

処理のポイント

ファイルアップロード処理は、アップロード後のファイル名を設定することができます。
[HDFSファイルパス]にスクリプト変数を使用することで、ファイルごとに異なるファイル名を設定します。

サンプルプロジェクトの使用方法

上記処理を実装したサンプルプロジェクトを用意しています。サンプルプロジェクトを使用する場合の手順は、以下の通りです。

サンプルプロジェクトファイル名 rl_reference_090.zip
  1. サンプルプロジェクトの展開
    サンプルプロジェクトファイル「rl_reference_090.zip」を展開します。

  2. プロジェクトのアップロード
    「rl_reference_090.zip」を展開後に作成される「rl_reference_090プロジェクト」ディレクトリがプロジェクトファイルとなります。
    DataSpider Studioを起動し、マイプロジェクトの画面から[ファイル]-[ローカルからアップロード]で展開したディレクトリ「rl_reference_090プロジェクト」をアップロードしてください。

  3. サンプルデータの準備
    「rl_reference_090.zip」を展開後に作成される「samples」ディレクトリがサンプルデータとなります。
    $DATASPIDER_HOME/server/samplesディレクトリに上書きしてください。

  4. グローバルリソースの設定
    コントロールパネルの[グローバルリソースの設定]から、[新しいグローバルリソースの追加]を選択し、Hadoop HDFSのグローバルリソースを追加します。
    グローバルリソースの設定方法については、「グローバルリソースのプロパティ」を参照してください。

スクリプトの作成手順

プロセスフローおよびデータフローは、「サンプルプロジェクトの説明」のスクリプト画像を参照して適宜設定してください。
  1. ファイル名として使用するスクリプト変数を作成します。

  2. デザイナのツールパレット「ファイル」-「ファイル操作」-「ファイル名一覧取得」から、ファイル名一覧取得処理をスクリプトキャンバスに配置します。

  3. デザイナのツールパレット「基本」-「フロー」-「繰り返し(データ件数)」から、繰り返し(データ件数)処理をスクリプトキャンバスに配置します。

  4. デザイナのツールパレット「変換」-「基本」-「マッピング」から、マッピング処理をスクリプトキャンバスに配置します。

  5. マッピング処理のMapperエディタを開き、実行日付を付与したファイル名を作成し、スクリプト変数に代入します。

  6. デザイナのツールパレット「ビッグデータ」-「Hadoop HDFS」-「ファイルアップロード」から、ファイルアップロード処理をスクリプトキャンバスに配置します。

  7. スクリプトを実行し、正常終了すれば成功です。