CSVデータ読み取り処理

オペレーション名

CSVデータ読み取り

機能概要

HDFS(Hadoop Distributed File System)からCSV形式のファイルを読み取ります。

データモデル

本コンポーネントのデータモデルはテーブルモデル型です。

プロパティ

変数の使用については、「変数」を参照してください。
基本設定
項目名 必須/省略可 変数の使用 説明 備考
名前 必須 使用不可 スクリプトキャンバス上での名前を入力します。  
必須設定
項目名 必須/省略可 変数の使用 説明 備考
接続先 必須 使用不可 グローバルリソースを選択します。
グローバルリソースの設定方法については、「グローバルリソースのプロパティ」を参照してください。
  • [追加]:
    新規にグローバルリソースを追加します。
  • [一覧の編集]:
    「リソース一覧の編集」画面にて、グローバルリソースの設定を編集することができます。
 
HDFSファイルパス 必須 使用可 HDFSファイルのパスを入力します。
  • 以下の文字を使用することはできません。
    • 「 」(半角スペース)「<」「>」「"」「^」「[」「]」「{」「}」「%」「|」「`」「:」「;」
  • マルチバイト文字を使用することはできません。
列一覧 省略可 - 列を指定します。

各列は以下のボタンで操作することができます。
  • [追加]:
    列を追加します。
  • [上へ]:
    選択している列の順序を一つ上に上げます。
  • [下へ]:
    選択している列の順序を一つ下に下げます。
  • [削除]:
    列を削除します。
  • [列一覧]で設定した列数分だけデータを読み取ります。
  • [列一覧]で設定した列名がMapperのスキーマに表示されます。
列一覧/列名 必須 使用可 列名を入力します。

[列一覧の更新]プロパティアクションで[HDFSファイルパス]で指定したファイルの1行目を列名として設定できます。
 
プロパティアクション
項目名 説明 備考
列一覧の更新 [HDFSファイルパス]で指定したファイルの1行目を列名として設定します。
  • 指定したファイルが存在しない場合、または[HDFSファイルパス]に変数が設定されている場合は無効になります。
ファイルの一行目から列名を読み取り ファイルチューザでファイルを選択して、そのファイルの1行目を列名として設定します。  
ファイルから列数を読み取り ファイルチューザでファイルを選択して、そのファイルの列数を列名の列数として設定します。  
読み込み設定
項目名 必須/省略可 変数の使用 説明 備考
エンコード 必須 使用可 読み取るファイルのエンコードを選択または入力します。

入力する場合は、Java SE Runtime Environment 8でサポートされているエンコードを指定します。
詳細については、「Supported Encodings」(http://docs.oracle.com/javase/8/docs/technotes/guides/intl/encoding.doc.html)を参照してください。
  • デフォルト値は「UTF-8」です。
最初の行は値として取得しない 省略可 使用不可 指定したファイルの1行目をデータとして扱うかどうかを選択します。
  • [チェックあり]:
    データとして扱いません。
  • [チェックなし]:(デフォルト)
    データとして扱います。
 
データ処理方式
項目名 必須/省略可 変数の使用 説明 備考
データ処理方式 必須 使用不可 データ処理方式を選択します。
  • [スクリプトの設定を使用する]:(デフォルト)
    スクリプトプロパティの大容量データ処理の設定をアダプタに使用します。
  • [大容量データ処理を行わない]:
    大容量データ処理を行いません。
  • [大容量データ処理を行う]:
    大容量データ処理を行います。
 
コメント
項目名 必須/省略可 変数の使用 説明 備考
コメント 省略可 使用不可 このアダプタの簡単な説明を記述することができます。
説明を記述すると、仕様書に反映させることができます。
 

スキーマ

入力スキーマ

ありません。

出力スキーマ

[列一覧]の設定により、カラム数が異なります。
スキーマ構造については、「テーブルモデル型のスキーマ」を参照してください。

Mapperでのスキーマ読み込み

スキーマは自動で読み込まれます。
詳細については、「スキーマ編集」を参照してください。

大容量データ処理

大容量データ処理に対応しています。

PSPでの使用について

PSPで使用できます。
PSPについては、「パラレルストリーミング処理」を参照してください。

使用できるコンポーネント変数

コンポーネント変数名 説明 備考
count 読み取ったデータの件数が格納されます。
  • デフォルト値はnullです。
  • PSPでは値が格納されません。
filePath 読み取り元のファイルのパスが格納されます。
  • デフォルト値はnullです。
message_category エラー発生時、発生したエラーに対応するメッセージコードのカテゴリが格納されます。
  • デフォルト値はnullです。
message_code エラー発生時、発生したエラーに対応するメッセージコードのコードが格納されます。
  • デフォルト値はnullです。
message_level エラー発生時、発生したエラーに対応するメッセージコードの重要度が格納されます。
  • デフォルト値はnullです。
  • PSPでは値が格納されません。
error_type エラー発生時、発生したエラーの種類が格納されます。
  • デフォルト値はnullです。
  • エラーの種類は、以下のような形式となります。
    例:「java.io.FileNotFoundException」
  • DataSpider Servistaのバージョンにより、格納される内容が変わる可能性があります。
error_message エラー発生時、発生したエラーのメッセージが格納されます。
  • デフォルト値はnullです。
  • DataSpider Servistaのバージョンにより、格納される内容が変わる可能性があります。
error_trace エラー発生時、発生したエラーのトレース情報が格納されます。
  • デフォルト値はnullです。
  • DataSpider Servistaのバージョンや実行するクライアントアプリケーションにより、格納される内容が変わる可能性があります。

nullと空文字について

主な例外

例外名 原因 対策
ResourceNotFoundException
リソース定義が見つかりませんでした。名前:[]
[接続先]が指定されていません。 [接続先]を指定してください。
ResourceNotFoundException
リソース定義が見つかりませんでした。名前:[<グローバルリソース名>]
[接続先]で選択されたリソース定義が見つかりません。 [接続先]で指定したグローバルリソースを確認してください。
InvalidPropertyConfigurationException
<プロパティ名>が指定されていません。
[<プロパティ名>]が指定されていません。 [<プロパティ名>]を指定してください。
FileIsDirectoryException [HDFSファイルパス]に入力されたパスがディレクトリです。 [HDFSファイルパス]にはファイルパスを入力してください。
java.io.FileNotFoundException [HDFSファイルパス]に指定されたファイルが存在しません。 [HDFSファイルパス]を確認してください。
java.io.UnsupportedEncodingException [エンコード]にサポートされていないエンコードが指定されています。 Java SE Runtime Environment 8でサポートされているエンコードを指定してください。
詳細については、「Supported Encodings」(http://docs.oracle.com/javase/8/docs/technotes/guides/intl/encoding.doc.html)を参照してください。