データプロファイルとデータテスト

= 備考 =
  • CSVファイルのプロファイリングにおいて、カラム名(1行目)に「.」(ドット) を含む文字列は使用できません。

  • データプロファイルとデータテストは、インポート/エクスポートの対象外です。詳細画面で個別に設定する必要があります。

  • テーブル概要のレコード件数はクロール実行時、プロファイル画面のレコード件数はプロファイル実行時の件数を取得し表示しており、一致しない場合があります。

 

データプロファイル

テーブルやCSVファイルなどのデータを保持するアセットに対して、分析を行います。CSVファイルの場合は、スキーマ情報の解析も同時に行われます。

 

出力されるプロファイルの項目

プロファイル種別

説明

備考

Null%

NULL 値の割合

 

Distinct%

固有値の割合

 

Min

最小値

数値のみ

Max

最大値

数値のみ

Means

平均値(NULL 値は除外)

数値のみ

= 備考 =

CSVファイルをプロファイリングする場合、CSVファイルのデリミタや文字コードを指定する必要があります。[データプロファイル実行]の下にある「ファイルのデータプロファイル設定は、 こちらから設定してください。」をクリックして、CSVファイルの形式を指定してください。

 

 

データテスト

テーブルやCSVファイルなどにデータテストを実行し、データ品質のチェックを行います。

 

設定項目

項目名

説明

備考

カラム名

データテストを実行するカラムを選択します。

カラムの選択は必須となります。

データテスト名

データテスト種別 を選択します。

データテスト種別の選択は必須となります。

選択可能なデータテストは、表「データテスト種別」を参照してください。

説明

このデータテストについての説明を記載します。

 

 

データテスト種別

データテスト種別

説明

備考

isComplete()

Nullの値が無い場合に成功、そうでない場合は失敗となります。

 

isUnique()

重複している値が無い場合に成功、そうでない場合は失敗となります。

 

hasMin(num)

指定した数値(最小値)未満のデータが無い場合に成功、そうでない場合は失敗となります。

最小値の指定は必須となります。

hasMax(num)

指定した数値(最大値)よりも大きいデータが無い場合に成功、そうでない場合は失敗となります。

最大値の指定は必須となります。

hasPattern(string)

すべてのデータが指定した正規表現に合致した場合に成功、そうでない場合は失敗となります。

文字列型の項目にのみ対応しています。

正規表現の指定は必須となります。

 

共通項目

 

ユーザーの種類と権限

ユーザーの種類 プロファイル/データテストの実行 プロファイル/データテストの参照
Admin
Steward ○(自身がオーナーのアセットのみ対象) ○(参照可能なアセットのみ対象)
Member   ○(参照可能なアセットのみ対象)

 

対応接続先

DB系

  • PostgreSQL

  • Oracle

  • SQL Server

  • MySQL

  • Db2

  • JDBC

クラウドストレージ系(ファイル形式はCSV)

  • Amazon S3

  • Azure Blob Storage

  • Google Cloud Storage

 

データプロファイル/データテストの自動実行

自動実行の対象となっているアセットは、接続先ごとに設定されたスケジュールに従いデータプロファイルとデータテストが実行されます。

自動実行のスケジュール設定は、接続先編集画面で行います。

1つの接続先に対して、スケジュールは1つだけ設定可能です。

また、データプロファイル/データテストを自動実行させる場合、対象アセットのデータ品質タブから「<対象アセット>をデータプロファイル・テストの自動実行の対象にする」にチェックマークを入れてください。