データプロファイルとデータテスト
-
CSVファイルのプロファイリングにおいて、カラム名(1行目)に「.」(ドット) を含む文字列は使用できません。
-
データプロファイルとデータテストは、インポート/エクスポートの対象外です。詳細画面で個別に設定する必要があります。
-
テーブル概要のレコード件数はクロール実行時、プロファイル画面のレコード件数はプロファイル実行時の件数を取得し表示しており、一致しない場合があります。
データプロファイル
テーブルやCSVファイルなどのデータを保持するアセットに対して、分析を行います。CSVファイルの場合は、スキーマ情報の解析も同時に行われます。
出力されるプロファイルの項目
プロファイル種別 |
説明 |
備考 |
---|---|---|
Null% |
NULL 値の割合 |
|
Distinct% |
固有値の割合 |
|
Min |
最小値 |
数値のみ |
Max |
最大値 |
数値のみ |
Means |
平均値(NULL 値は除外) |
数値のみ |
CSVファイルをプロファイリングする場合、CSVファイルのデリミタや文字コードを指定する必要があります。[データプロファイル実行]の下にある「ファイルのデータプロファイル設定は、 こちらから設定してください。」をクリックして、CSVファイルの形式を指定してください。
データテスト
テーブルやCSVファイルなどにデータテストを実行し、データ品質のチェックを行います。
設定項目
項目名 |
説明 |
備考 |
---|---|---|
カラム名 |
データテストを実行するカラムを選択します。 |
カラムの選択は必須となります。 |
データテスト名 |
データテスト種別 を選択します。 |
データテスト種別の選択は必須となります。 選択可能なデータテストは、表「データテスト種別」を参照してください。 |
説明 |
このデータテストについての説明を記載します。 |
|
データテスト種別
データテスト種別 |
説明 |
備考 |
---|---|---|
isComplete() |
Nullの値が無い場合に成功、そうでない場合は失敗となります。 |
|
isUnique() |
重複している値が無い場合に成功、そうでない場合は失敗となります。 |
|
hasMin(num) |
指定した数値(最小値)未満のデータが無い場合に成功、そうでない場合は失敗となります。 |
最小値の指定は必須となります。 |
hasMax(num) |
指定した数値(最大値)よりも大きいデータが無い場合に成功、そうでない場合は失敗となります。 |
最大値の指定は必須となります。 |
hasPattern(string) |
すべてのデータが指定した正規表現に合致した場合に成功、そうでない場合は失敗となります。 文字列型の項目にのみ対応しています。 |
正規表現の指定は必須となります。 |
共通項目
ユーザーの種類と権限
ユーザーの種類 | プロファイル/データテストの実行 | プロファイル/データテストの参照 |
---|---|---|
Admin | ○ | ○ |
Steward | ○(自身がオーナーのアセットのみ対象) | ○(参照可能なアセットのみ対象) |
Member | ○(参照可能なアセットのみ対象) |
対応接続先
DB系
-
PostgreSQL
-
Oracle
-
SQL Server
-
MySQL
-
Db2
-
JDBC
クラウドストレージ系(ファイル形式はCSV)
-
Amazon S3
-
Azure Blob Storage
-
Google Cloud Storage
データプロファイル/データテストの自動実行
自動実行の対象となっているアセットは、接続先ごとに設定されたスケジュールに従いデータプロファイルとデータテストが実行されます。
自動実行のスケジュール設定は、接続先編集画面で行います。
1つの接続先に対して、スケジュールは1つだけ設定可能です。
また、データプロファイル/データテストを自動実行させる場合、対象アセットのデータ品質タブから「<対象アセット>をデータプロファイル・テストの自動実行の対象にする」にチェックマークを入れてください。