Vol.7 データ分析のその前に!使えるカタチにデータを簡単加工する方法とは?
HULFTセミナー担当の岡崎です。
みなさん、年末年始はどのようにお過ごしになりましたか?
久しぶりに一家団欒された方、海外旅行に行かれた方、皆さまそれぞれ楽しまれたと思いますが、私はやはり、ゆっくりとおぞうにを食べるひと時が最高に幸せです。
今年も皆様に楽しんでいただけるHULFT小話をお届けできるようはりきってまいりますのでどうぞ宜しくおねがいいたします。
さて、今年最初のHULFT小話はファイル転送とは少しテーマを変えてお届けしたいと思います。
突然ですが、みなさん、業務でファイル転送を行う目的は何でしょうか?
- サーバー間、拠点間での業務ファイル連携
- 稼動中システムのログ収集
などお客さまによって様々ですが、ファイルを転送すること自体が目的ではなく、転送・収集したあと、そのデータを集計・分析して活用することが目的だという方は多くいらっしゃいます。
今だと、ビッグデータの活用も進み、BIツールと連携してデータを分析したいということもあると思います。
ただ、データを集計・分析するためには、集まってきたデータを「使える」かたちに加工が必要な場合もありますよね。
AWS(アマゾンウェブサービス)によると、データ活用において分析前のデータ加工には、なんと全体の70~80%の労力がかかっているという話もあるようです。
今回のHULFT小話は、そんなデータ加工の処理をHULFT Family製品「DataMagic」を使って、簡単に作成できる方法をご紹介します!
ご覧ください。
変換前データ
会社名 | 郵便番号 | 都道府県 | 住所 |
---|---|---|---|
株式会社セゾンテクノロジー | 212-0058 | 東京都 | 豊島区東池袋3丁目1番1号 |
(株)セゾンテクノロジー | 212-0058 | 東京都 | 豊島区東池袋3-1-1 |
株式会社セゾン商会 | 101-8443 | 東京都 | 千代田区神田錦町2-3 |
株式会社セゾン産業 | 810-0042 | 福岡県 | 福岡市中央区赤坂1-16-10 |
(株)セゾン商社 | 135-0121 | 東京都 | 港区台場2-3-1 |
まず項目「会社名」を見てみると・・・・
「株式会社」の表記が、"株式会社"や"(株)"であったりとバラバラな表記であることが確認できますね。
ただのリストとして閲覧するだけならこの状態でも問題ないかもしれません。
ですが、このデータを集計したり、さらに別のファイルと突き合わせして集計したいとなるとこのままではいけませんよね。
不統一な書式を「使える」かたちに統一する必要があります。
このデータ加工をツールを使わずに行おうすると、手作業での修正や、Excelだったらマクロを使ってプログラミングすることが考えられます。
ですが、色々と課題もありそうですね。
例えば、手作業での修正ですが、上記のように数件のデータならすぐに修正できそうですがこれが数百件、数千件となった場合どうでしょうか?
少し気が遠くなりますね・・・。
ヒューマンエラーも起こりえますし、ミスの修正にも時間がかかるなど効率的に問題があります。
マクロを使うにしても、プログラムのメンテナンスや修正時に、作った人しか分からないような属人化に陥ってしまうということも考えられます。
「DataMagic」を使えばそんな課題に悩むこともなく、GUIの操作で簡単に加工処理を作成することができます。
ではどんな風に加工を行うのかイメージを簡単にお見せしましょう。
DataMagicデータ加工画面
DataMagicのデータ加工では、上記のように関数を使うことにより項目ごとにデータ加工を行うことができます。
「REPLACE_REG」は文字列置換の関数です。
他にも、
- 日付フォーマットの変換
- 項目タイプの変換
- データのバイト数の取得
- 指定した位置からの文字列の取り出し
など、様々な加工を設定することができます。
他にも、英数字などの全角半角変換はクリック一つで簡単に設定することも可能です。
実行結果はこんな感じです。
変換後のデータ
会社名 | 郵便番号 | 都道府県 | 住所 |
---|---|---|---|
株式会社セゾンテクノロジー | 212-0058 | 東京都 | 豊島区東池袋3丁目1番1号 |
株式会社セゾンテクノロジー | 212-0058 | 東京都 | 豊島区東池袋3-1-1 |
株式会社セゾン商会 | 101-8443 | 東京都 | 千代田区神田錦町2-3 |
株式会社セゾン産業 | 810-0042 | 福岡県 | 福岡市中央区赤坂1-16-10 |
株式会社セゾン商社 | 135-0121 | 東京都 | 港区台場2-3-1 |
項目「住所」も、表記の仕方(丁目番地号と-(ハイフン))や数字の大文字小文字がバラバラになっていますね。
この書式の統一もDataMagicならGUIの設定で簡単にできてしまうのです。
さらにDataMagicはデータ加工実行用のコマンドを持っているので、HULFTと連携することもできます。
HULFTはジョブ連携機能を持っているので、ジョブにデータ加工実行コマンドを登録することで、HULFTでデータが転送されてきたら自動的にデータ加工を実行するといったことも可能なのです。
HULFTの転送とDataMagicによるデータ加工実行の連携設定
このようにDataMagicを使用すれば、データの活用を目的としたファイル転送もちょっとした設定だけで自動的に行うことができるようになるのです。
データ加工は件数が多く複雑になればなるほど、手作業やプログラミングでの対応は難しくなってきます。
データの集計・分析の作業もそれ自体が目的ではなく、その後の「活用」が一番大事な部分ですよね。
複雑で時間のかかる集計・分析はDataMagicのようなツールにおまかせして、最も重要なデータ活用に工数を割くことができます。
DataMagicはデータ加工以外にも、ファイル形式変換(CSV⇔フォーマット(固定長)変換など)やコード変換なども得意な製品です。
少しでも興味を持って頂けたら製品紹介ページをのぞいてみてください。
またDataMagicでデータ加工処理の作成を体験できるハンズオンセミナーも今月から開催します。
初めての方でもDataMagicの操作感や処理作成の手順をご体感いただけますのでちょっとさわってみたいなという方もお気軽にご参加ください!
次回もHULFTのちょっとした活用を方法をお届けします!
どうぞお楽しみに!
お問い合わせ
当コラムへのご意見・ご感想・お便りなど、お待ちしております。
連絡先:hulseminar@hulft.com
HULFT製品をご体験ください。
製品のお試し利用:
HULFT製品の評価版をご提供しております。60日間ご利用が可能です。お申込みから90日間のサポートも完備。インストールから実際のご利用まで皆さまをバックアップします。ぜひ、お気軽にお申込みください。
セミナー(事前登録制/無料):
HULFT製品ってどんな製品?どんな機能があるの?という疑問解消セミナーから、実機を使って実際にHULFTを操作をする事で製品のご理解をいただくハンズオンセミナーまでご用意しております。ぜひ、ご参加ください。