データ活用やDXがどんどん解る用語集
ETL

「ETL」

データ活用やDX成功に必要な考え方を、各種するキーワードの解説で理解できる用語解説集です。
今回はデータ活用の実現において実は重要な要素となることが多い、「つなぐ」技術と、その一種である「ETL」について解説をし、データ活用をうまく進めるために心がけるべきことについて考えます。

ETLとは

ETL(イーティーエル)とは、Extract/Transform/Loadを略した言葉です。ITシステムやクラウドなどの様々なデータソースからデータを抽出(Extract)し、必要なデータ変換処理(Transform)を行い、他のシステムにデータを流し込む(Load)、一連の流れを略したものが「ETL」で、それを実現するソフトウェアツールのことを「ETLツール」や「ETL」と呼びます。
データ活用に取り組むとなると、どうしてもデータの分析作業や可視化ツールなどが話題の中心となりがちで、データ基盤も必要であるくらいまでが意識されやすい範囲です。しかし実際には、データを集めてくる段階の「データ連携」に多くの工数がかかることが多く、その手間を解消する手段と考え方がETLになります。

ETLが生まれるまで:「データ活用の現実」とはこんな冴えない状況

ETLの必要性はなかなか理解しづらいところがあります。しかし、データを活用しようとして取り組みを進めてみると、実際には必要になってくるものがETLなどの「つなぐ」技術です。それでは、データ活用に取り組むとはどういうことなのか、ちょっと考えてみましょう。

1. データ活用に取り組もうと考える

昨今の時代の流れもあり、自社でもデータ活用に取り組まなければいけないという話になったとします。これまではExcelで月次報告用に分析レポートを作ることがあるくらいで、それ以上のことはやっていない。もっときちんとデータ活用を行わなければならない、そういう社の方針になって、データ活用に取り組むことになった、とします。

2. BIツールや機械学習のツールを調査する

取り組むことになりましたが、さてどうしたらいいでしょうか。データ分析に関するツールや機械学習のツールを調べたり、他社事例について調査したりするのではないでしょうか。

その結果、データを様々な分析軸で集計分析し、解りやすく可視化することができる「BIツール」を導入してデータ活用に取り組むことにした、というようなことはありがちではないでしょうか。

3. でもその前に「データが必要」だと気がつく

スキルが高くない人でも使いやすいタイプの「BIツール」を導入したとします。確かにいろいろな分析ができるようになりました。しかしそこで、そもそも分析対象のデータがなければ分析は出来ないし、成果も出ないことに気がつきます。

データ活用を進めるためには、その前に「データ基盤を整備する必要がある」ことに気がつきます(「何がもっと重要なのか」の理解が進んだ)。そこで、分析用のデータを溜めておくデータベースである「DWH(データウェアハウス)」や「データレイク」などのデータ基盤を導入することにしました。

⇒ DWH|用語集 Vol.2

⇒ データレイク|用語集 Vol.3

4. DWH(データウェアハウス)にデータをどうやって溜めたらいい?

DWHを導入して社内にデータ基盤ができました。DWH上にデータを入れれば、BIツールを活用したデータ分析を行うことができ、得た知見も見やすくレポートにすることができます。

「あとはデータを入れるだけだ」と思いました。しかし、その作業がいつまでたっても終わりません。データは社内のあちこちに散在していて集める必要があり、さらにはデータの形式もそれぞれバラバラでした。そのままでは分析に使えず、手間をかけて変換処理をする必要がでてきました。しかも、社内で新しいデータが発生するたびに、データを集めてきて入れる作業が必要になります。さらにはデータは日々発生し、更新され削除されます。

データ活用に取り組むと聞くと、データを分析する作業そのものをイメージすることが多いはずですが、現実のデータ活用では分析作業そのものに取り組んでいる時間は、データ活用にかかる時間の全体の一部に過ぎませんでした。分析に取り掛かる前に必要なデータを集めてきて変換し、DWHに入れて整備する面倒で大変な作業が、実際にすることの大半だった、というのが本当の「データ活用の現実」でした。

ETLがデータ活用をスムーズに:データ活用での「やっかいな問題」を解決

確かにデータを集めてくる必要はあるだろう、しかし専用のツールを導入するほどなのか?と思った人もいるかもしれません。しかし残念ながら多くの場合、分析をしているのかデータを集めているのかわからなくなるくらい、データを集めて分析できる状態にする作業に多くの時間(データ活用全体にかかる手間のうち、8割とも9割以上とも言われる)がかかります。

分析よりも、その前のデータの準備の方に手間がかかるのは本質的なことです。ですから、仕方のないことでもあります。しかしそうであっても、できることならば減らすことができる作業時間は減らし、準備ではなく「分析作業などに使いたい」はずです。

そこで開発されたのが、多種多様なデータソースからデータを効率的に取得し、必要なデータの変換処理などを行える専用ツールでした。このような、実際のデータ活用を行う前に現実的に必要になる「データを集めてきて加工する」作業を、とても効率的にしてくれるのが「ETL」ツールです。

実は皆さんも「データを集めてきて加工する手間」は体験済みのはず

これを読んでいる皆さんにおいても「月次レポートを作成する」ようなありがちな状況で、ETLがあれば苦労せずに済む状況はおそらく経験されていると思います。

あちこちからデータを抜き出す、転記するなど手間をかけて取ってきて、集計作業用のExcelに貼り付けるような作業、誰でもやったことがあると思います。その際に、データの形式を揃えたりする前作業をすることもあったと思います(全角と半角を変換するとか、データ形式が揃っていないとか)。そうやって作った分析結果をさらにパワポに貼り付けて、ようやくレポートができる、そういう手間のかかる作業はありがちだと思います。

「月次の集計作業とはそういうものだ」と疑問に思ってこなかっただけで、改めて考えてみるとあまり生産的な作業ではありません。データを集めてきて変換して貼り付けているだけでもあって、頭を使って分析して考える作業そのものに時間を使えていないのは望ましいことではありません。このように「当然の作業」だと思われていた手間を減らすことができるのが、ETLなどの「つなぐ」技術になります。

今まさに活躍するETL:クラウド活用やDX実現の手段として

ETLなどの「つなぐ」手段の整備こそが実は重要であるのは、ここまで書いてきたようなデータ分析基盤を作る場合に限られません。クラウド活用の取り組むにおいて様々な局面でも、あるいは昨今話題になることが多い業務自動化やDX実現においても、データ連携が重要な要因であることがよくあります。

クラウドを導入して活躍させる手段として

クラウドサービスを新たに導入して活用したい、と思ったとします。クラウド導入においては多くの効果が期待されます。自社でコストや時間をかけてITシステムを開発せずに済みますし、迅速かつ低コストに導入することもできます。ともかくも導入するだけなら確かにその通りです、しかし導入することはゴールではありません。活用して活躍させて成果を出さねばなりません。

クラウドサービスを導入しても最初、データは何も入っていません。活用するためには、必要なデータを用意して入れる必要があります。必要なデータは社内のあちこちにバラバラの形式で散在しているはずです、同じく必要なデータを集めてきてクラウドに連携し、クラウドサービスが活躍できるようにする必要があります。

活用が無事始まってもまだデータの問題が起こります。例えば、メール配信サービスの活用が進んできて、自社のセミナーに参加した人にメール配信して欲しいと社内からお願いがあったとします。参加者一覧はセミナー申し込みで使っている別のクラウドサービスにあってデータ形式も異なります。しかもセミナーは毎週開催されます。自動でのデータ連携を実現する手段がなければ、毎週手間をかけてデータを出し入れすることになります。

しかもこのような問題は、導入したクラウドが活躍すればするほどに発生しますし、クラウドを導入した後、さらに別のクラウドサービスを導入することでも問題が発生し続けます(kintoneを導入した後に、Salesforceも導入するなど)。活用を進めるほどに活用を妨げる手作業の手間がどんどん増えるような状況では、クラウドの可能性を生かし切ることはできなくなるでしょう。

「それ以外」のIT、新旧ITを連携させる問題を解決する手段として

クラウド導入で問題になりやすいのが「それ以前から使われているIT」をどうするかです。典型的には昔からあるメインフレームなどの業務システムや、Excelで賄われてきた業務をどうするかなどの問題です。

クラウドに移行するから古いITは一気に廃止するなどと安易な方針が取られることもありますが、現実的には旧来のITを置き換えることは容易ではありません。またそのような前提を満たせる計画を作ってからクラウド活用に取り組むとなると、取り組み自体がスタートできなくなってきます。

現実的には、昔から使っているITと新しく導入されたクラウドの間で、手動でのデータ出し入れが延々と行われている結果になりがちです。望ましい状況とは言えません。多くの場合、以前からあるITを全廃することが現実的ではないので、現実に問題を解決できるのは「データの自動連携を実現できる手段」になるはずです。

業務自動化の優れた実現方法として

自社でIT活用を進めようとして「業務自動化」に取り組まれることは多いと思います。しかし例えば、RPAで業務自動化を試みるものの、最初はうまく動作しているように見えたけれどもたちまち安定動作しなくなったなど、うまく成果が出せていないことも多いと思います。

業務の自動化で本質的に行っていることは、データの出し入れや加工などデータ連携に関する処理であることが多いはずです。さらにはデータ連携ツールの多くは、データの読み込みと書きこみだけではなく、連携先のシステムの機能を呼び出すこともできます。

データ連携ツールを活用すれば、安定して動作し、大量のデータでも高速に処理できるなど、業務自動化でも良い成果をあげられることがあります。

データ活用を効率的かつ効果的に実現する「つなぐ」技術

データ連携により様々な問題を解消でき、データ活用についても、クラウド活用などの新しいIT活用についても多くの効果が期待できることが解ったとして、次に問題になるのは「どうやって実現するのか」「自社でも使いこなせるのか」ではないかと思います。

ETLあるいはデータの自動連携そのものは様々な手段で実現できます。通常のプログラミングによって作り込むこともできますし、簡易なツールでともかくもデータを連携させて済ませることもできます。プログラミングによる本格的な取り組みでは実現に時間とコストがかかりすぎる、かといってツールでは出来ることに限界があるのではないかと思え、なかなか良い方法がないと思われていることも多いのではないでしょうか。

このようなデータ連携のニーズを「GUIだけ」で効率的に開発できる手段が存在します。EAI」や「ETL」、「iPaaS」と呼ばれる、「DataSpider」や「HULFT Square」などの「つなぐ」技術です。これらを活用することで、データの自動連携処理をスムーズかつ効率的に実現することができます。

GUIだけで利用できる

通常のプログラミングのようにコードを書く必要がありません。GUI上でアイコンを配置し設定をすることで、多種多様なシステムやデータ、クラウドサービスへの連携処理を実現できます。

「GUIで開発できる」ことは長所でもある

GUIだけでのノーコード開発は、本格的なプログラミングに対して簡易で妥協的な印象を受けるかもしれません。しかしながら、GUIだけで開発できれば「業務の現場の担当者が自分たち自身で主体的にクラウド連携に取り組む」ことが可能になります。

ビジネスのことを一番良くわかっているのは現場の担当者です。彼ら自身によって、データ活用やクラウド活用、業務自動化について、必要なことをどんどん作りこめるのは、何かあるたびにエンジニアに説明してお願いしないと開発できない状況より、優れているところがあります。

本格的処理を実装できる

「GUIだけで開発できる」ことを謳っている製品は沢山ありますが、そういう製品に簡易で悪い印象を持っている人もおられるかもしれません。

確かに、「簡単に作れるが簡易なことしかできない」「本格的処理を実行しようとしたら処理できずに落ちてしまった」「業務を支えられるだけの高い信頼性や安定稼働能力がなくて大変なことになってしまった」ようなことは起こりがちです。

「DataSpider」や「HULFT Square」は、簡単に使うこともできますが本格的プログラミングと同等のレベルの処理の作りこみもできます。内部的にJavaに変換されて実行されるなど本格的プログラミングと同様の高い処理能力があり、長年にわたって企業ITを支えてきた実績もあります。「GUIだけ」の良さと、プロフェッショナルユースとしての実績と本格的能力の両方を兼ね備えています。

データ活用を成功させる「データ基盤」として必要なこと

多種多様なデータソースへの接続能力はもちろん必要になりますし、大量のデータを処理することになることがあるために高い処理能力、その一方で、データ活用では試行錯誤がどうしても重要になることが多く、現場主導でデータ連携を柔軟かつ迅速に作り、あるいは作り直せることも必要になります。

一般的には、高い性能や高度な処理の実現を求めると本格的なプログラミングや利用が難しいツールとなりがちで、現場での使いやすさを求めると利用しやすいが処理能力が低く簡易な処理しかできないツールになりがちで、このようなジレンマ、あるいはどちらかを我慢するトレードオフだと思われてしまっていることもあるかと思います。

さらに加えて多種多様なデータソース、特にメインフレームなど昔からあるITシステムや現場のExcelなどモダンではないデータソースへの高度なアクセス能力と、クラウドなど最新のITへのアクセス能力も併せて持っている必要があります。

この条件のいずれかを満たすだけなら多くの手段があるでしょうが、データ活用をうまく進めるためにはすべての条件を満たす必要があります。しかし、現場でも十分に使えるが、プロフェッショナルツールとして高い性能や信頼性を兼ね備えている、そんなデータ連携の実現手段となると多くはありません。

iPaaSなので自社運用不要

DataSpiderなら自社管理下のシステムでしっかりと運用できます。クラウドサービス(iPaaS)のHULFT Squareなら、このような「つなぐ」技術そのもの自体もクラウドサービスとして自社運用不要で利用でき、自社での導入やシステム運用の手間がなく利用できます。

関係するキーワード(さらに理解するために)

  • BIツール
    • -データを様々な分析軸で集計・分析できるツールです。データを分析し、分析結果を得る手段であり、分析結果をグラフなどで見やすい形でレポートにしてくれる機能などがあります。
  • DWH
    • -分析するためのデータを溜めておくためのデータベースです。分析に特化した性能になっており、大量のデータの保持や、分析処理の実行に向いた性能を備えていることが多い。
  • EAI
    • -システム間をデータ連携して「つなぐ」考え方で、様々なデータやシステムを自在につなぐ手段です。IT利活用をうまく進める考え方として、クラウド時代になるずっと前から、活躍してきた考え方です。
  • ETL
    • -昨今盛んに取り組まれているデータ活用の取り組みでは、データの分析作業そのものではなく、オンプレミスからクラウドまで、あちこちに散在するデータを集めてくる作業や前処理が実作業の大半を占めます。そのような処理を効率的に実現する手段です。
  • iPaaS
    • -様々なクラウドを外部のシステムやデータと、GUI上での操作だけで「つなぐ」クラウドサービスのことをiPaaSと呼びます。
  • クラウド連携
    • -クラウドを外部のシステムや他のクラウドサービスと連携させて利用すること。クラウドサービスの導入や活用をうまく進めるために、クラウドそのものの導入や活用と並んで重要なことが多いのがクラウド連携の実現です。
  • Excel連携
    • -現実のIT活用でどうしても無視できない存在がExcel。Excelを外部のITとうまく連携させることで、Excelの良さを生かしたままスムーズにIT活用を進められることがあります。

DataSpiderの評価版・無料オンラインセミナー

当社で開発販売しているデータ連携ツール「DataSpider」は、ETLとしての機能も備えており、多数の利用実績もあるデータ連携ツールです。

通常のプログラミングのようにコードを書くこと無くGUIだけ(ノーコード)で開発でき、「高い開発生産性」「業務の基盤(プロフェッショナルユース)を担えるだけの本格的な性能」「業務の現場が自分で使える使いやすさ(プログラマではなくても十分に使える)」を備えています。 データ活用のみならず、クラウド活用などの様々なIT利活用の成功を妨げている「バラバラになったシステムやデータをつなぐ」問題をスムーズに解決することができます。

無料体験版や、無償で実際使ってみることができるオンラインセミナーも開催しておりますので、ぜひ一度お試しいただけますと幸いです。

用語集 コラム一覧

英数字・記号

あ行

か行

さ行

た行

な行

は行

ま行

や行

ら行

わ行

技術コラム一覧

おすすめコンテンツ

まずは無料で「つなぐ」をご体験ください

評価版ダウンロード

DataSpider Servistaのデータ連携を、まずはお確かめください。30日間無料でお試しいただけます。

無料体験セミナーに参加する

DataSpider Servistaの「つなぐ」を体験できる製品紹介・オンラインセミナーを開催しています。

Change Location

Are you visiting HULFT.com (Japanese language) outside Japan ?
When connecting "HULFT" to Japan from overseas, please select "HULFT8".

日本国外からHULFT.com(日本語)にアクセスされようとしています。
海外から日本の「HULFT」と接続する製品をお探しの場合、「HULFT8」をお選びください。