「デジタルトランスフォーメーション」対談 | 第2回 ― なぜ今DataCatalogなのか？

「デジタルトランスフォーメーション（DX）を進めるにはデータを使うことが近道」その考えから、セゾン情報システムズではさまざまなデータをつなぐHULFT・DataSpiderに加わる新たなサービスとして「DataCatalog（仮称）」を企画しています。DataCatalogで実現する「データの地図」とはどういったものなのか、なぜ今それが必要なのか。ITRでBIシステムやデータ分析分野を担当するリサーチ・フェロー平井明夫氏と、DataCatalogのプロダクトマネージャーを務めるセゾン情報システムズ吉崎智明の対談をお届けします。

使う人が、いつでも必要なデータにアクセスできる

吉崎
最初にDataCatalogを企画した背景からお話しますと、これまで私たちはHULFTやDataSpiderといった製品で「データをつなぐ」ことに関する課題を解決してきました。しかしビッグデータ活用を進めるとなると新たに「データが分散していてどこにどんなデータがあるか分からない」という課題が出てきたのです。この先DXを進めることを考えるなら、ビッグデータ活用はもはや避けられません。そこでまずは、どこに、どのようなデータがあるのかを表す「データの地図」を実現できないか、と考えました。現状のエンタープライズの仕組みでは、いろいろな役割を持ったシステムが必要に応じて作られており、それぞれ技術も、規模も、重要性も異なりますが、データ中心に考えることで「データを使う人が、必要なタイミングで必要なデータにアクセスできる」ことを目指すのがDataCatalogのコンセプトです。

平井
DataCatalogのコンセプトをご説明いただきましたが、昔から「コーポレートデータモデル」あるいは「コーポレートデータリポジトリ」という考え方があり、M&Aなどにより短期間で大きな組織が複数統合する際に用いられてきました。お互いが持つデータをどう統合するかということで、M&Aの主導権を握った企業が顧客に紐づくさまざまな情報について、どういうデータがあり、どういう関係で、どこにあるのかを示すリポジトリ、つまりデータのマップ（地図）を作ります。新たに企業を買収するとその会社のデータを紐解き、自社のマップと突き合わせ、論理レベルで1つにまとめるのです。今までこの作業はドキュメントベースだったり、Excelの表や、データベースのER図を描くツールで代用するケースなどが多かったのですが、今回、DataCatalogという物理的に実現する専用のソリューションが登場した、歴史的にはそういった流れの中に位置づけられるのではないでしょうか。

既存DWHでは対応できない理由

平井
コーポレートデータリポジトリのような仕組みは、これまでは限られた業種・業態の、しかも世界でトップレベルの大企業のみの話でしたが、これからはどんな会社でも必要とする時代になります。一番の理由はやはりビッグデータです。これまではさまざまな業務アプリケーションのデータを分析専用のDWHにまとめ、BIツールをつないで分析していましたが、ビッグデータとなるとこの仕組みでは難しい。DWHでは、複数のデータをまとめる際に正規化し、データ同士を顧客IDや製品番号などで正確に関連付けています。そのための前処理としてETL処理を行いますが、リアルタイム性が高く、短時間に細かなデータが大量に発生するビッグデータでは、この処理が間に合いません。
もっと言えば、ビッグデータはそもそも正規化に向いていないんです。その多くは顧客に関連するデータですが、個人情報保護法などの理由から匿名化されているため、社内に持っている顧客データと紐づくことはまずありません。そのため、顧客の性別や年齢など、個人情報に触れない属性データレベルで統計処理的なことをするしかない。今までのETL処理とはまったく違う考え方です。データが発生したら全部紐づけて、1カ所に溜めるというDWHのような仕組みは、論理的にも物理的にももはや無理なんですね。
これまではシステム部門がETL処理を開発してDWHを運用し、ユーザ部門がBIツールで接続して使っていましたが、これからは今流行りの言葉でいうとデータサイエンティストやシチズンデータサイエンティストのような人たちが、ピボットの四則演算だけではなくて、相関的な分析までするようになります。DWHに入れるための前処理をその都度自分の手元でやる時代になっていく。そのためには未整備のデータをいかに正確かつ網羅的に、可視化できるかが重要になります。それがまさにDataCatalogの「データの地図」というわけです。

吉崎
データ活用の目的として、企業の経営層がやりたいのは売上アップやコスト削減といったことだと思うのですが、それらを実現するためにデータを使うにはスピードが重要です。ですが現状の仕組みでは、DWHなどのシステムを作る人、使う人がばらばらで、すべてをやっている人はいません。「現場はあらかじめ用意されたものを使う」というスタイルがスピード感を落としています。IoTなどの活用で、大量のデータを集められるようになった今、現場のビジネスユーザたちが使いたいときに、使えるデータにアクセスし、やりたいことを自分の手元でやれることが重要になるということですね。

人材不足は大きな課題

吉崎
データ活用を進めるにあたっては、もうひとつアナリスト不足という課題がありますよね。

平井
昔からこの業界には定説があって、セルフサービスBIのようなものを実際使う人は一般社員の10％と言われています。統計的な根拠はないのですが、それはもう永遠に変わらないのではないかと言われています。10人の部署があってもセルフサービスBIを使って本当にゼロからレポートを作っている人は1人しかいない。後の人はそれを見ているだけ。ですから、DataCatalogが普及してもそれはあまり変わらないでしょう。
また、これまではこの人たちも数学的素養はあまり要求されませんでしたが、ビッグデータでは統計的処理が入ります。アメリカでは管理職の多くがMBA取得過程で統計学を学び会得していますが、日本は違います。日本企業はこれまで同様、まずは少数精鋭でやるしかなさそうですね。

吉崎
分析というとハードルがあがりますが、たとえば営業現場などでは、お客様にこういう戦略でアプローチしたら成功したというナレッジの共有が進んでいますよね。データ活用でもDataCatalogを通して、「このデータに対してこんな分析をしたらこんな結果が出た」といったナレッジを共有できるのではと考えています。データに関する知識が醸成されるようなプラットフォームとして、人材の成長にも貢献できるでしょう。
DataCatalog自体は、スペシャリスト向けというわけではなく、幅広い方が使えるものを目指しています。企業で働く方の多くは行動を起こす際、データを見て意思決定をしているはずですから、そういったときに役立つものになるだろうと思っています。

新しいトレンドを切り拓くDataCatalog

平井
おそらくDataCatalogも導入初期に使うのは、やはりIT部門とデータサイエンティストやシチズンデータサイエンティストと呼ばれる人たちでしょう。そもそも最初は何も入っていないので、データを登録しないといけない。最初にIT部門がやるのは、今あるDWHのメタデータ情報をすべて入れることで、それだけでも意味があります。
これまでで言うとDWHという専門の人でなければ見られなかったものを、一般ユーザが見られるようにしたのがBIツールでした。ですから、BIツールを導入した企業のなかには無意識のうちに、ごくシンプルなDataCatalogのような仕組みを作っているケースがあります。DataCatalogにDWHのデータを入れるだけでも、これまでBIツールを使っていたユーザがすべてこちらに移ってくるのではないでしょうか。BIツールやDB、ETLツールのベンダも、これからDataCatalogのような製品を出してくる可能性は高いと思います。実際、こういったベンダの製品にDataCatalogに近い機能が追加されるケースを最近よく見かけます。特に外資系ではこういった製品を出してくるベンダが増えてくるでしょう。

吉崎
実際にDataCatalogのコンセプトに共感いただけるお客様も多くいらっしゃいます。データを集めてはいるけれど、今一歩その先に行くためにどうすればいいか検討しているお客様は特に関心が高く、こういった企業から活用が広がっていくのではと考えています。

平井
IoTが普及し、データを溜めている企業が増えてきた今、ビッグデータの分析をPoCで局所的におこなったところうまくいったので、ほかに展開したいというケースが増えていますが、このときにある程度うまくいったデータだけがあっても使えないんですよ。ビッグデータはいろいろな種類のデータを試すしかないので、そもそも社内に今すぐ手に入るデータがどこにあるか分からないとはじまりません。
これからはDWHにきちっと整備されたデータだけの分析では不十分です。ビッグデータの世界ではどんな結果が出るのかあらかじめ分かっているわけではなく、「試しにやってみよう」を繰り返すしかない。そのために必要となるのが「データの地図」ですから、DataCatalogのようなツールに対するニーズは今後高まっていくと思います。

吉崎
最近ではAIへの関心が高まっていますが、AIでデータを活用する際にはデータの品質が重要になります。このデータは使えるものなのか、正しいデータなのか、データの状態を把握しなければなりません。AIを使わないまでも「データがあるのは分かったけれど、使える（信頼できる）データなのかの判断が難しい」という声は多く聞きます。 DataCatalogでは、「データリネージュ」と呼ばれるデータの経路分析をする機能を実装する予定です。たとえばすぐ近くのデータマートならば、誰かが勝手に作ったものかもしれない、逆に基幹システムのマスタデータならば信頼できるなど、データの出所を理解することで、意思決定に使えるかどうかを判断できるようになります。それに加えてプロファイリングやクオリティといった実データの品質やガバナンスに関する機能も開発を進める予定です。

平井
ビッグデータやIoTが当たり前になり、これからはユーザが分析したいデータの範囲や種類が爆発的に増えていきます。気づけば20～30種類も増えていたということがあり得る。こうなるとこれまでの考えでは追い付けません。
DataCatalogは技術的にはDBなどよりもアプリケーション統合やデータ統合に近く、セゾン情報システムズさんから出てきたのはごく自然な流れに感じます。システムとしてさまざまなソースデータがあるなかで、データを分析して結果を活用するとき、一定以上の規模の企業では必ずDataCatalogが導入されている時代が来るかもしれませんね。

使う人が、いつでも必要なデータにアクセスできる

既存DWHでは対応できない理由

人材不足は大きな課題

新しいトレンドを切り拓くDataCatalog

「デジタルトランスフォーメーション」対談一覧

DataSpider Servistaで「つなぐ」をご体験ください

Change Location

使う人が、いつでも必要なデータにアクセスできる

既存DWHでは対応できない理由

人材不足は大きな課題

新しいトレンドを切り拓くDataCatalog

「デジタルトランスフォーメーション」対談 一覧

DataSpider Servistaで 「つなぐ」をご体験ください

Change Location

「デジタルトランスフォーメーション」対談一覧

DataSpider Servistaで「つなぐ」をご体験ください