〈開発者ブログ 新連載〉Vol.1
~ データの可視化・分析について ~
開発者ブログ 一覧
- Vol.01 データの可視化は○○○○
- Vol.02 その分析に○○は含まれるか - メジャー編 -
- Vol.03 その分析に○○は含まれるか② - ディメンション編 -
- Vol.04 データの品質について考える
- Vol.05 "Analytics"から見たAWS re:Invent
- Vol.06 データ利活用におけるデータガバナンス
- Vol.07 データを分類する
- Vol.08 データレイヤーと内製化
- Vol.09 データプラットフォームとDX推進
- Vol.10 データを取り巻く言葉や概念を理解するために
- Vol.11 データを取り巻く言葉や概念 - Modern Data Stack -
- Vol.12 Single Source of Truth
- Vol.13 わくわくを忘れずに
はじめに
こちらの開発者ブログでは、可視化や分析に関する内容をご紹介します。
これまでの経験の中で、データの可視化や分析が思うように進まないというケースをたくさん目にしてきました。
特に可視化や分析に対する成熟度がまだ途上にある場合、
- 数値を読み解くための、基礎的な理解が不足している
- 数値感覚はあるものの、その感覚をロジカルに説明できない
こういったケースでは、当たり前と思われていることも言語化して共通認識を持つことが第一歩になります。
データの可視化は○○○○
今回は、テクニカルな話ではなく、可視化や分析において当たり前だけど重要な部分についてご紹介します。
データの可視化は健康診断
「企業の健康状態を明らかにする」というメタファーの話ではありません。
これから可視化をはじめようと思う、あるいは、はじめたけどうまくいかない、というお客様に
「可視化するにあたりどういう部分がポイントになるか」ということについて話をする機会があります。
そういった場面で私は健康診断になぞらえてポイントを伝えるようにしていますので、その内容を紹介したいと思います。
なお、可視化の目的は
- 日々の業務活動に必要な数値やKPIの達成状況をタイムリーに把握する
- 分析的に利用して知見を得る
に大別できますが、今回は主に前者についての話になります。
健康診断の結果表を思い出してみてください。
まず、総合判定が書いてあります。そういえば再検査が必要だったことを思い出したかもしれません。
それから、たとえば血液、肝機能などの分類ごとに正常か異常かなどが記載されていました。
「お酒の飲みすぎでy-GTPが許容値の2倍だよ」と話していた先輩社員のことを思い出します。
そして多くの場合、別紙がついていて、数値の説明と改善指導の内容が書いてあります。
y-GTPが異常値であれば、お酒や糖質を控えましょうといった趣旨のことが書いてあるかなと思います。
ここまで書いてきたことに、可視化において大事な要素が詰まっています。
>総合判定があります
>分類ごとに正常か異常かなどが記載
総合的に良いのか悪いのか、また各要素分解して良いのか悪いのかを視覚的に捉えることができます。
ダッシュボードではまず、「確認する必要があるのか、ないのか」ということがわかり、
確認する必要がある場合は、さらに「どこを重点的に見るべきか瞬時に判別できる」ことが重要です。
※このとき、数字を公平に扱うとか、私たちの好きなMECEだとかは忘れた方がよいです。
(これは別の機会に書こうと思います)
>y-GTPが許容値の2倍だよ
平均値や基準値など比較対象とその数値が明示されており、そこと比べてどうなのかというのがわかります。
数値は、断面(ある時点の状態を切り取ったもの)を見せる場合、何かしらとの比較によって意味を成します。
比較するのは、目標値であったり前年値であったり、あるいは隣のチームの数値であったりしますが、比較する(乖離を見る)ことによってその先の分析に繋がります。
>数値の説明と改善指導の内容が書いてあります
どのようなアクションをするべきかが明確になっています。
「可視化をしたい」というニーズは、ドリルの穴理論でいうドリルです。
本来的には、可視化をすることで問題点が明確になり、どういうアクションを打つべきかの意思決定が迅速に誰でも出来る状態というのを欲しています。
"現時点では"私はドリル屋ですからドリルを売りますが、本当に欲しいもの(穴)は何か、それをドリルでどう実現するかということは忘れないでいておきたいです。
そして最後に、健康診断は複数の検査(血液、レントゲンなど)の結果から成り立っています。
単一のシステムから得られる情報を可視化するだけでは、活用し切れているとは言えません。
これは健康診断で言うと、身体計測の結果だけを可視化している状態にあたります。
複数のシステムから得られた情報を掛け合わせてこそ、新しい知見が得られたり、状況をより正しく捉えることができます。
そのために、分析基盤が必要となるのです。
さぁ、可視化をしてみよう
せっかく健康診断を例にとったので、Tableauを使って、グラフを作ってみました。
先に書きますが、これは悪い例です。どこに問題がありそうでしょうか。
一番多い意見は、身長と体重を棒グラフで並べて表現している点についてでしょうか。
棒グラフは隣接した要素の比較に用いられるものであり、比較対象ではない身長と体重を棒で並べるのは意味のない表現です。
これは伝わりやすい表現方法についての話です。
表現方法については、Web上である程度まとまった記事を見つけることが出来ると思います。
他にも色々な指摘が出てくるかと思いますが、個人的に挙げたい点は以下になります。
「身長と体重を載せたのに、BMIが載っていないのはなぜ」
BMIが載っていないことが一概に「悪い」とは言い切れませんが、この可視化を続けていった先や分析をしていく上で、きっと立ち止まる場面がでてきます。
そこについては次回お伝えしようと思います。
データに触れるうえでは、想像することや仮説を立てることが大事になってきます。
ぜひ、想像してみてください。(この記事内にもヒントは書いてあります)
執筆者プロフィール
高坂 亮多
- ・2007年 新卒で当社に入社。
- ・所属:DI本部DP統括部 DP開発1部 副部長 および DP開発1課 課長 兼務
- (所属は掲載時のものです)
- ・好きなこと:登山やキャンプなど アウトドアアクティビティ
- ~ BI基盤(分析基盤)におけるアーキテクトとして日々業務にあたっています ~
開発者ブログ 一覧
- Vol.01 データの可視化は○○○○
- Vol.02 その分析に○○は含まれるか - メジャー編 -
- Vol.03 その分析に○○は含まれるか② - ディメンション編 -
- Vol.04 データの品質について考える
- Vol.05 "Analytics"から見たAWS re:Invent
- Vol.06 データ利活用におけるデータガバナンス
- Vol.07 データを分類する
- Vol.08 データレイヤーと内製化
- Vol.09 データプラットフォームとDX推進
- Vol.10 データを取り巻く言葉や概念を理解するために
- Vol.11 データを取り巻く言葉や概念 - Modern Data Stack -
- Vol.12 Single Source of Truth
- Vol.13 わくわくを忘れずに