オープンデータの活用には〇〇が重要!
事例とサンプルプログラムで解説
オープンデータとは?
オープンデータとは、インターネットなどを通じて誰でも自由に活用できる「公開されたデータ」のことです。国や地方自治体だけでなく、研究機関やさまざまな民間企業からも公開されています。
オープンデータの定義
官民データ活用推進戦略会議が平成29年に定めた「オープンデータ基本指針」では、オープンデータを次のように定義しています。
国、地方公共団体及び事業者が保有する官民データのうち、国民誰もがインターネット等を通じて容易に利用(加工、編集、再配布等)できるよう、次のいずれの項目にも該当する形で公開されたデータをオープンデータと定義する。
- ①
営利目的、非営利目的を問わず二次利用可能なルールが適用されたもの- ②
機械判読に適したもの- ③
無償で利用できるもの
つまりオープンデータとは、商用・非商用を問わず誰でも無償で利用でき、特定のソフトでしか扱えない形式ではなく、広く一般的なツールやプログラムで読み取れる形式で公開されるデータということです。「OPEN DATA HANDBOOK」でも同様の定義がされています。
またデータを公開する意義・目的についても次のように書かれています。
広範な主体による公共データの活用が進展することで、創意工夫を活かした多様なサービスの迅速かつ効率的な提供、官民の協働による公共サービスの提供や改善が実現し、ニーズや価値観の多様化、技術革新等の環境変化への適切な対応とともに、厳しい財政状況、急速な少子高齢化の進展等の我が国が直面する諸課題の解決に貢献することができる。
また、ベンチャー企業等による多様な新サービスやビジネスの創出、企業活動の効率化等が促され、我が国全体の経済活性化にもつながる。
このように国や自治体だけでなく、民間企業においても新ビジネスの創出やサービス価値向上に役立てられる有益なデータが提供されているということです。まさに宝の山、これらのデータを活用して企業成長につなげていきたいですね。
オープンデータの種類
具体的にどのようなオープンデータが公開されているのでしょうか。オープンデータは国や自治体だけでなく民間企業からも公開されています。
国・政府
デジタル庁をはじめとする各府省庁から、経済、医療、教育、交通、防災、観光などさまざまな統計データが公開されています。
「電子政府の総合窓口」として、厚生労働省など行政機関への手続きをオンラインで行えるだけでなく、憲法、法律、政令などのデータが公開されています。
政府統計のポータルサイトとして、各府省が実施している700以上もの統計調査のデータが公開されています。
金融商品取引法に基づく開示書類の電子開示システムで、有価証券報告書、公開買付届出書などが公開されています。
地域経済分析システムとして、産業構造、人口動態などの地域経済に関するデータが公開されています。
他にも国土交通省、厚生労働省、環境庁などなど、多くの機関から公開されています。
地方自治体
令和5年6月時点で47すべての都道府県を含む、1,449の自治体から公開されています。自治体ごとに防災、税金、観光、環境などのデータが公開されています。
公開されている全自治体の一覧については、デジタル庁のサイトから「オープンデータ取組済自治体一覧」で確認できます。
民間企業・団体
国や地方自治体だけでなく、民間の企業・団体が公開しているオープンデータもあります。気象データや地図情報など公益性の高いものから、ECサイト・口コミ情報など消費者ニーズを示すものまで多種多様なデータが公開されています。代表的な例をご紹介します。
英国のOpenWeather社が運営するOpenWeatherMapでは、気象データが公開されています。現在の天気など基本的なデータは無償で提供されますが、30日間の天気予報など一部のデータは有料プランで提供されています。
GoogleマップのデータをAPIで取得することができます。地図情報、地点間のルートや移動時間、周辺のスポット情報などのデータが利用できます。毎月一定の無償利用枠があり、その無償枠を超えた場合は有償となります。
楽天グループの提供する各種サービスのデータがAPIで提供されています。楽天市場の商品情報、楽天トラベルのホテル・旅館ランキング、楽天ブックスの口コミ情報などが取得できます。
オープンデータを使ってなにができる?
これらのオープンデータを使ってなにができるのかを考えてみましょう。
新規出店計画の立案
前述のe-Statに市区町村別の人口、世帯数が公開されています。このデータを使って新規出店する店舗の候補地を検討することができそうです。さらに出店候補地の人口に対する既存店の集中度合いを散布図でグラフ化したり、競合店の出展状況をプロットするなどして、より集客がしやすく収益性の見込める出店候補地を絞り込む使い方が考えられます。
売上の因果関係分析
自社の過去売上データと、天気や気温といった気象情報を照らし合わせることで、売上と気象条件との因果関係を分析するためにオープンデータが使えます。さらに、ある店舗における商品ごとの売上傾向と、その地域の属性(日照時間、交通量、年齢層、平均所得額など)の相関関係を分析することで、同じ地域特性を持つ別店舗での注力商材や効果的な棚割りなどを検討することができます。
電気使用量を活用した社会的課題解決
電力データはこれまで電気事業法によって利用が制限されていましたが、令和5年に電気事業法が改正され、電力データ集約システムの運用が開始されたことにより、一般企業への電力データの提供が開始されました※。近年スマートメーターの普及によって、ほぼリアルタイムに電力使用量を把握できる環境が整ってきています。このデータを利用して、配達予定先のリアルタイムの在宅状況を把握し、不在配送を削減するといった活用が期待されます。
- ※
電力データを使用するには、一般社団法人電力データ管理協会への利用会員登録が必要、利用会員になるためにはISMSやPMSなどの認証が必要、利用するデータによって年会費や利用料が必要といった条件があります。
オープンデータを活用するにはデータを組み合わせることが重要
これらユースケースからも分かる通り、オープンデータは一種類のデータを単独で見るよりも、複数のデータと組み合わせて分析することでより多くの示唆を得ることができます。企業においては自社データと照らし合わせて見ると良いでしょう。自身の状況に加えて、オープンデータの客観的な市場環境、統計情報などを照らし合わせることでさまざまな打ち手が見えてくるようになります。
こうした複数のデータを組み合わせるためには、いくつかの課題があげられます。
公開元がバラバラ
複数データを組み合わせるためには、当然ですがそれぞれの公開元からデータを取得する必要があります。単純に公開元ごとにURLが異なっているという点もありますが、取得するためのプロトコル(REST API、JDBC、FTPなど)が異なる場合もあります。また自社データの場合にはシステムによってはOAuthなどの認証が必要になる場合もあるため、それぞれの取得元が対応しているプロトコルや認証方法の違いも意識する必要があります。
データフォーマットがバラバラ
データを取得した後の課題としては、CSV、JSON、XMLなどのファイルフォーマットの違いが挙げられます。それぞれのデータ構造が異なっていては組み合わせることが困難なため、まずデータ構造を合わせる方法が必要になります。
データの持ち方がバラバラ
さらに「株式会社」と「(株)」、「港区赤坂1-8-1」「赤坂一丁目八番一号」など、同じものを表すデータであっても表現がそれぞれ違う場合があります。またデータを突合させるためのキーとなる項目が存在しない場合も考えられます。
そのためデータを組み合わせて使用するためには、複数の公開元からそれぞれの手段でデータを集め、データの構造や持ち方を扱いやすい形に変換・加工する必要があります。
オープンデータを自社データと組み合わせる方法
ではどのようにすればデータを組み合わせて使えるようになるでしょうか。方法はいくつか考えられます。
手作業で収集・加工する方法
それぞれの公開元Webサイトから手作業でデータをダウンロードし、Excelなどを用いて変換・加工を行う方法です。これはもっとも単純で確実な方法ではありますが、すべての工程を手作業で行うため相応の手間と時間がかかります。データが更新された場合などには同じ方法でもう一度やり直す必要があるため、再現性に課題が発生します。
プログラムで収集・加工する方法
PythonやRubyといったプログラム言語で処理を作成する方法です。手作業の課題であった再現性を克服することができますが、プログラムの作成にはプログラミングの知識が不可欠であるため、エンジニア以外の職種の方には難易度が高く、またプログラムの作成には多大な時間がかかることが難点になってきます。
RPAで収集・加工する方法
RPAとは、マウスやキーボード操作といったPC画面上での操作を記録してソフトウェアで再現するツールのことです。この方法では、ツールに操作を覚えさせる手間は必要になりますが、一度記録することで何度でも同じ操作を再現できるため、エンジニアでなくても扱うことができます。その一方で画面操作を再現しているため、公開元の画面レイアウトが変わった場合にはうまく動かなくなる可能性がありますし、データの内容によって編集の仕方が違うといった柔軟な制御がしにくい傾向があります。
代表的なRPAツール
データ連携ツールで収集・加工する方法
最後の方法は、ETLやiPaaSといったデータ連携の専用ツールを使う方法です。はじめに処理を作らなくてはならない点はRPAと変わりませんが、PC画面上の操作を再現するわけではないため、画面レイアウトの変更で動かなくなるといったことはありません。またデータの内容によって処理を分岐させるといった柔軟な制御も可能です。RPAツールに比べて高額な傾向があるため、年に数回だけオープンデータを分析したいといった用途ではコストが見合わないでしょう。逆に、日次の分析結果をいつでもBIツールで見たい、システム間連携による業務自動化も同時に行いたいといったニーズがある場合には、採用を検討する価値があります。
代表的なRPAツール
オープンデータを収集・加工するサンプル
ここではデータ連携ツールのひとつ「HULFT Square」を例に、オープンデータを収集・加工しているサンプルをご紹介します。ここでご紹介しているサンプルは、HULFT Squareがあればすべて無償で使うことができます。
e-Gov(デジタル庁)
e-Stat(総務省統計局、独立行政法人統計センター)
EDINET(金融庁)
gBizINFO(経済産業省)
RESAS(経済産業省)
法人番号システム(国税庁)
土地総合情報システム(国土交通省)
東京都オープンデータカタログサイト(東京都)
OpenWeatherMap
Google Maps Platform
Rakuten Web Service
リクルートWEBサービス
Yahoo!ショッピングAPI
データ連携ツールでオープンデータを活用している事例
実際にデータ連携ツールを用いてオープンデータを活用している事例をご紹介します。
河川流量や雨量データを活用した洪水予測(長野県 DX推進課)
長野県では、河川の洪水予測にオープンデータを活用しています。長野県には日本でもっとも流量の多い信濃川(長野県では千曲川と呼ばれます)をはじめ、木曽川、天竜川、姫川など多くの河川が流れます。また県内には77の市町村があり、これは全国で2番目に多い数になります。これら各市町村が持つ水位や雨量といったデータに、県が持つ河川情報や道路情報、さらに民間企業から得られる気象情報を収集分析することで、30時間以上先までの洪水を予測したり、浸水危険度推定などにオープンデータを活用しています。
参考)Webサイト自動巡回(クローリング)によって市町村の負担を軽減しながらデータ収集を実現する、77市町村が活用できるデータ連携基盤
経路距離などの地図情報を活用した配送コスト最適化
(能勢鋼材、滋賀大学、帝国データバンク)
能勢鋼材では、滋賀大学、帝国データバンクと共同で配送最適化アルゴリズムの研究を行っています。地図情報から得られる配送拠点間の経路距離や所要時間に、鋼材の重量やトラックの積載量といった情報も加味して最も効率よく配送できるルートを導き出すアルゴリズムの開発を行っています。また同様のアルゴリズムを他の会社でも利用できるよう開発が進行しているそうです。
参考)滋賀大学の産学連携プロジェクトにセゾンテクノロジーが参画 DataSpiderでプログラミングの効率化と見える化を支援
まとめ
オープンデータとは、商用・非商用を問わず誰でも無償で利用でき、ツールやプログラムで利用しやすい形式として公開されているデータであること、国・自治体・民間企業など多くの提供元から多種多様なデータが公開されていることをご紹介しました。
またオープンデータは単独で活用するよりも、自社データと組み合わせることで活用の幅が広がること、そのためには公開元ごとに異なるプロトコル、フォーマット、データ形式の差異を吸収する必要があることを説明しました。
さらにオープンデータを自社データと組み合わせる方法を紹介し、データ連携ツールを使ったサンプルもご紹介しました。
さいごに、弊社セゾンテクノロジーでは本記事でご紹介したデータ連携ツールも含め、オープンデータ活用についてのご相談をお受けしております。
https://www.hulft.com/service/hulft-square/inquiry
この記事がオープンデータ活用に取り組む方の参考になれば幸いです。