こんにちは!冨成です。今日(2025/3/2)は、インターナショナルオープンデータデイです。インターナショナルオープンデータデイとは、「 毎年世界中で開催されるオープンデータの祭典です。世界中のコミュニティが、この日にそれぞれでオープンデータを利用するローカルイベントを開催します」という記念すべき日です。この日に合わせて、イベントをやったり、参加したりする日も多いのですが、今年は時間があるので、記事を書くことにします。
オープンデータとは?
オープンデータとは、誰もが自由にアクセスし、使用・再配布できるデータのことを指します。例えば、公共交通の時刻表、気象情報、人口統計などがオープンデータとして広く活用されています。政府、自治体、企業、研究機関などが公開することが多く、社会全体の利便性を向上させるために活用されています。では、何故、手間をかけてまで無料で公開されるのでしょうか?
なんでオープンデータなんてやるのか?
オープンデータ化するのは、国が進めるから?予算が付くからやる?
そういう訳でなく、ちゃんとメリットがあるからやるんですよ、きっと。人によって、考え方は変わるけど、私が考えているメリットは、こんな感じです。
- データを出すことで信頼が得られる
例えば、災害発生時の道路、水道などインフラの情報。これがオープンになることで、住民には実情が伝わり、それが安心信頼につながる場合があります。大本営発表で一次知的にはごまかせても、素直にオープンにすることが大切ですよね。 - データを出すことで理解が得られる
予算なんかもそうですが、全部示すことで、住民は誤解が少なくなるし、理解が進みますよね。情報公開請求しないと開示されない・・・では、理解するためのハードルが高過ぎます。 - データを共有することで協働できる
仕事を引き継ぎするとき、データをもらえないと、仕事のノウハウは一から集めないといけないですよね。災害時などに、データがあれば自助・互助したい局面でデータがあると、スムーズなこともありそうです。 - データが社会生活の基盤となりうる
公共交通、電力、ガス、道路などのデータは、用途も複数あり、活用の幅がとても広いです。こういったデータは生活の維持や新サービスによる地域課題の解決に使えるかもしれません。
世間では、オープンデータにする意義が、イノベーションとか新しいビジネスとかばかりフォーカスされていますが、一番大きな意義は信頼関係の構築じゃないかと思ったりします。
いまさらだけど、オープンってなに?
- 自由にデータを入手できること
データの入手に制限があると、そのデータは、使うことできない人が出てきます。オープンデータは、平等に使えるデータのことなのです。利用者登録しないと入手できないデータは、オープンデータとは言えません。 - 自由にデータを利用できること
データに利用制限があると、データを利用する人は、その制限を守らないといけなくなります。「例えば、バグあるシステムでの利用を禁止します」という制限があったとき、そのデータはを使うときに躊躇しちゃいますよね。色々と、条件を押し付けられるデータは、オープンデータとは言えません。
一般的に、オープンデータに着けることができる条件は、著作者表示と改変有無表示の二つです(CC BY 4.0はこれに該当します)。 - パソコンなどで容易に利用ができること
データの形式が特殊だと、特定の処理をしなければ、利用できなかったりします。また、データ構造についても、仕様が分からないものは、使うことができません。こういったものは、オープンデータとは言えません。
そんな条件だと、僕たちの「オープンデータ」が悪用されます・・・という方がおられます。そういう方は、どうすればいいかというと…
「僕たちのデータは、オープンデータではありません!」と言えばいいだけ!
簡単ですね、すぐやりましょう!
実際の運用
- データ入手の自由
オープンデータは、インターネットからダウンロードできるのが一般的です。その際、ユーザー登録、ログインなどを要求されません。一般人も、政治結社もデータを入手できます。家柄、年収も関係なく使えます。そういことが大切なんです。 - データ利用の自由
オープンデータは、どんな用途でも使えます、営利、非営、何にでも使えます。反政府活動にも使えちゃいます(それは別の法律、倫理観などでやっちゃダメですよ)。自由に使えることを何よりも重視しているのがオープンデータなんですよね。オープンデータにするときは、そのデータの性質を考えて、個人情報などが特定できないような処理はきっちりとしないとダメということになります。 - 容易に利用できること
ファイルの形式は、最悪でもPDF形式(これは微妙ですが…)、CSV形式、JSON形式などもそうですが、データ構造仕様についても、一般的というか標準的なものが利用されます。例えば、公共交通ではGTFS/標準的なバス情報フォーマットが使われます。野生動物の観測データについては、GBIF/Darwin Codeなどが使われます。オープンデータにするときは、可能な限り、業界標準にあわせるのが一般的です。
上記のような運用をすることで、データを活用する裾野が広がり、そのデータを生み出す人たちだけでなく、サービスを利用する人、興味を持つ人などをつないで、世の中を一歩先に進めることが期待されています。
オープンデータは活用されているのか?
でも実際のところお答えは、YES!です。
- 生成系AI(はやりなので書いておく)
例えば、いろいろな国は、原則として、いろいろな情報をオープンデータとしています(WEBサイトとかもオープンデータライセンスで公開している)。これらのデータをChatGPTなどの生成系AIは、”知識”として学習しているそうです(本人談)。知識なので、特に著作者表示をしないということらしい。 - 公共交通
例えば、乗換案内では、公共交通のオープンデータを多数利用しています。標準的なバス情報フォーマットは、地方自治体にも広く普及しており、最近では、地方のコミュニティバスでもYahoo!乗換案内などで検索することが可能となりました。バス会社ごとに検索する必要がなく、利用者の利便性向上に寄与しています。日本国内では、GTFSデータリポジトリが公共交通のデータをオープンデータで公開しています。また、公共交通オープンデータプラットフォームでも一部オープンデータを扱っています(”オープンデータ”という言葉があるが、オープンデータ以外も多数あるので注意が必要)。 - Wikipedia
みんな知ってるWikipediaもオープンデータです。Wikipediaの記事は、CC BY SA となっています。CC BY SAは、そのデータを利用した成果物を出版などするときには、CC BY SAライセンスで公開しないといけなくなります(引用の範囲なら大丈夫)。 - OpenStreetMap
WEBサイトで、GoogleMap以外の地図が表示されるとき、結構な確率でOpenStreetMapにあたります。OpenStreetMapは、世界中の協力者たちが作る地図データです。このデータは、オープンデータベースライセンス(英語: Open Database License、ODbL)が適用されます。これは、CC BY SAと同様に、そのデータを使って、新しいデータを作った場合、ODbLライセンスを継承しないといけないということになります。
日本でオープンデータの取り組みが始まったのは、東日本大震災のころからなので、概ね、15年が経過したことになります。当初は、オープンデータはイノベーションの源泉としてもてはやされた記憶があります。その頃は、オープンデータでビジネスイノベーションを起こすことにばかり関心が集まっていました。今では、その流れは落ち着いてきて、市民活動、行政、民間企業、それぞれのオープンデータへの取り組みが、実用的な方向に進んでいるような気がします。一方で、生成系AIの登場は、ビッグなオープンデータから、自然言語でデータを引き出すことができるようになってきました。次の15年、オープンデータは今より、暮らしに浸透し、今では考えられないくらいに活用できる未来が見えてきた気がします。
そのためには、
情報部門(・・・や外注)が作るオープンデータから卒業し、データを使う部門がデータリテラシーを身に着け、オープンデータを生み出していくようにしないといけない、そんな気がしています。