5分でわかるフィールド・ガイド
特定のトピックや議論に関するデータを探している?実際にどんなデータがあるか、それをどこで見つけたらいいかわからない?何から手をつければいいか分からない?この節では、ウェブ上に公開されているデータの情報源を見つけるための方法を見ていく。
検索を効率化する
いつも見つけやすいとは限らないが、ウェブ上の多くのデータベースは、公開した本人が意図したかしていないかに関わらずサーチエンジンにインデックスされている。それを探すためのいくつかのヒントを紹介しよう。
-
データを探すときは、あなたの探したい内容に関連する検索用語はもちろん、フォーマットの情報やデータがありそうな情報源に関する情報も考慮するように心がけるべきだ。Googleや他のサーチエンジンはファイルタイプでの検索ができるようになっている。例えば、スプレッドシートだけを検索する場合は、検索クエリに「filetype:XLS filetype:CSV」を追加すればいい。同様に、地図データには「filetype:shp」、データベースから抽出されたデータには「filetype:MDB, filetype:SQL, filetype:DB」を追加する。PDFファイルだけを探すことだって、その気になれば可能だ。「filetype:pdf」を加えることだけでよい。
-
URLの一部で検索することもできる。Googleで「inurl:downloads filetype:xls」を使えば、URLに「downloads」を含むすべてのExcelファイルを見つけることができる。(もし、ひとつのダウンロード元フォルダが見つかったら、そのサーバの同じフォルダに別のデータが見つかることもよくある)。また、検索結果を特定のドメインに限定することもできる。例えば、「site:agency.gov」のように。
-
もう一つ人気のあるトリックを。データそのものを直接探すのではなく、データが固まって置かれている格納場所を見つける方法がある。例えば、「site:agency.gov Directory Listing」という検索クエリでは、Webサーバが生成したディレクトリの中身のリストを手に入れることができるので、生データのファイルに簡単にアクセスできる可能性がある。また、「site:agency.gov Database Download」という検索クエリは、人間が作成したリストを見つけようとする。
データサイトやサービスを閲覧する
ここ数年でデータ専門ポータル、データハブ、あるいはデータサイトと呼ばれるサイトが数多くWeb上に出現している。これらのサイトは公開されたデータを取得するのに良い場所である。まずは手始めに、下記のサイトを見てみるといいだろう。
- 公式データポータル
-
政府のデータ公開ポリシーは国によって異なる。アメリカのdata.govやイギリスの data.gov.uk などに触発され、データポータルを立ち上げる国は増えている。これは、政府の情報を市民や民間企業が再活用することを促進するためである。datacatalogs.org では、そのようなサイトの最新でグローバルなインデックスを提供している。もう一つの便利なサイトとしては、Guardian World Government Dataがある。これは、多くの国の政府のデータカタログを横断的に検索できるメタサーチエンジンである。
- The Data Hub
-
Open Knowledge Foundationによって運営されているコミュニティベースの情報リソースであり、データの発見、共有、再利用を簡単にする。特に、一連のプロセスは機械的に自動化されている。
- ScraperWiki
-
ScraperWiki は、データの一部を簡単に切り取って抽出するためのツールである。これにより、データをさまざまなアプリで再利用したり、ジャーナリストや研究者がデータをくまなく捜したりすることができる。ほとんどのscraperWikiや抽出されたデータベースは公開されており、再利用可能である。
- 世界銀行 や 国連のデータポータル
-
これらのサービスは世界各国に関するハイレベルな指標を提供している。それらのデータの多くは過去何年にもわたって蓄積されている。
- Buzzdata, Infochimps, DataMarket
-
データ共有と再販にまつわるコミュニティ形成を企む新興スタートアップ
- DataCouch
-
データコーチでは、あなたのデータをアップロードし、精錬し、共有&可視化を行うことができる
- Freebase
-
Googleの興味深い子会社であるFreebaseは、「オープンデータを愛するコミュニティによって構築された人、場所、物の相関グラフ」を提供している。
- Research data
-
UK Data Archive のように国や専門家が主導する研究データの集約場所も数多く存在する。多くのデータには無料でアクセスできるが、有償のサブスクリプションが必要だったり、データの再利用ができなかったり、再配布に許可が必要なデータも多い。
フォーラムで質問する
Get The Dataや Quora などのフォーラムで既に類似の質問・回答がないか検索してみよう、なければ質問してみよう。 Get The Data はデータに関連したQ&Aサイトであり、特定の話題に関するデータをどこで見つけられるか、特定のデータ源をどうやって検索したらいいか、データを可視化するのにどんなツールを使ったらいいか、データクレンジングやフォーマットをそろえるためにどうすればいいか、などの質問ができる。
メーリングリストで質問する
メーリングリストは特定のトピックに関するコミュニティ全体の知識の集大成だ。データジャーナリストにとっては、 Data-Driven Journalism List や NICAR-L は素晴らしいとっかかりになるだろう。どちらのメーリングリストも参加者はデータジャーナリストかComputer Assisted Reporting (CAR)のギークばかりであり、彼らはあらゆる種類のプロジェクトに関与している。ひょっとしたらあなたが取り組もうとしている話と似たような仕事を既に行なった人がいて、どこからはじめればいいかを教えてくれるかもしれない。もしそうでなくても、データそのものへのリンクを教えてくれるかもしれない。 Project Wombat (リファレンスに関する難しい質問のためのディスカッションリスト)や、 Open Knowledge Foundationや theInfo のメーリングリストを試してみるのもよい。あるいは調べたいトピックや地域に関するメーリングリストを探してみるのもよいだろう。
Hacks/Hackersに参加する
Hacks/Hackers は急速に成長している国際的な草の根のジャーナリズム団体だ。4つの大陸にまたがる数十の支部と数万人のメンバーから構成されている。そのミッションは、ニュースや情報の未来について再考しているジャーナリスト(hacks)と技術者(hackers)のネットワークを作ることだ。そのような広大なネットワークを使えば、あなたは自分が探している情報についてどこを探せばよいか知っている人と出会う確率を高められるだろう。
専門家に質問する
教授や公務員や民間企業の人たちはしばしばどこを探せばよいか知っている。彼らに電話したり、メールしてみよう。イベントで声をかけたり、彼らのオフィスを訪問しよう。質問は丁寧に。「Xに関する記事を書いているのですが、どこを調べるといいでしょうか。もしくは、誰に聞けばいいか、教えてくださいませんか?」
政府のITについて勉強する
データにアクセスしようとするとき、政府が保持している情報の技術・管理上の背景を理解しておくことはしばしば助けになる。CORDISであれ、COINSであれ、あるいはTHOMASであれ、大文字の短縮形の名前のデータベースは、その目的を少しでも理解できれば、しばしば最も便利な情報源になる。
政府の組織図を探し、分野横断的な機能を持つ部門や課(調査課やITサービス課)を見つけたら、そのWebサイトを見てみよう。多くのデータが複数の部門に保管されており、特定のデータベースは彼らにとって王冠の宝石のように大事にしまってあるかもしれないが、他のデータは無料でくれるかもしれない。
政府のサイトでダイナミックなインフォグラフィックスを見てみよう。これらはしばしば構造化されたデータソースやAPIを備えており、自分で動かしてみることができる(フライト追跡アプレットや天気予報のJavaアプリなど)。
もう一度検索する
前回検索した時には使っていなかったフレーズや単語の組み合わせでもう一度検索してみよう。自分が探していることについて知れば知るほど、検索エンジンで見つかる可能性が高まるかも!
情報公開請求を書く
もし、政府があなたの必要とするデータを持っていることを確信できたら、情報公開請求が一番良い方法かもしれない。請求の方法の詳細は次節で説明する。
— Brian Boyer (Chicago Tribune), John Keefe (WNYC), Friedrich Lindenberg (Open Knowledge Foundation), Jane Park (Creative Commons), Chrys Wu (Hacks/Hackers)