Loading

5分でわかるフィールド・ガイド

特定のトピックや議論に関するデータを探している?実際にどんなデータがあるか、それをどこで見つけたらいいかわからない?何から手をつければいいか分からない?この節では、ウェブ上に公開されているデータの情報源を見つけるための方法を見ていく。

検索を効率化する

いつも見つけやすいとは限らないが、ウェブ上の多くのデータベースは、公開した本人が意図したかしていないかに関わらずサーチエンジンにインデックスされている。それを探すためのいくつかのヒントを紹介しよう。

  • データを探すときは、あなたの探したい内容に関連する検索用語はもちろん、フォーマットの情報やデータがありそうな情報源に関する情報も考慮するように心がけるべきだ。Googleや他のサーチエンジンはファイルタイプでの検索ができるようになっている。例えば、スプレッドシートだけを検索する場合は、検索クエリに「filetype:XLS filetype:CSV」を追加すればいい。同様に、地図データには「filetype:shp」、データベースから抽出されたデータには「filetype:MDB, filetype:SQL, filetype:DB」を追加する。PDFファイルだけを探すことだって、その気になれば可能だ。「filetype:pdf」を加えることだけでよい。

  • URLの一部で検索することもできる。Googleで「inurl:downloads filetype:xls」を使えば、URLに「downloads」を含むすべてのExcelファイルを見つけることができる。(もし、ひとつのダウンロード元フォルダが見つかったら、そのサーバの同じフォルダに別のデータが見つかることもよくある)。また、検索結果を特定のドメインに限定することもできる。例えば、「site:agency.gov」のように。

  • もう一つ人気のあるトリックを。データそのものを直接探すのではなく、データが固まって置かれている格納場所を見つける方法がある。例えば、「site:agency.gov Directory Listing」という検索クエリでは、Webサーバが生成したディレクトリの中身のリストを手に入れることができるので、生データのファイルに簡単にアクセスできる可能性がある。また、「site:agency.gov Database Download」という検索クエリは、人間が作成したリストを見つけようとする。

情報源に直接アクセス

公的団体によって保持されているデータを手に入れるため、私が使う方法のひとつめは、広報担当者でなく、情報公開法を通じてでもなく、データの保持者のところに直接行くことである。もちろん、法に基づいた手段や、公的記録の請求を行うこともできるが、それでは事が動くのに時間がかかる。請求したのと違うフォーマットでのレスポンスを受け取ったり、(いくつかのケースで起きたことだが)独自仕様のソフトウェアを行政体が使っていて、指定したフォーマットに展開できないことになりがちである。しかし、もしその機関のためにデータを管理している人に最初に上手く辿り着くことができれば、そのテーマに関してどんなデータを、どのように持っているかについて質問することができる。フォーマットを知ることができる。データに関する専門用語を使うこともできるし、データをうまく請求するにあたって知っておくべきこともわかる。このアプローチの問題点、それは多くの場合、こういった人物に辿り着くことが難しいことである。広報官は、私に彼らとやりとりをするように求めるだろう。このようなケースの場合、広報官、データの権威者、そして私の三者間で電話会議をしたり、あわよくば直接ミーティングする機会を設けるのが最善である、と私は知っている。さらに私は、彼らが断りにくい方法でその機会を設けることができる。「彼らに負担をかけたくないんです」「無駄に負担になったり、過剰に広い請求をしたくありません。ミーティングをすることで、どんなデータがあるかを理解し、欲しいものをどのようにリクエストすべきか、私の理解が助けられるのです」

もしこの方法が上手く行かなかったら、私の頼みの綱はリクエストしようとしているデータの1件ごとの構造とデータ辞書について質問をすることだ。それから、実際にデータをリクエストする。時には、彼らがどんなシステムの中で、どうデータを保持しているかについて、最初に質問することもある。そうすることで、リクエストをする前に、データをどのようにエクスポートさせるべきか検討することができるのである。

最後に、モンタナの小さな新聞社で働いていたときの最高の成功談を話そう。私は郡のデータが欲しかったのだが、それはメインフレームからエクスポートできないと言われたものだった。私は少し調べて、協力と手助けを申し出た。データの専門家と協力し、私達は短いスクリプトを準備し、フロッピーディスク(これはかなり前の話だ)にデータを書き出した。私はデータを得て、郡は誰にでも必要とあらばデータを渡せるようになったのである。彼らはそのようなことを意図していたわけではなかったが、彼らも時々データを展開することが必要であったし、システムを完璧に理解しているわけではなかったので、私たちは互いに助け合ったのである。

Cheryl Philips, The Seattle Times

データサイトやサービスを閲覧する

ここ数年でデータ専門ポータル、データハブ、あるいはデータサイトと呼ばれるサイトが数多くWeb上に出現している。これらのサイトは公開されたデータを取得するのに良い場所である。まずは手始めに、下記のサイトを見てみるといいだろう。

04 01
Figure 1. datacatalogs.org (Open Knowledge Foundation)
公式データポータル

政府のデータ公開ポリシーは国によって異なる。アメリカのdata.govやイギリスの data.gov.uk などに触発され、データポータルを立ち上げる国は増えている。これは、政府の情報を市民や民間企業が再活用することを促進するためである。datacatalogs.org では、そのようなサイトの最新でグローバルなインデックスを提供している。もう一つの便利なサイトとしては、Guardian World Government Dataがある。これは、多くの国の政府のデータカタログを横断的に検索できるメタサーチエンジンである。

The Data Hub

Open Knowledge Foundationによって運営されているコミュニティベースの情報リソースであり、データの発見、共有、再利用を簡単にする。特に、一連のプロセスは機械的に自動化されている。

ScraperWiki

ScraperWiki は、データの一部を簡単に切り取って抽出するためのツールである。これにより、データをさまざまなアプリで再利用したり、ジャーナリストや研究者がデータをくまなく捜したりすることができる。ほとんどのscraperWikiや抽出されたデータベースは公開されており、再利用可能である。

世界銀行国連のデータポータル

これらのサービスは世界各国に関するハイレベルな指標を提供している。それらのデータの多くは過去何年にもわたって蓄積されている。

Buzzdata, Infochimps, DataMarket

データ共有と再販にまつわるコミュニティ形成を企む新興スタートアップ

DataCouch

データコーチでは、あなたのデータをアップロードし、精錬し、共有&可視化を行うことができる

Freebase

Googleの興味深い子会社であるFreebaseは、「オープンデータを愛するコミュニティによって構築された人、場所、物の相関グラフ」を提供している。

Research data

UK Data Archive のように国や専門家が主導する研究データの集約場所も数多く存在する。多くのデータには無料でアクセスできるが、有償のサブスクリプションが必要だったり、データの再利用ができなかったり、再配布に許可が必要なデータも多い。

紙のアーカイブからデータを取得する

アフガニスタンおよびイラクでの米国軍事書類がウィキリークスによって公開された直後、我々はAlgerian War Diariesを出版することでアルジェリア戦争の50周年を祝うためのコンセプトを適用することに決めた。アルジェリアのフランス軍のアーカイブを集め、デジタル化することをはじめた。ペーパーフォーマットはあるが、パリにある陸軍省のアーカイブで利用可能である。ドキュメントの写真を撮影させるため、ジャーナリストと学生を送り出した。アーカイブの多くはステープラーで綴じられていたので、キヤノンのP-150ポータブルスキャナーを使ったスキャンを試みたものの上手くいかなかった。

最終的に、数週間でおよそ10,000ページが集められた。テキスト認識のソフトウェア (ABBYY FineReader) を使用したが、ひどい結果しか残らなかった。さらに省は、アーカイブの中の最も興味深い箱へ近づくことを独断的に禁じた。何より、省はその場で自由に撮影することができる書類の再配布を、誰であろうとも禁じたため、我々はそのリスクに見合う価値がないと感じ、プロジェクトを保留状態にすることを決めた。

Nicolas Kayser-Bril, Journalism++

フォーラムで質問する

Get The DataQuora などのフォーラムで既に類似の質問・回答がないか検索してみよう、なければ質問してみよう。 Get The Data はデータに関連したQ&Aサイトであり、特定の話題に関するデータをどこで見つけられるか、特定のデータ源をどうやって検索したらいいか、データを可視化するのにどんなツールを使ったらいいか、データクレンジングやフォーマットをそろえるためにどうすればいいか、などの質問ができる。

メーリングリストで質問する

メーリングリストは特定のトピックに関するコミュニティ全体の知識の集大成だ。データジャーナリストにとっては、 Data-Driven Journalism ListNICAR-L は素晴らしいとっかかりになるだろう。どちらのメーリングリストも参加者はデータジャーナリストかComputer Assisted Reporting (CAR)のギークばかりであり、彼らはあらゆる種類のプロジェクトに関与している。ひょっとしたらあなたが取り組もうとしている話と似たような仕事を既に行なった人がいて、どこからはじめればいいかを教えてくれるかもしれない。もしそうでなくても、データそのものへのリンクを教えてくれるかもしれない。 Project Wombat (リファレンスに関する難しい質問のためのディスカッションリスト)や、 Open Knowledge FoundationtheInfo のメーリングリストを試してみるのもよい。あるいは調べたいトピックや地域に関するメーリングリストを探してみるのもよいだろう。

Hacks/Hackersに参加する

Hacks/Hackers は急速に成長している国際的な草の根のジャーナリズム団体だ。4つの大陸にまたがる数十の支部と数万人のメンバーから構成されている。そのミッションは、ニュースや情報の未来について再考しているジャーナリスト(hacks)と技術者(hackers)のネットワークを作ることだ。そのような広大なネットワークを使えば、あなたは自分が探している情報についてどこを探せばよいか知っている人と出会う確率を高められるだろう。

専門家に質問する

教授や公務員や民間企業の人たちはしばしばどこを探せばよいか知っている。彼らに電話したり、メールしてみよう。イベントで声をかけたり、彼らのオフィスを訪問しよう。質問は丁寧に。「Xに関する記事を書いているのですが、どこを調べるといいでしょうか。もしくは、誰に聞けばいいか、教えてくださいませんか?」

政府のITについて勉強する

データにアクセスしようとするとき、政府が保持している情報の技術・管理上の背景を理解しておくことはしばしば助けになる。CORDISであれ、COINSであれ、あるいはTHOMASであれ、大文字の短縮形の名前のデータベースは、その目的を少しでも理解できれば、しばしば最も便利な情報源になる。

政府の組織図を探し、分野横断的な機能を持つ部門や課(調査課やITサービス課)を見つけたら、そのWebサイトを見てみよう。多くのデータが複数の部門に保管されており、特定のデータベースは彼らにとって王冠の宝石のように大事にしまってあるかもしれないが、他のデータは無料でくれるかもしれない。

政府のサイトでダイナミックなインフォグラフィックスを見てみよう。これらはしばしば構造化されたデータソースやAPIを備えており、自分で動かしてみることができる(フライト追跡アプレットや天気予報のJavaアプリなど)。

通話記録から探す

数ヶ月前、私は(当時の大統領候補であった)テキサス州知事のRick Perryの通話記録を解析したいと思っていた。それは待ちに待った州の公的記録のリクエストの結果であった。データは基本的に、120ページ以上に渡るFAX品質のドキュメントの形でやってくる。電話番号の逆引きのため WhitePages.com のAPIを活用したが、それからデータ入力とクリーンアップを必要とする活動であった。

州および連邦の選挙データと名前を組み合わせ、ペリーは選挙運動とスーパーPACドナーに 州の電話から取り組んでいたことを我々は把握した。これは眉をひそめるような行動であるし、時に彼とスーパーPACの間の関係についての疑問を提起するものであった。

Jack Gillum, AP通信

もう一度検索する

前回検索した時には使っていなかったフレーズや単語の組み合わせでもう一度検索してみよう。自分が探していることについて知れば知るほど、検索エンジンで見つかる可能性が高まるかも!

情報公開請求を書く

もし、政府があなたの必要とするデータを持っていることを確信できたら、情報公開請求が一番良い方法かもしれない。請求の方法の詳細は次節で説明する。

Brian Boyer (Chicago Tribune), John Keefe (WNYC), Friedrich Lindenberg (Open Knowledge Foundation), Jane Park (Creative Commons), Chrys Wu (Hacks/Hackers)

法律の失敗

レストランでの衛生検査の結果を公開することで、ロサンゼルスの食品関連の病気の数を減少させたことを説明するという 学術記事 を読んだ後、私はパリの衛生サービスに検査のリストを求めた。フランスのFOIAによって設定された手順に従い、私は30日間待ったが拒否されてしまった。その後、FOIリクエストの正当性について管轄する公的データアクセス委員会(フランス語でCADA)に行った。CADAは私の要求を支持し、データを公開することを命じた。データの公開について、運営側はさらに2ヶ月の時間を求め、CADAはそれを受け入れたが、2ヵ月経っても何もされなかった。

私は裁判所に行くにあたり(€5000の裁判になり、CADAサポートで勝利できると確認していた)、複数の著名で(かつ寛容な)オープンデータの支援者を得ようとしたが、彼らは公的なオープンデータのプログラムとの関係を損なうことを恐れていた。この例は、フランス機関が単に法律を無視し、公的な取り組みがデータに対する草の根の要求をサポートしない例のひとつである。

Nicolas Kayser-Bril, Journalism++