ガーディアンのデータブログの裏側
我々がデータブログを立ち上げたとき、未加工のデータや統計、ヴィジュアライゼーションにいったい誰が興味を持つのかわからなかった。私のオフィスのやや年配の人に至っては「誰がそんなもの欲しがるのか?」と言ったものだ。
ガーディアン・データブログは、私が編集しているのだが、我々のニュース記事の裏側にある全てのデータ・セットを提供する小さなブログになるはずだった。現在のデータブログは フロントページ 、世界中の政府やグローバルな発展のデータの調査、そしてガーディアンのグラフィック・アーティストによって作成されたり、ウェブ上からの集められたりしたデータ・ヴィジュアライゼーションと、公共支出データの検索ツールからなる。毎日我々は、記事の背後にあるすべてのデータを共有するためにGoogle Spreadsheetsを使う。我々はデータを視覚化し、分析する。そして新聞やサイトに記事それらを提供する。
グラフィックに関わるニュース編集者・ジャーナリストとして、現在関心が持たれているニュース記事を理解するために新しいデータ・セットを集めてそれと格闘することは、私がすでにしてきた仕事の論理的な拡張であった。
ここ最近、私に依頼されていた課題が、我々に代わって解決されてきた。それは公共データにとって、驚くべき数年間だった。オバマが彼の最初の立法として米国政府のデータ保管庫を開設したのだ。そしてオーストラリアやニュージーランド、イギリス政府のData.gov.ukといった世界中の政府のデータ・サイトがこのオバマの先例にすぐに追従したのである。
議員の経費スキャンダルの例は、イギリスのもっとも思いがけないデータ・ジャーナリズムの一つであった。結果的に生じた副産物として、議会は現在、毎年膨大な量のデータを公表することを約束している。
総選挙が行われたときには、主要政党のどちらもがデータの透明性を約束した。即ち我らのデータ保管庫を世界に公開することを誓ったのである。そして我が国は貴重な紙幅を大蔵省のCOINSデータベースのリリースに割く新聞をもっている。
同時に、ウェブからは次から次へとデータが溢れ出し、世界中の読者は以前よりもニュースの背後にある未加工の事実に興味を持つようになった。我々がデータブログを立ち上げたとき、読者はアプリケーションの開発者であるだろうと考えていた。実際のところそれは、炭素放出量、西ヨーロッパの移民、アフガニスタンでの死の詳細、The Beatlesが彼らの曲のなかで何回「LOVE」という単語を使ったのか(613回だ)ということまでーーを知りたいという人々であった。
次第に、データブログの働きは我々が関わった記事に影響したり、追加されるようになった。我々は議員の経費に関する458,000の文書をクラウドソーシングし、議員が何を請求したかついてのデータの詳細を分析した。我々はユーザーが大蔵省の支出データベースを検索するのを助け、ニュースの背後にあるデータを公表した。
しかし、データ・ジャーナリズムを大きく変える出来事が、2010年の春に起こった。92,201行の1枚のスプレッドシートからそれは始まった。それぞれのスプレッドシートにはアフガニスタンでの軍事行動の詳細な分析が含まれていた。そうウィキリークスの戦争記録のことだ。それがパート1であった。さらに2つのエピソードが続いていた。イラクと外交公電である。はじめの2つのパートの正式な用語はSIGACTS:the US military Significant Actions (アメリカ軍の重大行動)のデータベースであった。
ニュース組織とは地政学——ニュース・デスクとの近さがすべてである。もし近ければ、記事を提案しそのプロセスの一部を担うことは容易だし、反対にデスクの視線の外にいることは、文字通り、心の外にいることを意味する。ウィキリークス以前は、我々はデスクと違うフロアにいて、グラフィック・チームと一緒だった。ウィキリークス以降は、同じフロアで、ニュース・デスクの隣に座っている。それは、我々がより簡単にデスクにアイデアを提案できること、編集室のジャーナリストが、我々が記事を支援していると考えることを意味する。
ジャーナリストが公的なデータの門番であったのはそう昔のことではない。我々はそうした数字についての記事を書いて公開し、大衆はそれに感謝したものだった。そして大衆は未加工の統計に興味を示したりなどしなかった。未加工の情報を新聞に取り入れるという我々の考えは呪われたものであった。
今やその原則は見違えるほどに変化した。我々の役割は翻訳者になることである。人々によるデータの理解を助け、それ自体が面白いからという理由でそれをただ公表することだってあるのだ。
しかし、分析なき数字は単なる数字にすぎない。それが我々の考えだ。イギリスの首相が2011年8月の暴動が貧困についてのものではないと主張したとき、我々は、その主張の背後にある真実を示すために、暴動参加者の住所を貧困の指標とともにマッピングすることができた。
我々のすべてのデータ・ジャーナリズムの記事の背後にあるのはデータ処理である。それはいつも、我々が新しいツールとテクノロジーを使うたびに変化する。ある種のスーパー・ハッカーになり、コードを書き、SQLに没頭することが正解なのだという人もいる。そのようなアプローチを選択することもできる。しかし、我々がする仕事の多くはただExcelで行われている。
はじめに、我々は、速報のニュース記事や、政府のデータ、ジャーナリストによる調査などのさまざまな情報源からデータを探し出したり受け取ったりする。そして、そのデータで何ができるかを探り始める。他のデータ・セットと混ぜ合わせる必要があるだろうか?経時的な変化をどう示せるだろうか?それらのスプレッドシートはしばしば真剣に整理する必要があるーーそれらすべての本質的ではない列や奇妙ににまとめられたセルは本当に役に立たない。また、それがPDF、すなわち人類の知る最悪のデータのフォーマットではないことが前提になる。
しばしば公的なデータには公的なコードが組み込まれている。学校や病院、選挙区、地方自治体はいずれも独自の識別コードを持っている。
国家もまたそうしたコードを持っている(例えばイギリスのコードはGBだ)。データ・セットを一つにまとめあげたい時これは便利だが、と同時にまた驚くほどど多くの綴りや文字配列の違いがこの作業を妨げるのである。ビルマとミャンマー、アメリカのファイエット郡(ジョージア州からウェストヴァージニア州には11の同名の郡がある)といった例が挙げられる。こうした似た言葉はコードを使えば同等とみなせるのである。
そうしたプロセスの最後にあるのがアウトプットだ。ストーリーやグラフィックやヴィジュアライゼーションという選択肢があったとき、我々はどのツールを使うべきだろうか?我々の最も頻繁に使うツールはあるものを素早く作ることのできる無料のものである。より洗練されたグラフィックは我々の開発チームによって作られる。
これは我々が通常は簡素な折れ線グラフや円グラフを作るときにGoogle Chartsを使い、地図を素早く簡単に作成するときにGoogle Fusion Tableを使うということを意味する。
これらは一見新しいもののようにみえるかもしれない。しかし実はそうでもないのだ。
The Manchester Guardianの創刊号(1821年5月5日土曜日)では、当時のすべての新聞と同様に、ニュースは裏ページにあった。第1面に載った最初の項目は迷子のラブラドールについての広告であった。
記事や詩の引用に囲まれて、裏ページの3つめでようやく、事実が取り上げられている。その地域の学校の費用の包括的な表は、それまでの間、(情報提供者である)「NH」氏の言葉によると、「公衆の面前に晒された」ことがなかった。
NH 氏はかれのデータが公表されることを望んでいた。さもなければ未熟な聖職者に真実の報告をまかせっきりにしてしまうことになるからだ。彼は「この手の情報は、情報それ自体価値があるのである。なぜなら、どの教育がどれほど優れているのかを知らなければ、社会の現状と未来への進歩を形作る最良の選択肢は必ず誤ったものになるに違いないからだ」とモチベーションを語っている。このことを別の言葉で言い換えれば、もし人々がいま起こっていることを知らなければ、どうして社会はより良くなりうるだろうか?ということだ。
私は我々が取り組んでいることに対して今のところ良い正当化の方法を思いつかない。ただ、かつて裏ページの記事であったものは、今や第一面のニュースになりうる。
— サイモン・ロジャース, ガーディアン