ニュースにおけるデータ: ウィキリークス
それは調査報道チームの質問から始まった。「表計算ソフトは使いこなせるだろう?」示された表はとてつもないものだった。92,201行ものデータがあり、それぞれの行にはアフガニスタンにおける軍事に関わるできごとの詳細な分析が含まれていた。 WikiLeaks war logs(ウィキリークスの戦争記録) がそれだ。まずはこの話をする。それから、イラクと外交公電に関する2つのエピソードが続く。正式な用語では SIGACTS: the US military Significant Actions (アメリカ軍の重大行動)のデータベースと呼ばれるものだ。
The New York TimesやDer Spiegelと共有されたアフガニスタンの戦争記録はデータジャーナリズムの実践例である。私たちがやりたかったのは、自分たちの抱える報道の専門チームが情報の中からすばらしい人間ドラマを引き出せるようにすることだった。また、私たち自身も、全体像をとらえ、実際に戦争がどのように進行しているかを示すためにその記録を分析したかった。
始まったばかりのころに取り組んだ重要なことは、データベース全体を公開しないようにすることだった。ウィキリークスは既にそうしようとしていたが、私たちは情報提供者の名前を明かさないことやNATOの部隊を不必要に危険にさらしたりしないことを保障したかった。同時に、David LeighやNick Davies(Julian Assangeと交渉してデータを公開させたのは彼らだ)率いる我々の調査報道チームがデータを使いやすいようにする必要があった。また、鍵となる情報へのアクセスをよりシンプルにし、できる限り明瞭でオープンな形で白日の下にさらしたかった。
データは巨大なエクセル・ファイルの形で受け取った。92,201 行のデータの中には、中身が何もないデータもあればフォーマットが整っていないものもあった。ジャーナリストがデータの中からストーリーを引き出そうとするのに役立つものではなかったし、意味のある集計をするにはサイズが大きすぎた。
私たちのチームはシンプルな内部用のデータベースをSQLを使って構築した。ジャーナリストはそれによってイベントやできごとを手掛かりにストーリーを探索できるようになった。突如として、データセットはアクセス可能なものとなり、ストーリーを生み出すことが容易になったのである。
データはきちんと構造化された。それぞれのできごとには、時間、日時、説明、犠牲者数、―そしてこれがとても重要なものであるが―緯度経度といった鍵となるデータが付された。
私たちは、戦争における重要なストーリーの中の一つを語るのに役立つようにデータを絞り込むことにも取り組み始めた。IED (即席爆発装置、improvised explosive device)による攻撃の出現だ。これは、路上に仕掛けられる手作りの爆弾で、予想しづらく戦いにくい。データセットはそれでも巨大なものだったが、扱いやすくはなっていた。2004年から2009年にわたる約7,500件 の IED 爆発や待ち伏せ(待ち伏せは小火器やグレネードランチャーと組み合わせて行われる)が対象だった。さらに、8,000 の IED は発見され除去されていた。私たちは、そういったできごとの時系列変化を知り、どのように異なるかを知りたかった。このデータによって私たちは、イギリスとカナダの部隊が当時基地を置いていた南方の地域において多くの被害が出ていることを知ることができた。これは、戦争を取材していたジャーナリストたちが知っていたことを裏付けるものだった。
2010年の10月にイラクの戦争記録が公開されたことによって、イラクの戦争に関するさらに 391,000 件もの情報が衆目に晒された。
こちらはアフガニスタンの事例に比べると格段に良かった。このデータを根拠に、この戦争を歴史上最も文書化された戦争だと言っても差し支えないであろう。あらゆる詳細な記述が私たちの分析や説明を助けてくれた。しかし、ある点が際立っている。死者数の膨大さ、そしてそのほとんどが市民だという点だ。
アフガニスタンのデータと同様に、the Guardianはデータベース全体を再公開しないことに決めた。それは主に、概要の項に情報提供者の秘密に関わるような詳細などが含まれていないということを保証できなかったからだ。
しかし、私たちは、誰かが死亡したあらゆるできごとに関する記録を含む表をユーザがダウンロードできるようにした。それは全部で 60,000 件近かった。概要の項が省かれているので、 軍事の見出し、死者数、地理的な詳細といった基本的なデータになっている。
私たちは誰かが死んだこれらすべてのできごとを Google Fusion tables を使って地図上に配置した。完璧ではないが、イラクを蹂躙した破壊行為のパターンをマッピングする試みの端緒となった。
2010年の12月には外交公電の公開があった。これはまた全く異なるタイプのものであった。オフィシャルな文書の巨大なデータセットで、世界中 250 を超える米国の大使館や領事館から送信された 251,287 の公電だった。この中には現オバマ大統領の施政を含む 50,000 以上の文書も含まれており、米国の外交辞令 を映し出した他に例を見ない資料となっていた。ところで具体的には何がこのデータに含まれていたのだろうか?
外交公電自体は巨大な SIPRNet (Secret Internet Protocol Router Network、つまり機密インターネット・プロトコル・ルーター・ルーター・ネットワークの略。シパーネットと読む。)から抜き出された。SIPRNet は世界規模の米軍インターネット・システムで、一般市民のインターネットから隔絶され、ワシントンの国防総省によって運用されている。 2001年9月の同時多発テロ以来、米国では政府情報のアーカイブをつなぎ合わせることで、重要情報が情報サイロ(各機関で分断されて貯蔵されること)や「ストーブパイプ」(外の機関に見えないある機関間だけの情報経路の比喩表現)に詰まったりすることがないようにしたいという動きがあった。大使館は過去十年間の間に次々と SIPRNet に接続され、それによって軍事や外交の情報が共有できるようになっていた。2002年までには、125の大使館が SIPRNet 上にあり、2005年にはその数は180にまで増加し、現在では米国の在外公館の大半がシステムに接続されている。漏洩した外交公電のほとんどが2008年および2009年のものであることは、こういった背景がある。David Leighは次のように書いている:
SIPDIS と記された大使館の公電は自動的に大使館限定のウェブサイトにダウンロードされる。そこから、国務省の人間だけでなく、米軍の中で「秘密」レベルまで閲覧を許可されている人間も、パスワードを入力することでコンピュータを SIPRNet に接続することができる。
…ここに接続可能な人々は、驚くべきことに全部で 300万人以上にもなるのだ。米国以外の市民に見せてはならず、Hillary Clinton国務長官以下ワシントンの役人が読むことを想定されているという意味を持つ SECRET NOFORN を最上位として、このデータはいくつかのランクに分けられている。これらの外交公電は一般的に現地の大使やその部下が起草する。「トップ・シークレット」やそれ以上の外国の情報文書は SIPRNet からアクセスすることはできない。
数量化されていたり同定可能なデータを伴ったりしていたこれまでの情報公開とは異なり、これは主に文書で構成されていた。何が含まれていたかというと:
- 送信元
-
送信元となった大使館や組織。
- 受信者のリスト
-
外交公電は一般的に多くの他大使館や組織に送られていた。
- 表題フィールド
-
外交公電の要約。
- タグ
-
それぞれの外交公電は多くのキーワードの略語でタグ付けされていた。
- 本文
-
外交公電それ自体。明白なセキュリティ上の都合により、私たちはこの全体を公開することはしなかった。
この事例の中で面白い部分の一つに、外交公電がことあるごとにリークを生み出しているという点がある。外交公電が公開された直後数週間にわたってそれはニュースになり続けたが、現在に至っても、収賄や国際的スキャンダルに関するストーリーが見つかるたびに、この外交公電にアクセスすることでさらに新たなストーリーが見つけられるのだ。
外交公電の分析は膨大な作業で、完全に終わることはないであろう。
— これは、当初 "Facts are Sacred: The Power of Data"(「真実は神聖なり: データの力」) という題でthe GuardianのSimon Rogersによって Kindle 上に公開された章を編集したものである。