Loading

欧州構造基金に対する九ヶ月の分析

2010年、 Financial TimesBureau of Investigative Journalism (BIJ / 分析ジャーナリズム事務局)は、EU構成ファンドの分析で力を合わせることにした。ファンドの受益者は誰であるかをレビューして、資金が良いことに使われているかチェックするという意図があった。構造基金は7年以上で3470億ユーロ、EUで2番目に大きい助成プログラムである。プログラム自体は何十年も存在したが、大まかで一般的な総覧を除けば、誰が受益者かについて透明性がほとんど無かった。現行の資金提供ラウンドで規則の一部が変わったため、関係当局は受益者のリストをおおやけにする義務が生じた。このリストにはプロジェクトについての記載とEUおよび国から受け取った支援金額を含む必要があるのだ。

03 OO 01
Figure 2. EU構造基金分析 (Financial Times と The Bureau of Investigative Journalism)

プロジェクト・チームはジャーナリスト12人とフルタイムのコーダー1人が9ヶ月間協働するというものだった。データ収集だけでも数ヶ月かかった。

プロジェクトの成果はFinancial TimesとBIJで5日間取り上げられ、BBCラジオ・ドキュメンタリーや複数のテレビ・ドキュメンタリーにもなった。

これほどのレベルの努力を要求するプロジェクトに取り組むには、発見がオリジナルなものになること、独自の優れたストーリーにたどり着くことを確信していなければならない。

作業は独立したステップとして分割した:

1. データの保持者と保持方法を確認する

欧州委員会の地域政策総局はデータをパブリッシュする各地区当局のサイトへの ポータルサイトを持つ。欧州委員会はプロジェクトデータのデータベースを持っているはずで、直接アクセスできるか情報公開法に基づく請求で入手できるものと我々は信じていた。そのようなデータベースは、必要な詳細さのものは、存在しなかった。そして欧州委員会が出しているリンクは多くがちゃんとしたものでないこと、出している当局のほとんどが、データ形式として分析フレンドリーなCSVやXMLでなく、PDFで公表していることもすぐに判明した。

最新のデータを見つけ、共同作業用の巨大スプレッドシートのリンクを確認する作業に、最大で12人のメンバーがチームで取り組んだ。データフィールドの形式も統一されていなかったので(たとえばヘッダには様々な言語が使われていたし、違う通貨が使われていたり、EUと国家助成の内訳のあるデータセットもあった)、翻訳や変換、各データセットで使えるデータフィールドの記述により、可能な限り明確にしていく必要があった。

2. データのダウンロードと下準備

次のステップはダウンロードで、すべてのスプレッドシート、PDF、場合によってはオリジナルデータのスクレーピングをおこなった。

それからすべてのデータセットを標準化した。全作業で最大のタスクが、ときに数百ページにもなるPDFから、データを抽出することだった。この作業のほとんどは、データを抽出してCSVやExcel形式に変換するUnPDFとABBYY FineReaderを使って行った。

これにはさらに、PDF抽出ツールがデータを正しく取っているかのチェック、そしてダブル・チェックがともなった。これにはフィルタ、並び替え、集計をおこなうツール群を使った(PDFに表示されているものと突き合わせるのだ)。

3. データベースの作成

チームのコーダーがSQLデータベースをセットアップした。下処理したそれぞれのファイルを、SQLデータベースの構成要素として使うのだ。1日1度の処理として、個々のデータファイルを全部アップロードして単一の巨大SQLデータベースにまとめるというものがあった。フロントエンドからのクエリーを実際に受け付けられるようなデータベースである。

4. ダブルチェックと分析

チームは主として以下の2つの方法でデータを分析した:

データベースフロントエンドを通じて

これは調べたいキーワードを実際に入力することによる(サーチエンジンに「タバコ」「ホテル」「A社」などと入れるということ。データベースの検索機能にプラグインしたGoogle Translateによってこれらのキーワードは21ヶ国語に翻訳され、適切な結果が返る。これはダウンロード可能で、レポーターは興味のあるプロジェクトそれぞれについて、さらに調べることができる。

データベース全体を使ったマクロ分析により

ときにはデータセット全体をダウンロードして、キーワードを使ったり、国ごと、地域ごと、支出の種類ごと、受益者のプロジェクト数ごとのデータをまとめるような分析をおこなうことがあった。

ストーリーはこの両方の分析手法で筋を作ったが、実地や机上でのリサーチにもよっていた。

データの一貫性を(各当局の声明を集計してこれと突き合わせることで)ダブル・チェックするには相当な時間がかかった。主として問題だったのは、各当局がほとんどの場合に「EUおよび国家による助成(EU and national funding)」の総額しか漏らさないことだ。EUの法制下では、各プログラムは総費用に対して所定のパーセンテージでEU助成を利用できる。EU助成のレベルは、いわゆる共同出資率を見ることで、プログラム・レベルで確定できる。各プログラム(たとえば地域競争力強化プログラムなど)は複数のプロジェクトで構成されている。プロジェクト・レベルで言えば、あるプログラムのあるプロジェクトは100%の助成を受け、別のプロジェクトは0%ということもテクニカルにはあり得るため、プログラム・レベルのEU助成額とは認定されている共同出資率以上のものではない。

このことは、ストーリーで問題にする受益企業のEU助成額は個々にチェックする必要があるということを意味している。

Cynthia O’Murchu, Financial Times