Loading

データ・ジャーナリスト達のお気に入りのツール

プシュー。これは、あなたのデータが密閉容器から漏れ出す音だ。さて、どうする?何を探す?どんなツールを使う?我々はデータ・ジャーナリスト達に彼らがどうやってデータを処理しているのか教えてくれるように頼んだ。ここに彼らの答えがある:

ガーディアン・データブログでは、読者とのインタラクションを好み、彼らに我々のデータジャーナリズムを素早く再現できるようにして、読者達が私たちの成果を基に何かを作ったり、時には我々が理解できなかった事を理解したりするようにしている。だから、データ・ツールは直感的であるほど良い。我々は、誰もがプログラミング言語の習得や特別なトレーニング、高額な費用なしにこつをつかむ事が出来るツールを選んでいる。

このために、私たちはGoogleの製品を非常に良く使っている。我々が整理して公開するデータセットは全てGoogle Spreadsheetで提供していて、Googleアカウントを持っている人なら誰でもデータをダウンロードして、彼らのアカウントに読み込んだり独自のチャートを作ったり、あるいはデータをソートしてピボット・テーブルを作る事ができるし、自分の好きなツールにデータを読み込む事も出来る。

データをマッピングするのに、我々はグーグル・フュージョン・テーブル(Google Fusion Tables)を使う。ヒート・マップをフュージョンで作るときは、我々の使ったKMLファイルをシェアして、読者がそれをダウンロードして彼ら自身のーー恐らくデータブログのオリジナルの地図に幾層かのデータを追加したものーーを制作できるようにしている。そのほかのグーグルのツールの優れた点は、我々の読者がブログにアクセスするのに使う、デスクトップやモバイル端末、そしてタブレット端末などの多くのプラットフォームで動作することだ。

グーグル・スプレッドシートとフュージョンに加えて、我々は2つのツールを日常業務に使っている。一つ目はタベルーで、多次元のデータセットをビジュアライズするために用いる。二つ目はメニー・アイズで、データのおおざっぱな解析を行う。これらのツールはいずれも完璧では無いので、我々は読者を楽しませてくれるより良いビジュアライズのツールを探し続けている。

— Lisa Evans
the Guardian

私がかつてコーダーになろうとしたかって?とんでもない!私はすべてのレポーターがコーディングの仕方を知っている必要があるとは思っていない。しかし、レポーターがもっと何ができるのかを理解して、どうやってコーダー達とやりとりをするのかを知る必要はあると思っている。

もしあなたがまだ始めたばかりなら、歩くことだ。走ってはいけない。あなたは、あなたの同僚や編集者達を説得して、データと向き合うことで他のやり方では獲得できないストーリーを得ることができ、やってみるだけの価値があると納得させなければならない。一度彼らがこのやり方の価値を認めれば、あなたはもっと複雑なストーリー、プロジェクトに手を広げることができる。

私のアドバイスは、エクセルを学んでシンプルなストーリーを試してみるということだ。小さくはじめて、データベース解析やマッピングなどに手を広げていくのだ。エクセルでもたくさんの事が実現できる。エクセルはとてもパワフルなツールで、多くの人は機能のほんの一部すら使っていない。もし可能なら、Centre for Investigative Journalismが提供しているような、ジャーナリスト向けのエクセルの教室に行くと良いだろう。

データの解釈について:軽率に扱ってはいけない。あなたは誠実で無ければいけない。細部に気を払い、結果を求めなければいけない。データをどのように処理したのかノートをとり続けて、元のデータは残しておく。ミスを犯すのは簡単だ。私はいつも分析を2〜3回最初からやり直すようにしている。もっと良いのは、あなたの担当の編集者かほかのスタッフに同じデータを別々に分析してもらい、あなたの結果と比べることだ。

— Cynthia O'Murchu
Financial Times

一人のレポーターがストーリーを書くのと同じ早さで複雑なソフトウェアを書きデプロイする能力というのは、極めて新しいものだ。それはかつてもっと長い時間を要したが、二つのフリーでオープン・ソースの開発用フレームワークの登場によって状況が変わった。DjangoとRuby on Rails、この2つは2000年代の中盤にリリースされた。

Djangoはプログラミング言語Pythonで構築されている。Adrian Holovatyとカンザス州Lawrenceのthe Lawrence Journal-Worldのニュースルームで働くチームが開発した。Ruby on Railsは、ChicagoでDavid Heinemeier Hanssonとウェブ・アプリケーション会社の37Signalsが開発した。

二つのフレームワークは「MVCパターン」についての異なるアプローチをとってはいるが、それぞれ素晴らしく、非常に複雑なウェブ・アプリケーションを非常に素早く開発することができる。この2つのフレームワークは、アプリケーション開発の初期段階の面倒を軽減してくれる。データベースでのデータの作成や取得、URLとコードを対応づけるなどの動作はフレームワークに組み込まれていて、開発者はそうした基本的な動作のコードを書く必要が無いのだ。

アメリカにおけるニュース・アプリケーションのチームについて公式の調査がある訳では無いが、データベースを使ったニュース・アプリケーションにはほとんどの場合この2つのフレームワークを使用しているとされている。ProPublicaでは、Ruby on Railsを使っている。

Amazon Web Serviceのようなウェブ・サーバの「一部分」を提供するサービスの開発もまた、ウェブ・アプリケーションのリリースを時間のかかるものにしていたいくつかの要因を取り去った。

その他にも、我々は標準的なツールをデータを扱うために使う:Google RefineとMicrosoft Excelでデータをクリーンにする。SPSSとRを統計に使う。ArcGISとQGISを地理情報システムに。Gitをソースコード管理に。TextMate、VimそしてSublime Textをコードを書くために。MySQLやPostgresSQL、そしてSQL Serverをデータベースに。我々は独自に「グラス」と呼ばれるJavaScriptフレームワークを開発して、フロントエンドがリッチなアプリケーションをJavaScriptで素早く開発できるようにしている。

— Scott Klein
ProPublica

時には最もシンプルなツールが最良のツールになり得る。スプレッドシートの力は過小評価されがちだ。しかし、DOSの時代にスプレッドシートを使っていた時、私は Texas Rangersのオーナー達のパートナーシップ契約書の複雑な計算式を理解する事ができた。George W. Bushは主要なオーナーの一人だった。そのスプレッドシートは計算のミスに印をつけるのに役立った。スプレッドシートをきれいにするスクリプトを書くこともできた。データ・ジャーナリストのための道具箱の基本だ。

そうは言っても、私のお気に入りのツールはさらなる力を持っている。SPSSは統計的な解析とプログラムのマッピングでパターンを地理的に見ることができる。

— Cheryl Phillips
The Seattle Times

私はPythonが大好きだ。Pythonは素晴らしいオープンソースのプログラミング言語で、簡単に読み書きができる(たとえば、あなたは1行毎にセミコロンをタイプする必要がない)。もっと重要なことは、Pythonには巨大なユーザーベースがあり、それ故に文字通りあなたが必要とするすべてのプラグイン(パッケージと呼ばれる)がそろっている。

Djangoはデータ・ジャーナリストが必要とすることは滅多にないだろう。Pythonベースのウェブ・アプリケーション・フレームワークで、大規模なデータベースを使ったウェブアプリケーションを作るためのツールだ。小さなインタラクティブ・インフォグラフィックにはヘビーすぎる。

ほかにも私はQGisを使っている。地理データを扱うデータ・ジャーナリストが必要とする地理情報システムの機能を広い範囲でカバーする、オープンソースのツールキットだ。もしあなたが地理的なデータをあるフォーマットから別のものに変換する必要があるなら、QGisを使うとよい。QGisは世の中にある地理情報フォーマットをほとんどサポートしている(Shapefiles、KML、 GeoJSONなど)。もしあなたがいくつかの領域を切り出す必要があるなら、これもQGisで出来る。それに加えて、QGisには巨大なコミュニティがあり、 チュートリアル のようなリソースをウェブ上でたくさん見つけることができる。

Rは科学の領域でのビジュアライゼーションのツールとして生まれた。Rに組み込まれていないデータ・ビジュアライゼーションやデータ変換手法を見つけるのは至難の技だ。Rはそれ自体が宇宙であり、ビジュアルデータ分析のメッカである。ひとつの障害は、Rが独自の言語を持っていて、(また別の)プログラミング言語を習得する必要があることだ。しかし、いちど初期の学習カーブに乗ってしまえば、これ以上にパワフルなツールはない。訓練されたデータ・ジャーナリストは、Rを巨大なデータセットを分析するのに使ってエクセルの限界(例えば、あなたが100万行以上のテーブルを持っているとき)を超えることができる。

Rに関してとても素晴らしいのは、CSVファイルの読み込みからチャートの生成まで、あなたがすべてのプロセスを通じてデータに行った操作の「手順」を、正確に保持出来る事だ。もしデータが変化したら、1クリックでチャートを生成し直すことができる。もし誰かがチャートの正確さに興味をもったら、実際のソースを示すことができるので、すべての人が全く同じチャートを独自に再現できる(あるいはあなたのミスをみつけるかもしれない)。

NumPyとMatPlotLibの組み合わせは、同様のことをPythonで行える。もしあなたがPythonに習熟しているなら、選択肢になる。NumPyとMatPlotLibはPythonパッケージである。データの分析とビジュアライゼーションに使うことができるが、両方とも静的なビジュアライゼーションに特化している。ツールチップやその他の込み入った機能を持ったインタラクティブなチャートを作ることはできない。

私はMapBoxを使っていないが、もしあなたがOpenStreetMapを元にして洗練された地図を作りたいなら非常に良いツールだと聞いている。例えば、マップのスタイル(色、ラベルなど)をカスタマイズすることができる。それにLeafletと呼ばれるMapBoxのツールがある。LeafletはJavaScriptの地図ライブラリで、地図のソース(OSM、MapBox、Google Maps、Bingなど)を簡単に切り替えることができる。

RaphaelJSは、もう少し低レベルのビジュアライゼーションライブラリで、ビジュアル要素(サークル、ライン、テキストのような)を使うことができる。また、こうした要素をアニメーションしたり、インタラクションを加えることもできる。すぐに使えるバー・チャートなどはないので、あなたはいくつかのレクタングルを使って自分で描画をしてやる必要がある。

しかし、Rhaphaelの良いところは、あなたが作ったものが全てInternet Explorerでも動くという事だ。これは、d3のような、多くの他の素晴らしいビジュアライゼーション・ライブラリでは実現できていない。悲しいことに多くのユーザーは未だにIEを使っていて、どんなニュースルームも、ユーザーの30%を無視する訳にはいかないのだ。

RaphaelJSのほかに、IEのためにFlashでのフォールバックを用意する選択肢もある。The New York Timesはこのやり方を実践している。この場合、あなたはアプリケーションを2度開発する必要がある。

私は未だに、IEとそのほかのモダンなブラウザーに受けてビジュアライゼーションを提供する「最良」のプロセスについて確信が持てないでいる。RaphaelJSで作ったアプリケーションがIEでひどく遅く動いていることがしばしばあるし、モダンなブラウザーでもFlash版より10倍も遅いこともある。だから、Flashを代替手段として用意するのは、全てのユーザーにハイクオリティーなアニメーションのビジュアライゼーションを提供するときのより良い選択肢だ。

— Gregor Aisch
Open Knowledge Foundation

私が頼りにしているツールはエクセルだ。コンピュータでのレポーティングの多くの問題を解決できるし、学習が容易でほとんどのレポーターが利用できるという利点がある。テーブルをマージする必要があるとき、私は良くAccessを使うが、その後でマージされたテーブルをエクセルに戻してさらなる作業をする。私はESRIのArcMapを地理的な分析に使う。パワフルなツールで、地理的なデータを集めるエージェンシーでも使われている。TextWranglerは、癖のあるレイアウトを持つテキストテキスト・データを扱う時に素晴らしい仕事をするし、正規表現を使って洗練された検索と置換処理を行う事ができる。直線回帰のような統計のテクニックを使う必要があるときは、SPSSを使う。親しみやすいクリックメニューを持っている。100万行ものレコードをもつデータセットを扱いフィルタリングやプログラムされた変数のようなヘビーな用途には、SASを使う。

— Steve Doig
Walter Cronkite School of Journalism

我々が選ぶツールには、データをいじったりスクレーピングをしたりするためのPythonとDjangoが入る。また、PostGISやQGIS、それにMapBoxツールキットもすごいウェブ地図を構築するのに必要だ。RとNumPy + MatPlotLibは、我々がデータの分析調査を行うためのキットの選択肢としてどちらが優位か競っているところだが、自分自身で開発したCVSKitは最近の一番のお気に入りだ。

— Brian Boyer
Chicago Tribune

La Nacionで我々が使っているツール:

  • データのクリーニング、まとめと解析にエクセルを使っている。

  • Google Spreadsheets はGoogle Fusion TblesやJunar Open Data Platformのようなサービスと接続するために使う。

  • Junarは我々のデータをシェアしたり、我々の記事やブログ記事に埋め込むために必要である。

  • Tableauはインタラクティブなデータ・ビジュアライゼーションのために使う。

  • Qlikviewはとても高速なビジネス解析ツールで、大きなデータセットをフィルターして分析するのに使う。

  • NitroPDFはPDFをテキストとエクセルファイルに変換するのに使う。そして、

  • Google Fusion Tablesを地図ベースのビジュアライゼーションに使う。

— Angélica Peralta Ramos
La Nacion (Argentina)

技術的なバイアスのない草の根のコミュニティーとして、Transparency Hackersでは多くの異なるツールとプログラミング言語を使う。メンバーはそれぞれに好みのセットがあり、この多様さは我々の強みであり弱みでもある。一部のメンバーは「Transparency Hacker Linux Distribution」を開発していて、どこででもOSをブートしてデータ解析を始めることができる。このツールキットは、Refine、RStudio、そしてOpenOffice Calc(コンピュータに詳しい人々から見落とされているが、ちょっとした作業には本当に役に立つ)のような、データを扱うためのいくつかのおもしろいツールとライブラリを収めている。そして、我々はさっとプロトタイプを作成して結果をオンラインに保存するのに、Scraperwikiを良く使う。

データのビジュアライゼーションやグラフのために、多くの我々のよく使うツールがある。PythonとNumPyはとてもパワフルだ。何人かの人がRを試しているが、結局私はJavaScriptでグラフを描画するd3、Flot、そしてRaphaelJSのようなライブラリが我々のプロジェクトの多くで使われていると思う。最後に、我々は地図の作成のために多くのツールを試したが、Tilemillが非常におもしろいツールだった。

— Pedro Markun
Transparência Hacker