データを扱うための基礎的な手順

あなたがデータを扱うプロジェクトを始める時に、少なくとも３つのキーコンセプトを理解する必要がある:

データを求める際に、あなたが答えようとしている質問のリストから始めるべきだ。
データはたいてい汚い状態なので、奇麗にする必要がある。
データには明示的になっていない特徴があるかもしれない。

Figure 2. 汚いデータ

あなたが答えようとしている質問を理解する

多くの場合、データを処理する事は生身の情報源にインタービューをする事に似ている。あなたは、あるデータについて質問をして答えを引き出そうとする。しかし、情報源の人が自分たちが知っている事しか答えてくれないように、一塊のデータは正しい記録と適切な値を持っている質問にしか答えてくれない。つまり、あなたはデータを取得する前に自分がどんな質問に答える必要があるのかを注意深く考える必要があるのだ。基本的には、あなたは逆向きに作業を進めることになる。最初に、ストーリーの中で語りたいデータによって証明できる事柄をリストアップする。そして、どんな値や記録を手に入れたいかを決めて、そしてやっとそれらの事柄を語るために分析し始めるのだ。

地域の犯罪レポートに関する例を考えてみよう。あなたがあなたの住む都市の犯罪の傾向に注目したストーリーを考えるとしよう。あなたが論じようとしているのは、異なる犯罪が一番発生しやすい一日のうちの時間帯と曜日、その都市のどのエリアがそれぞれのカテゴリの犯罪が頻発している場所であるかである。

あなたはあなたが要求するデータが犯罪の報告された日と時間、犯罪の種類（殺人、窃盗、強盗など）、そして犯罪が起こった場所の情報を含んでいなければならない事に気づく。だから、日付と時間、犯罪のカテゴリと住所があなたがそうした質問に答えるのに必要な最低限の要素だ。

しかし、この４つの変数のデータセットでは答える事ができない興味深い質問がたくさんあることに注意してほしい。例えば被害者の人種と性別、盗まれたものの総額、または最も多く逮捕者を出した警官は誰かなど。それに、あなたは例えば３年間といった特定の機関の記録しか得る事ができない。これは、さらに長期間を見渡した時に犯罪の傾向が変化しているかについて何も語れないということを意味しうる。こうした疑問はあなたの想定していたストーリーの範囲の外にあるかもしれないが、それは問題ではない。しかし、データの分析をはじめてから突然に都市の地域毎にどれだけの犯罪が逮捕によって解決されたかの比率を知りたくはないだろう。

ここから学べる事はデータベースにあるレコードとレコードに含まれる値をすべて要求するのは、目の前にあるストーリーのための質問に答えるだけの部分的なデータを要求するよりも良いアイデアだと言う事だ。（実際に、部分的なデータを取得するのにプログラミングを外注するなら、すべてのデータを取得する方が安く済む）あなたはいつでも自分のデータの一部を抽出する事ができるし、すべてのデータセットにアクセスできれば、レポートを書いている最中に後から思いつく新しい質問にも答えられる。そして、ストーリーを補足する他のアイデアを与えてくれるかもしれない。守秘義務に関する法律やほかのポリシーによって、あるデータ、犠牲者の身元や匿名の情報源などは公開できないかもしれない。しかし、部分的なデータベースであっても何も無いよりずいぶんと良いものだ。編集されたデータベースが、どの質問に答える事ができてどの質問に答える事ができないかをあなたが理解している限りにおいては。

乱雑なデータをきれいにする

データベースに関する作業で最も大きな問題の一つは、しばしばあなたが分析のために使うデータがお役所仕事のために集められているということだ。問題は正確さの標準がこの２つの活動の間でかなり異なる事だ。

例えば、犯罪者の裁判システムのデータベースの主要な機能は、被告人ジョーンズを監獄から出して裁判官スミスの元に公聴会の時間に確実に連れて行く事だ。このためにはジョーンズの誕生日が間違っていても、彼の住所が誤って記載されていても、あるいはミドルネームが間違っていることさえ大きな問題にはならない。一般的には、このシステムは不完全なレコードをつかってもジョーンズをスミスの裁判部屋に約束通りの時間に連れて行く事ができる。

しかしそうした間違いはデータ・ジャーナリストがデータベースからパターンを発見しようとする試みを歪ませる。そのため、あたらしいデータセットを手に入れた際にあなたが最初にするべき仕事の大部分は、データがどれだけ汚いかを調査することであり、それを奇麗にすることである。データの汚さをチェックする手っ取り早くて有効な手段は、カテゴリ変数の頻度の表を作る事で、そうすると異なる値は比較的小さな量しか出現しないはずだ。（例えばExcelなら、フィルタかピボット・テーブルをカテゴリ変数に適用する事でこれを実現できる）

簡単な例として”性別”を取り上げてみよう。あなたは性別のフィールドに例えばMale、Female、M、F、1、0、MALE、FEMALEといったような値がごちゃまぜになっているのを見つけるかもしれないし、"Femal"のような綴り間違いも含まれているかもしれない。性別の分析を正しく行うためには、あなたは表記の統一――恐らくMとFに――を行い、そしてすべての値をこの表記に合わせなければいけない。同じような問題を抱えたデータベースとして、もう一つアメリカの選挙戦の財政レポートがある。そこでは、職業欄に“Lawyer”、“Attorney”。“Atty”、“Counsel”、“Trial Lawyer” などのたくさんの異なる表記と綴り間違いが入っていたりするかもしれない。ここでもやはり、職業の表記をもっとコンパクトな選択肢リストになるように標準化の作業が必要だ。

名前を取り扱っているとき、データの掃除はさらに面倒になる。"Joseph T. Smith"、"Joseph Smith"、"J.T.Smith"、"Jos. Smith"そして"Joe Smith"はすべて同じ人だろうか？それを決めるのには、住所や誕生日などの他の値を見るか、あるいはもっと大変な調査を行う必要があるかもしれない。Google Refineのようなツールは、データの掃除と標準化の作業のスピードを早めて退屈を軽減してくれる。

汚いデータ

公的文書の扱いに関するアメリカ合衆国の法律のおかげで、この国ではデータを収集することは多くのほかの国で想像されるほど難しくない。しかし、データを収集したとしても、今度は分析ためではなくお役所仕事のために集められたデータを取り扱う際に困難に直面する。。データはしばしば”汚い”もので、値はルールに従っていない。これまで幾度となく、指定のレイアウトに従っていなかったり、添付されたデータ辞書に従っていないデータを受け取った経験がある。いくつかの政府機関は、.pdfのような扱いにくいフォーマットしか提供してくれず、変換が必要になるだろう。こうした問題を経た後、希に面倒な作業無しに扱えるデータを得た時に感謝したいと思うようになるかもしれない。

— Steve Doig, Walter Cronkite School of Journalism, Arizona State University

データには明示的になっていない特徴があるかもしれない

データベースの重要な鍵となるのはデータ辞書と呼ばれるものだ。典型的には、このファイル（テキストやPDF、スプレッドシートの時もある）は、データファイルがどのようなフォーマットになっているか（区切りを持つテキスト、固定長のテキスト、エクセル、dBASE など）、要素の並び順、それぞれの要素の名前、データのタイプ（文字列、整数、１０進数など）についての情報が記されている。あなたは使おうとしている分析用のソフトウェア（エクセル、アクセス、SPSS、フュージョン・テーブル、各種SQLなど）に適切に読み込むためにこの情報を使うことになる。

データ辞書のもう一つの重要な要素は、特定の変数で使われる記法の説明だ。例えば性別は、"1=男性"・"0=女性"と記述されるかもしれない。犯罪は、それぞれの犯罪の種類ごとに、管轄地域の法令番号を使って記述されるだろう。病院のカルテは、数百通りにおよぶ5桁のコードを、診察を受けた患者の病状に応じて使い分ける。データ辞書がなければ、こうしたデータを正しく分析することは難しくなるか、あるいは全く不可能になることすらある。

例えデータ辞書を手にしていたとしても、まだ問題は起こりうる。例えば、数年前フロリダの Miami Herald のレポーターにこんなことがあった。彼らが、裁判官ごとに異なる酔っ払い運転の逮捕者への判決の重さを分析していた時のことだ。レポーターは有罪判決の記録を裁判所のシステムから引き出し、データ辞書に含まれる３つの要素の数値を分析した。拘留期間、懲役期間、罰金の量である。こうした数値は裁判官によってかなり異なっていて、レポーター達は、ある裁判官が厳格である一方で別の裁判官は寛大であるというストーリーの裏付けを得た。

だが判決の約1〜2%で、拘留期間も懲役期間も罰金の量も示していないものがあった。だから、それぞれの裁判官についての量刑のパターンを表す図には、結果として"罪に問われない"というケースが少量ながら含まれていた。この記事と図が出版された時、裁判官達は抗議の声を上げた。Miami Herald 紙は、裁判官達が酔っ払い運転で有罪の判決を受けた者は罰を受けなくてはならないという州法を破っていると批判している、として。

そこでレポーターはデータファイルを作った裁判所書記官のオフィスに戻り、そのエラーの原因について尋ねた。そして、問題のケースは、初めて逮捕された際の被告の貧困が関わっていると告げられた。通常、被告には罰金が課せられるはずの場合において、彼らにはお金がなかったということだ。そのため裁判官は、道路に沿ってゴミを清掃するといった、社会奉仕を彼らに命じた。後で分かったことだが、データベースの構造が作られた後に、社会奉仕を要求する法が通過していた。したがって、すべての裁判所書記官は、データの中で、拘留・懲役・罰金の各変数がゼロになっているものは社会奉仕を意味することを知っていた。しかし、これは、データ辞書に記載 されておらず 、そのため Herald 紙は訂正記事を出すこととなった。

この事例から学ぶべきことは、データの中に文書で説明されていない要素はあるか、それがデータ辞書に含まれていない新しく作成されたコードなのかどうか、ファイルのレイアウトに変更はあったか、などなどについて常にデータの提供機関に尋ねるべきだということだ。また、常にあなたの分析結果を検討し、「どういう意味を持っているのか理解可能かどうか？」と自問してみなさい。Herald の記者は締め切りが迫る中で問題の表を作り、それぞれの判決の平均的な罰のレベルに着目するあまり、何の罰を示さないように見えるほんのわずかな例に注意を払い損ねた。彼らは、ごく僅かであっても、州法に違反しているように見えたすべての判決が理解可能かどうか自問するべきだったのだ。

— Steve Doig, Walter Cronkite School of Journalism, Arizona State University

ごちゃまぜになっていたり、隠されていたり、あるいは欠損しているデータ

こんなおかしな事があった。我々はハンガリーのEU農業補助金についてのデータにアクセスしようとしていた。実際データは全てそろっていたのだが、ひどく重たいPDF書類の中にあって、国内の農業補助金のデータとごちゃ混ぜになっていたのだ。我々のプログラマーは、データを利用可能な形式にするために 何時間も 作業をしなければならなかった。

EUの漁業補助金についてのデータを扱った時もなかなか面白かった。27のEU加盟国の政府給付機関が公開を義務づけられていたものだ。ここに我々がその件について書いたレポートの抜粋がある。「例えば英国では、データのフォーマットがそれぞれ異なっていて、とてもユーザーにとって便利なHTMLの検索ページもあれば、PDFの概要だけのものもあり、あるいは様々なフォーマットで書かれた給付対象のリストがプレスリリースの最後に隠されていたこともあった。たった1カ国のデータだけでもこの有様である。さらに、ドイツとブルガリアでは空のリストが公開された。表題はきちんとあるが、データは空なのだ」。

— Brigitte Alfter, Journalismfund.eu

Home 章: データを理解する次: 一塊32ポンドのパン