３つのシンプルな手順でデータが読み書きできるようになるには

リテラシーが"知識を読み、統一のとれた文章を書き、印刷物を批評的に考える"ことであるように、データのリテラシーとは、データを獲得し、統一のとれたデータを作成し、批評的にデータを考える能力のことである。データのリテラシーは、統計的な知識だけでなく、巨大なデータの集まりをどのように扱うか、それがどのように作成されたのか、どうやって複数のデータの集合をつなげるか、それらをどのように読み解くか、を理解することを含んでいる。

Figure 1. データを掘り下げる (photo by JDHancock)

Poynter のニュース大学は、ジャーナリストのために数学のクラスを提供している。そこではレポーターがパーセンテージの変化や平均などの考え方を学んでいる。面白い事に、こうした手法は、Poynter のオフィスの近くのフロリダ高校で、10歳から11歳の5年生の授業でも教えられている（ 5年生のカリキュラムがそう示している）。

ジャーナリストが、通常高校に入る前に教えられるような数学のトピックに助けを必要としているという事実は、ニュースルームがデータの読み書きからどれだけ離れているかを示している。これは問題だ。あるデータジャーナリストが信頼区間の意味を知らないとしたら、気候変動における大量の数値を上手く扱うことなどできるだろうか？あるデータレポーターが平均と中央値の違いを理解していないとしたら、収入の分布についてストーリーを書くことなどできるだろうか？

レポーターがより上手にデータを扱うのに、統計の学位が必要という訳では無い。数字を前にしたとき、いくつかの簡単なトリックでよりよいストーリーを紡ぐことができる。Max Planck Institute の Gerd Gigerenzer が言うように、洞察を持って使わなければ、よりよいツールがジャーナリズムをよりよいものにすることはできない。

もしあなたが数学や統計の知識を持っていないとしても、この３つの質問をすることで簡単に経験を積んだデータジャーナリストになることができる。

1. データはどのように収集されたのか？

驚異的なGDPの成長

すばらしいデータを取り出すための最も簡単な手段は、ねつ造する事だ。これは自明なことだが、GDPの数値を元になされたコメントはにせものであることが多い。前イギリス大使の Craig Murray は彼の書籍『サマルカンドでの殺人』で、ウズベキスタンの成長率は政府と海外諸国の間の交渉に従っていることを紹介している。言い換えれば、その数値は国内の経済とは一切関係が無い。

GDPは、政府が彼らにとっての主な収入源である付加価値税を守るための指標として、一番よく使われる。政府が付加価値税によって運営されていない場合、あるいは政府が予算を公開していない場合、GDPを調べる理由はないし、ねつ造したほうが気楽である。

犯罪の数は常に増加している

"スペインの犯罪数が3%増加した"と El Paisが報じた。ブリュッセルでは、不法滞在者や薬物中毒による犯罪が増加していると、 RTLは言う。この種類の警察による統計を元にしたレポートは良くあるが、暴力そのものについては多くを語らない。

我々は、EU諸国の中ではそうしたデータが改ざんされていないことを信じる事ができる。しかし、警察官は誘惑に弱い。たとえば警官の働きが問題の解決で評価されるとき、警官は調査を必要としない問題を可能な限り多くレポートした方が良いという事になる。そうした犯罪の一つが、マリファナの所持である。この事は、この15年間でフランスでの薬物関連の犯罪の数が４倍になったにも関わらず消費量は変わっていない事の説明になる。

あなたにできること

数値の信頼性に疑いを持った時は、必ず２重にチェックをする。政治家の発言を引用する時のように。ウズベキスタンのケースに関して言うと、その地域にしばらくの間住んでいた人に１本電話を入れるだけでも十分だ('この国は、公式発表にあるように1995年の３倍裕福になったと感じますか？')。

警察のデータに関しては、社会学者はしばしば被害者の調査を行い、人々に犯罪の被害を被ったかを訪ねる。こうした調査結果は、警察のデータより不安要素がかなり少ない。それがおそらく、こうした事実がニュースのヘッドラインを飾らない理由だろう。

例えばベンフォードの法則のようなテストを使うことで、データの信頼性を正確に見極める事ができるが、あなたが批判的な思考を行う事に勝るものはない。

2. そこから何を学ぶことができるか？

多発性硬化症のリスクは夜に働くと倍になる

まっとうな思考を持ったドイツ人なら誰でも、この見出しを見た後夜勤をやめてしまうだろう。しかし、この記事は結局のところ何がリスクなのかを我々に教えてはくれない。

1000人のドイツ人を例にとると、そのうちの１人は多発性硬化症になるだろう。いま、その1000人のドイツ人が全て夜勤をしたら、多発性硬化症の患者の数は2人に跳ね上がる。シフト勤務をした場合に多発性硬化症になるリスクの増分は、100%ではなくて1000分の1だ。この情報が、その仕事をするか思い悩む時により有益である事は間違いない。

平均でヨーロッパ人の15人に1人は文字が全く読めない

この見出しは、恐ろしいことのように見える。これは実際に正しい。5億人のヨーロッパ人の間で、3600万人はおそらく文字の読み方を知らない。付け加えると、3600万人は7歳以下である( Eurostatのデータ )。

平均について文章を書く時は、常に「何に関する平均か？」を考えるべきだ。この言及は均質な集団を参照しているだろうか？たとえば、均質ではない分布パターンは、なぜほとんどの人が平均よりも上手に車を運転できるのかを説明している。多くの人は、人生においてまったくのゼロかあるいはただの一度しか事故を経験しない。ほんの一握りの、向こう見ずなドライバーがたくさんの事故を起こして、平均の数値を多くの人が経験するよりはるかに高く押し上げるのだ。同じ事が、収入の分布にも言える。多くの人は平均よりも少ない収入しか得ていない。

あなたにできること

常に分布と基準レートを考慮に入れる。平均と中央値、最頻値(分布の中で最も頻繁に出現する値)もチェックすることで、あるデータについての見識を高める事ができる。多発性硬化症の例にあるように、数値の桁を知っていれば、文脈付けがより簡単になる。最後に付け加えておくと、100人に1人といったような自然頻度の表現でレポートすることで1%のような百分率の表現を用いるよりも読者は簡単に理解することができる。

3. その情報はどれだけ信用できるか？

統計サンプルのサイズの問題

”80%の人が、裁判のシステムに不満を持っている”と、サラゴザのDiario de Navarra 紙の調査結果は言う。800人の回答者の結果から、4600万人のスペイン人の考えを推測できるだろうか？実際、これは論争のタネになっている。

大人数(数千人以上)の人を調査するのに、1000人以上の回答者がいればエラーの幅を3%以下に抑えることができる。これは、同じ調査を全く違うサンプルを対象に行うと、10回に9回は最初に得たのと3%以内の違いしか無い結果を得ることを意味する。統計はパワフルな手段で、対象となるサンプルの大きさは信頼できない調査の原因になることはめったにない。

お茶を飲むと脳卒中のリスクが低減される

お茶を飲むことの効能について書いた記事は良くある。お茶は心筋梗塞のリスクを低減するというこの Die Welt 紙の小さな記事も例外では無い。お茶の効果についての研究は熱心にされているが、リサーチの多くはダイエット、職業やスポーツなどの生活様式を考慮できていない。

多くの国で、お茶は健康を気にする上流階級のための飲み物になっている。もしリサーチャーがお茶を研究する際に生活様式を管理していないなら、そうした研究結果は「金持ちはより健康だ。そして、彼らはたぶんお茶を飲んでいる」という程度の意味しか持たない。

あなたにできること

お茶の研究における相関とエラーマージンの背景にある数字は、全くもって正しい。少なくとも多くの場合に。しかし、リサーチャーが軸同士の相関(co-correlations。お茶を飲むことはスポーツをすることに関連があるというような)を考慮に入れていないなら、レポートは大して意味を持たない。

一人のジャーナリストとして、よほど疑いが無い限り数値を含む結果に挑むのはほとんど意味が無い。しかし、リサーチャーが関連する情報を考慮していないことをチェックするのは、たやすいことだ。

— Nicolas Kayser-Bril, Journalism++

Home 章: データを理解する次: ニュースの中の数値を扱うためのヒント