Loading

ガーディアンのデータブログでのクラウドソーシング

Wikipediaによれば クラウドソーシングとは、「クラウド、すなわち人によるネットワークに対してタスクをアウトソーシングする分散型の問題解決法や生産工程」のことである。次で述べる例は、議員経費スキャンダル、ドラッグ使用、サラ・ペイリン文書に取り組むために、データブログ(Datablog)がどのようにクラウドソーシングを用いたかについて、サイモン・ロジャーズにインタビューしたものである。

時には、あなたは一人では調べることが不可能な、何トンものファイル、統計、報告書を入手することもあるだろう。または、アクセスできなかったり、ひどいフォーマットのため大したことができない資料をあなたは見つけるかもしれない。そんな時こそクラウドソーシングが役立つ。

ガーディアン(Guardian)が持っている一つの強みは、多くの読者、多くの人々の目である。もし入力する必要がある面白いプロジェクトがあれば、我々は読者の助けを借りることができる。それが、我々が 議員経費の一件 で実践したことだった。我々はは450,000の文書を持っていたが、しかし何かをするにはごくわずかな時間しかなかった。ならば読者に我々の仕事を任せること以外他にどんな良い手段があるというのか?

04 EE
Figure 12. 黒塗りのステファン・パウンド議員の付帯費用(ガーディアン(the Guardian))

議員経費プロジェクトは多くの密告につながった。我々はデータよりも多くの記事ネタを得た。プロジェクトはトラフィックの観点では並外れた成功だった。また大変評判も良かった。

我々は現在 MixMag と一緒に麻薬使用に関するプロジェクト に取り組んでいるところで、これも驚異的な成功を収めている。どれだけ多くの人々の注目を得られるかという点では英国犯罪調査よりも大規模なものとなりそうで、大変すばらしい。

これら両プロジェクトに共通するものは、それらが人々が心から気にかけている争点に関するもので、人々が喜んでプロジェクトのために時間を費やそうとすることだ。我々が行ったクラウドソーシングの多くは偏執狂に頼っている。議員の支出の件では、我々は最初に大量のトラフィックを得て、それから明らかに下火になった。しかし我々には異常やストーリーを求めて偏執的に全てのページを調べる人々がまだいた。ある人は30,000ページを調べた。彼らは多くのことを知っている。

我々はクラウドソーシングを サラ・ペイリン文書 にも用いた。この時もクラウドソーシングは記事で使う生データを精査するのに非常に役立った。

記事ネタを作り出すことに関しては、クラウドソーシングは我々にとって実にうまく機能してきた。人々は本当にクラウドソーシングが好きで、それはガーディアン(the Gurardian)に好印象を与える結果となった。しかしデータ生成に関しては、我々はあまりクラウドソーシングを使ってこなかった。

我々が実施してとてもうまくいったクラウドソーシングプロジェクトのうちのいくつかは、昔ながらの調査のようだった。人々に彼らの経験してきたことや半生や成し遂げてきたことについて尋ねると、みんな本当にちゃんと答えてくれる。というのもみんなごまかそうとしないのだ。彼らは感じるがままに喋ってくれるだろう。また、人々に自分たちの仕事を頼む際は、頼んだ相手を信頼できるようなやり方でデータを生み出せるような枠組みを見つける必要があるだろう。

データの信頼性を考慮すると、 「昔の天気」が取っているアプローチはとても良いと思う。彼らは各項目の作業に対して十人の人員を割り当てた。それは正確性を確保するためによい方法だ。 我々の議員経費のケースでは、議員がオンラインに行き、自分の記録を良く見えるように編集してしまうリスクを最小化しようと試みた。しかし、この問題の完全に解決することはできない。特定のURLを注意したり編集がロンドンのSW1地域から来ているのではないか細心の注意を払うことぐらいしかできない。なので油断がならないのだ。我々が得ていたデータは常に信頼できるとは限らなかった。話の筋としては面白かった場合も、生データは使えるほど信頼できるものではなかった。

もし私が、クラウドソーシングをデータ収集に使いたいと考える、意欲に燃えたデータジャーナリストに助言を与えるとすれば、人々が真に気に掛ける事柄について取り組むように、そしてそれが1面のトップ記事になる時まで、注意を払い続けるように励ますだろう。また人々にゲーム感覚を与えるようなクラウドソーシングを作れれば、人々を惹きつけるのに役立つだろう。我々が経費に関する記事に再度取り組んだ際は、我々のクラウドソーシングは手伝ってくれる人がゲーム感覚でここの課題に取り組めるようになっていた。これは大きな違いをもたらした。なぜなら、単に検査するために情報の山を与えて、「これを調べろ」と言うだけだと、参加者にとってその課題は困難でまるでやりがいのない仕事になりかねないからだ。なので私は課題を面白くすることがとても重要だと思う。

Marianne Bouchart, データジャーナリズムブログ(Data Journalism Blog), ガーディアンのサイモンロジャーズへのインタビュー(interviewing Simon Rogers, the Guardian)