病院の請求
CaliforniaWatchで調査報道に携わるジャーナリストがある通報を受け取った。それによると、カリフォルニアのある大手チェーン病院で、連邦政府のメディケア・プログラムの抜け穴を利用する行為が行われているかも知れない。メディケア・プログラムは65歳以上のアメリカ人の治療費を肩代わりするもの。疑われているペテンは、 upcoding と呼ばれるもので、患者が実際よりも複雑な病状にある、従ってより多額の医療費補助に値する、と報告するものだった。鍵となる情報提供者は病院チェーンの経営側と係争関係にある労働組合で、CaliforniaWatchのチームは、この話の信用性を担保するには独立した検証が必要だと理解していた。
幸運なことにカリフォルニア州の保健省は州の病院全てで扱われた患者についての非常に詳細な公的記録を持っていた。128の変数からなるこの記録は世界保健機構の「疾病及び関連保健問題の国際統計分類」マニュアル(一般にICD-9と呼ばれる)に準拠した25の診断コードを含んでいた。データの中では患者の名前は特定されていなかったが、他の変数から患者の年齢、どのように医療費が支払われたか、どの病院で治療を受けたか、などが含まれていた。ジャーナリストたちはこれらの記録があれば、件の病院チェーンが他の病院で見られるよりも有意に高い確率で特定の異常な病状を報告しているかどうかを見ることができると気がついた。
データベースは大規模だった — 一年当たり400万件近い記録があった。ジャーナリストたちは、各種の傾向が年とともに変動しているかを見るために6年分の記録を分析したかった。彼らはこの記録を州の政府機関に注文した。データはCD-ROMで届けられ、デスクトップPCに簡単にコピーできた。実際のデータ分析を行うレポーターたちは、 SASと呼ばれるシステムを使っていた。SASは非常に強力なツール(何百万件のデータの分析もできるもの)で、カリフォルニア州の保健省を含め多くの政府機関にも利用されていたが、高価だった。同じような分析はマイクロソフト・アクセスやオープンソースの MySQLなどほかの様々なデータベース・ツールでも実施可能だった。
データを手にし、分析のためのプログラムを書くと、怪しい傾向を見つけ出すのは比較的シンプルだった。たとえば、告発のひとつは、さまざまな程度の栄養不良をこのチェーンが他の病院で見られるよりもかなり高い確率で報告しているというものだった。SASを使うことで、データ・アナリストはカリフォルニア州にある300以上の急性期の病院のそれぞれで、それぞれの年毎に何件の栄養不良が報告されているかの度数分布表を作成することができた。この度数分布表をマイクロソフト・エクセルにインポートして、各病院のパターンを詳細に調べた。エクセルのソート機能と、確率計算の機能を使えば、パターンを見ることは簡単だった。
特に衝撃的だったのは、Kwashiorkor と呼ばれるたんぱく質欠乏症の一種で、これは、ほとんど飢饉に見舞われた途上国の飢えた乳幼児にだけ見られるものだ。ところが、このチェーンはKwashiorkor をCaliforniaの高齢者について診断している率が 州の全病院平均の70倍の高率に上っていた。
他の記事のために、データ分析では似たようなテクニックを用いて 敗血症、 脳症、 悪性高血圧、 自律神経失調症のような病状の診断率を検証した。そしてもうひとつの分析では、 緊急救命室から 異様に高い率のメディケアの対象患者を受け入れているという告発について検証した。メディケアの対象患者は他の緊急救命室の患者と比べて治療費を支払えることがより確実だという事情がここにはある。
まとめると、このような記事は、固有の目的を持っているかも知れない情報提供者からの告発について、データを使うことで独自に検証するための証拠を生み出すことで可能になる。このような記事は、公的記録に関する強力な法律の必要性の好例にもなっている。政府がこのようなデータの報告を義務付けている理由は、これを政府なり、学者なり、調査官なり、市民ジャーナリストなりがこういった分析ができるようにすることにある。このような記事の扱う主題は、何百万ドルもの公的な資金がきちんと使われているかどうかを検討するものなので、重要である。
— Steve Doig, Walter Cronkite School of Journalism, Arizona State University