今日も8時間睡眠
888文字のブログです

データで嘘はつけないけど、データの見せ方で嘘はつける

🗼

アンケートをとったり、実験をしたり、計測をしたり。これらによって得られたデータは、主張の根拠の一つとして使われる。しかし、そのような主張を聞く場合、「データそのものは嘘をついていないかもしれないが、その見せ方で嘘をつくことはできる」ということを意識しておく必要がある。

例えば、時系列のデータを見せられたとする。過去データそのものに恣意性はない。しかし、いつのデータから見せるかという判断には恣意性が入る。相手が「過去と比べて今の数値が高い」という主張をしたい場合、右肩上がりになっている期間だけデータを取り出してくれば、そのような主張ができるかもしれない。

また、もっと極端にやるなら、現在より数値が低い過去の一時点を探してきて、それと現在とを比較する、という方法を使うこともできる。この過去の一時点ってのは適当に説明をつければ疑われることはない。1990年あたりなら「不動産バブル崩壊後」、2000年頃なら「ITバブル崩壊後」、2010年近辺なら「リーマンショック後」とか言えばいい。切りのいい数字なら、「この10年間を振り返ってみると」などと言って比較することもありだ。聞いてる方はあまり違和感を抱かないので、うまくだまされてしまうかもしれない。

「相関」の話にも注意が必要だ。例えば、「この期間の2つのデータには相関がある、だから将来はこうなると予想される」などという主張だ。これも、期間の取り方に恣意性が含まれている可能性がある。そもそも、上で書いた、バブル崩壊やリーマンショックあたりでは、数値が異常値をとったりする。その異常値の出方がたまたま合っていたせいで、相関が謎に高まる、ということはある。それは、2つのデータがバブル崩壊の影響で振れていただけであり、本来相関は弱かったのかもしれない。2つのデータに因果関係があるという主張もできないかもしれない。

データによって裏付けされた主張を聞く場合には、そのデータの見せ方に恣意性がないか意識しておかないといけない。「データを使って主張しているのだから間違いない」といった先入観を持っていれば、だまされてしまうことになる。

(888文字)

バックリンク