これは http://mitochondrion.jp/ に掲載している「医学日記」を、諸般の便宜のために、 1 記事 1 ファイルとして形成し直したものです。 簡単なプログラムで自動生成しているので、体裁の乱れなどが一部にあるかと思われますが、ご容赦ください。
検定論を修めた人であれば、帰無仮説という語は知っているだろう。 統計学的検定というのは、ある仮説について「もし、この仮説が正しいならば、このような観測結果は、めったに生じそうにない。 だから、この仮説が間違っていると考えるのが自然である。」という論法をとるのが基本形である。 このような「検定によって否定される仮定」のことを帰無仮説といい、この帰無仮説を否定することを「帰無仮説を棄却する」などと呼ぶ。
この帰無仮説をどのように設定するかによって、検定の意義や価値は大きく変わる。 しかし、これをよく認識せずに、曖昧あるいは出鱈目な帰無仮説を用いて、意味のない検定を行う者は、遺憾ながら少なくない。
ところで、検定のアンチョコ本などをみると「標本数を極端に多くすれば、大抵の検定において有意差が生じる」というようなことが書かれていることが多い。 これの意味が、よくわからない、という質問をある人から頂戴した。 確かに、この件はわかりにくいし、インターネット上などでは、自分で理解せずに安易な受け売りで的外れな解説を述べている者も多い。
たとえば「富山市の猫と金沢市の猫では、出生時体重は同じだろうか?」という問題を統計学的に検定することを考えよう。 単純に考えると、帰無仮説は「富山市の猫と金沢市の猫では、出生時体重は等しい」としたくなる。 ところが、よく考えると、富山と金沢では気候が違うし、猫を飼っている人の経済水準も少し違うであろう。そもそも、生息している猫の種類も違いそうである。 こうした細かな差異があることを考えると、「富山の猫と金沢の猫の出生時体重が厳密に、ミリグラムの精度で等しい」などということは、到底、ありえない。 従って、標本数を十分に大きくして統計誤差を小さくすれば、その僅かな差異を捉えることができ、必ず「有意差あり」という結論になる。 すなわち、この帰無仮説は正しくないことが理論的に明らかであり、わざわざ統計をとって検定する意味はない。
もう少し考えてみると、これは帰無仮説の設定が不適切だったのだ、ということに気づくであろう。 そもそも、なぜ、富山と金沢の猫の出生時体重の違いを調べようと思ったのか。 たとえば、ペットショップの店員が、売れ筋の猫だけを集める目的で富山人と金沢人の傾向の違いを調べようとしたのであろうか。 そうであるならば、出生時体重をミリグラム単位で厳密に議論するのは趣旨から外れる。 むしろ、たとえば帰無仮説を「富山市の猫と金沢市の猫では、平均出生時体重の差は 10 グラム以下である」などとするべきであろう。 この帰無仮説なら、標本数を大きくしても棄却されるとは限らない。 理論的には明らかではないから、実際に猫を集めて検定する価値がある。
なお、上述の帰無仮説において「10 グラム」を基準にしたことには深い意味はない。 この値を小さく設定すれば「有意差あり」となりやすいし、大きく設定すれば「差はない」という結論を出しやすくなる。 素人は、統計学的検定がまるで客観的で普遍的であるかのように誤解しがちであるが、本当は、このように、主観や恣意の入る余地が大きい。 そもそも、有意差判定の基準として頻用される p = 0.05 という閾値自体、何の根拠もない単なる慣習に過ぎないのであるから、検定の目的に応じて合理的に変更して良い。
このように、統計を議論するときには「その統計で、何をしたいのか?」を念頭に置いて、本当に意義のある帰無仮説を設定しなければならない。