これは http://mitochondrion.jp/ に掲載している「医学日記」を、諸般の便宜のために、 1 記事 1 ファイルとして形成し直したものです。 簡単なプログラムで自動生成しているので、体裁の乱れなどが一部にあるかと思われますが、ご容赦ください。
同期研修医の某君から、ある論文の内容についてのコメントを求められた。 この日記では、基本的に個人攻撃はしない方針なので、どの論文なのかは明記しないが、いわゆる臨床研究の論文である。 その内容は、入院患者の致死率について、ある因子が、既知の危険因子とは独立した危険因子であることを示した、と主張するものである。
どうやって独立性を証明したのか、と思って読んでみると、どうやら Cox regression analysis を用いたらしい。 詳しい解析方法は記載されておらず、統計解析ソフトを、その数学的内容を理解しないままに、ブラックボックスとして使ったような気配の漂う論文である。 たぶん、多変量解析を巡る、よくある誤りを犯したのであろう。
Cox regression analysis というのは、比例ハザードモデルと呼ばれる仮定に基づいて、結果、この場合でいえば入院患者の致死率、に対して、 複数の因子がそれぞれどの程度影響を与えているか、を推定する手法である。 似たような解析方法として頻用されるのはロジスティック回帰分析であるが、これは、仮定しているモデルが少々違うだけで、大筋では似たような仮定に基づいている。 一般向けの報道記事などで、たとえば「喫煙や年齢の影響を統計学的に除外して評価したところ……」などと書かれるのは、大抵、これらの分析方法を用いたという意味である。
問題なのは、ロジスティック回帰分析にせよ、比例ハザードモデルにせよ、そもそも各因子は互いに独立であることを前提としていることである。 数学的にいえば、これらのモデルは、各因子について変数分離された式によって表される。 初めから互いの独立性を仮定した上で、それぞれの因子の影響を推定しているだけなのであって、この解析法を用いて独立性を評価することは、もとより不可能である。 つまり、著者は統計学をわかっていないか、あるいは、わかった上で敢えて学術的意義のない論文を書いたかの、どちらかである。 なにしろ臨床医学の世界では査読者の方も統計学をわかっていないことが多いから、このくらいデタラメな解析であっても、そこそこ有名な論文誌に掲載される。
そもそも「独立した危険因子」という言葉の意味を、しっかりと考えたことのある学生や医師が、どれだけ、いるだろうか。 「危険因子」の方は、まぁ、なんとなくわかる。 「喫煙している人は (詳しい機序はともかく) 肺癌になりやすい」という傾向が存在するならば「喫煙は肺癌の危険因子だ」と言える。 また「アスベスト曝露は肺癌の危険因子だ」という事実も知られているとしよう。 では「喫煙とアスベストは独立した危険因子である」とは、どういう意味になるのか。
もし発癌が確率事象であるならば、「独立」という言葉の意味は、数学的考察から容易に定義できる。 しかし以前に何度も書いたように、発癌は確率事象ではない。 もちろん確率事象に近似して統計をとることはできるが、その場合、「その母集団で、その仮定された確率分布を用いた場合」に限定された結果しか得られない。 思うに、二つの危険因子の独立性を統計解析によって証明することは、不可能なのではないか。 独立性は、それらの因子が、いかなる機序で結果に影響を及ぼすのかを生理学的・理論的に解明することによってのみ立証できるのではないか。
こうした確率論、統計学の限界について学ぶことは、我々工学部の者にとっては、大学一年生か二年生頃に越えねばならぬ大きな山であった。 それを回避して、盲目的に統計解析ソフトに頼る人々は、いつまでたっても、統計を正しく扱うことはできないであろう。
なお、この「独立」という言葉を、本当に物事をわかっている疫学者の人々が、どういう風に定義しているのかは、知らない。 少なくとも、私が読んだような初等的な教科書に書かれている定義はマヤカシであり、また、統計学の教科書に書かれている定義は、非実用的に過ぎる。