これは http://mitochondrion.jp/ に掲載している「医学日記」を、諸般の便宜のために、 1 記事 1 ファイルとして形成し直したものです。 簡単なプログラムで自動生成しているので、体裁の乱れなどが一部にあるかと思われますが、ご容赦ください。


2017/12/30 Benjamini-Hochberg 法 (3)

前回と前々回に紹介した N. Engl. J. Med. 377, 2445-2455 (2017). における多重検定の扱いを検討する。

この報告において著者らは、死亡その他 13 個の secondary outcome について検定を行い、多重検定に際しての補正として Benjamini-Hochberg 法を用いた。 細かい理論的なことは別の機会に述べたいが、概略としては、これは次のような考え方を定式化したものである。

13 個の検定結果の全てが p < 0.05 であるならば、全ての検定を「有意差あり」と判定しても False Discovery Rate は 0.05 未満となるであろう。 これに対し、1 個の検定結果のみが p < 0.05 であり、これを「有意差あり」と判定した場合は、どうか。 偶然による p < 0.05 の検定結果は、13 回の検定を行えば、期待値として 0.65 回、生じる。 従って、実際に 1 回だけ生じた p < 0.05 の検定結果が偽陽性である「確からしさ」は 0.65 と推定され、つまり False Discovery Rate は 0.65 ということになる。 一方、1 個の検定結果のみが p < 0.0038 であった場合、13 回の検定で偶然にそういう結果が生じる回数の期待値は 0.049 となる。 つまり、この 1 個の検定を「有意差あり」とした場合の、False Discovery Rate は 0.049 であると考える。

要するに、13 個全部を「有意差あり」と判定する場合の p の閾値は 0.05 で良いが、1 個だけを「有意差あり」と判定する場合の閾値は 0.0038 である。 一般に、13 個のうち n 個を「有意差あり」と判定する場合の閾値は 0.0038n である。 「有意差あり」となる項目の数が少なければ少ないほど、閾値が厳しくなるのである。

この手法は、一見、もっともらしい。実際、理論は間違っていない。しかし、臨床試験の解析に使うには、まずいのである。 臨床試験は、どういった secondary outcome が実際に有意差を生じるのか、よくわかっていない状況で行われることが多い。 様々な項目を検定して、その中で有意差のある項目を拾い上げたい、というのが試験の目的なのである。 その意味では、前々回に例示したマウスの実験において発現に差が出る遺伝子を探したい、というのと状況は似ている。

ところが、本当は差がない項目をたくさん検定対象に含めてしまうと、Benjamini-Hochberg 法では、判定基準がたいへん厳しくなる。 もし「死亡率」には本当は差があり、低い p 値が得られたとしても、実際には差がない項目を検定対象に含めることで、 Benjamini-Hochberg 法では False Discovery Rate が高くなり、有意差なし、となってしまう。 これは、Benjamini-Hochberg 法の理論が暗に、真の陽性がかなり多いことを前提として開発されたことによる。

つまり、臨床試験において 13 個もの項目を検定してしまうと、Benjamini-Hochberg 法で有意差を検出することは、かなり歴然とした差がある場合を除き、難しい。 そのような統計学の基本的なことを、著者らが認識していなかったとは思われない。 すなわち、臨床試験の計画段階において、13 項目の Benjamini-Hochberg 法を用いると決めた時点で、実は著者らには、有意差を検出する気がなかったのであろう。 「有意差なし」という結果を出したくて実施した臨床試験なのだと思われる。

もし本当に有意差を検出する気があるのなら、もう少し手の込んだ解析が必要であった。 しかし週刊 The New England Journal of Medicine などの娯楽雑誌では、解析手法の妥当性の評価が甘いから、 こういう安直で不適切な解析でも査読を通過し、掲載されるのである。

2018.01.01 リンク追加

戻る
Copyright (c) Francesco
Valid HTML 4.01 Transitional