Clinical Versus Statistical Significance in Studies of Thoracic Malignancies.
Dahlberg SE et al.
J Thorac Oncol.2020 Jun 21:S1556-0864(20)30477-9.
PMID:32580055.
Outline
統計学的有意であっても実地臨床では意義の少ない研究が存在する。逆に統計的有意でなくとも臨床的には重要な研究もある。このグレーゾーンを議論するためには統計設定と結果の解釈について深く学ぶ必要がある。臨床試験において仮説に基づく統計的推論を行い、効果量を得る。その結果としてp値が得られる。しかしこのp値は統計的有意性を示すだけで、臨床的有意性を示すものではない。偽陽性の確率、すなわちタイプ1エラーについて、第Ⅲ相試験では0.05が採用されることが多いが、第Ⅱ相では0.1-0.2に緩められることが多い。
臨床的有意性は統計学的有意性よりもはるかに主観的なものである。臨床的有意性は多くのパラメータで決定される。過去15年で腫瘍領域は大きな成功を収めてきたが、一方で有害事象や経済性とトレードオフの関係にあるとの見方もできる。治療には効果が人によって違う不均一性が存在する。信頼区間はP値とともに臨床的な有効性を考える指標となる。ペムブロリズマブとドセタキセルを比較したKEYNOTE-010試験では、ペムブロリズマブ2mg/kgのPFSハザード比が0.88[0.74-1.05] P=0.07、ペムブロリズマブ10mg/kgが0.79[0.66-0.94] P=0.004であった。事前設定の有意水準は0.001であり有意にはならないが、良い方向性は示している。OSは事前設定された有意水準を完全に達成している。このようなことを踏まえFDAは2㎎/kgを認可している。
統計学的有意であっても、臨床的有意性の議論があるのがREVEL試験である。この試験は1253人の患者をランダム化しドセタキセル+ラムシルマブをドセタキセルと比較した試験である。結果はOSハザード比0.86[0.75-0.98] P=0.023で中央値にして1.4ヶ月の改善であった。プライマリーエンドポイントはmetし統計的有意であるが、ハザード比は一番良い場合(信頼区間の下限)でも0.75である。上限も1に近い。FDAは認可したが、毒性、コストがわずかな効果を上回るかは疑問が残る。
臨床試験は、適切な効果量と検出力を持って統計学的有意と臨床的有意を協調させるデザインにすべきである。統計学的有意を得る方法は確立しているが、臨床的有意性は医療者、患者により判断されるべきであろう。臨床的に必要な効果量は時代とともに変化するが、ASCOやESMOが作っているものが役立つかもしれない。臨床試験の結果はP値だけで判断すると合わない点が出てくる。特に過剰な検出力がある場合、サンプルサイズが大きい場合にはわずかな差が検出されてしまうことに注意すべきである。信頼区間と効果量を考えることが臨床的有意性を判断する手助けになるかもしれない。
感想
ますます臨床試験の解釈は難しくなっています。事前設定されたプライマリーエンドポイントと有意水準に沿った解釈しか許さないというのが作法ではありますが、それだけでエビデンスを議論するのは少し窮屈です。上記の内容は完全に同意ですが、さらにエビデンスを解釈する上で大きな要因になるのが「好き嫌い」ではないかと思っています。なぜか好きな(あるいは嫌いな)薬、メーカーは本当にないでしょうか。人間ですので仕方ないと思いますが、特に生活習慣病の薬の選択では大きな要因になり得ます。薬を売る上では、エビデンスが大事ですが、イメージを良くし好かれようとする戦略も、もちろんあるでしょう?
話がそれましたが、現在のエビデンスは生存利益一辺倒で、毒性はとりあえず耐えられれば良いとされ、さらに日本では経済性もまだまだ軽視されていると感じます。高齢化も相まってもっと患者目線での利益を最大化する議論が必要と感じています。