臨床研究と観察研究、一致しないのは偶然だけ

Comparison of Population-Based Observational Studies With Randomized Trials in Oncology.

Soni PD et al.
J Clin Oncol. 2019 Mar 21 [Epub ahead of print]
PMID: 30897037

Abs of abs.
集団登録を用いて行われた有効性を比較する研究は、大きなバイアス下にある可能性がある。このようなバイアスを十分に減少させ、正確な結果が得られる要因についての客観的データは存在しない。2000年1月から2016年10月までに、SEER、SEER-Medicare、またはNational Cancer Databaseを使用し、癌に対する2つの治療法を比較した観察研究についてMEDLINEを検索した。報告の質および統計手法はSTROBEクライテリアを用いて評価された。同じ治療を比較したランダム化試験を確認した。主たるアウトカムは、観察研究によって推定された生存に関するハザード比(HR)と無作為化試験でのそれとの相関である。副次的アウトカムは、一致させたペア間での一致と予測因子である。レビューされた3657件の研究のうち、350件の比較試験が適格基準を満たし、121件のランダム化試験と一致させた。観察研究で報告されたHR推定値と無作為化試験との間に有意な相関はなかった(相関係数、0.083[-0.068から0.230])。マッチさせた研究の40%が治療効果に関して一致(カッパ値0.037[-0.027から0.01])、そして観察研究のハザード比の62%が無作為化試験での95%信頼区間内に入っていた。癌の種類、情報源、研究の質、年齢、病期、合併症、そして傾向の重み付け調整、施設要因、感度分析、研究集団がよく合っていることは一致を予測しなかった。本研究では無作為化試験結果との結果の精度を高めるような、観察研究に内在する因子を同定することはできなかった。研究の質や観察研究の統計的厳密性があったとしても、偶然を超えるような因子は見られなかった。一般集団での有効性研究の信頼度を高めるための方法論の確立するためにさらなる研究が必要である。

感想
臨床試験の結果と実地の結果は一致するかというテーマです。結論としてはあまり一致せず、その原因もよく分からないということです。この原因ついて様々考察されていますが、臨床試験の結果が真実であるような前提でいいのかどうか疑問です。Fig2Aをみると、青色の直線(臨床試験と観察研究が一致するライン)を線対称として結果が散らばっています。結論の「偶然以外の因子が見つからなかった」を視覚的に裏付ける結果となっています。厳密なペアを作って比較した場合、無作為化試験の95%信頼区間内に観察研究の62%のハザード比が入っていました(Fig2B)。この図を見ると実地では、点推定値としてのハザード比が悪い方に振れるケースが多いことを示しています。厳密な理屈から言えば、95%信頼区間は「母集団から100回標本を取り、その平均の95%信頼区間を求める作業をすると、95回はその区間の中に母平均が含まれる」という意味ですから、真実の値が一つで、それが臨床試験の結果であったとしても、20回に1回は臨床試験の95%信頼区間には入っていません。このような中での62%ですから、まあまあと考えてもよいのではないかと思います。
今回は肺癌以外の癌種も含まれています。私見ですが、私は肺癌に関して、観察研究と臨床研究との差は実はあまりないと考えています。特にEGFR遺伝子変異陽性など、治療に関わる強い因子が絞られる場合は一致する傾向がより強くなると考えています。今回の「偶然以外の因子が見つからなかった」ということで、いささか落胆気味?の著者ですが、この結果はむしろ積極的に支持される知見ではないかと思います。臨床試験と観察研究との間に偶然以外の差がないのですから、実地データにおける偶然をなくす作業をしていけば良いということになります。つまりサンプルサイズを大きくして、繰り返し検討し、さらにそれを統合していけば、前向き臨床試験に匹敵するデータが得られるということを裏付けた重要な研究であると言えます。