非劣勢試験は見直すべきか?

The tyranny of non-inferiority trials.

Tannock IF et al.
Lancet Oncol.2024 Oct;25(10):e520-e525.
PMID:39362263.

Abs of abs,
現在の承認レジメンに対する代替レジメンは低用量、低頻度、短期間にすることにより毒性とコストを減少させる可能性がある。しかし代替レジメンが承認レジメンに対して非劣性でなければならないという認識によって制限されてきた。 非劣性試験は、代替療法と承認療法が単一のアウトカムで比較される。しかし優越性を証明するために必要なマージンよりもはるかに小さいマージンで差があることを統計的に示さなければならない。このため大規模で費用がかかる。非劣性試験の欠点は明らかである。まず承認された治療法を繰り返し評価することで発生する変動性を無視していること、さらに承認療法の初回登録の前か後かによって、同様のデザインの試験が優越性または非劣性と称されるのを区別していないこと、最後に毒性やコストなどのエンドポイントを後回しにしていることである。 例えば、より毒性が低く、よりコストの低い3ヶ月のレジメンは、通常、6ヶ月の標準的なレジメンに取って代わるために、それに劣らない有効性を証明する必要があるが、より長い期間の治療法には、そのような優越性を証明する義務はない。 このような状況は、非劣性試験の過剰な圧力である。その統計は、ゆるい治療が標準治療とほぼ同等の生存利益をもたらす場合でも、代替療法に不釣り合いに大きな証明責任を負わせることによって、患者中心でもなく費用対効果の低いレジメンを永続させる。このアプローチは非論理的である。私たちは、優劣をつけることをやめ、無作為化比較試験を単に「比較 」と表記することを提案する。

感想
これは非常に難しい問題です。現在、私たちが論文で見る統計学では「差がない」ということを直接示すことができません。そのため、目的とする結果の95%信頼区間の上限が、ハザード比の1にマージンを加えたものを超えないことで同等性を保障する非劣性試験を行います。一般的に、マージンは0.2から0.3の範囲で設定されますが、これには標準治療として認められたレジメンがプラセボに対して示した成績も考慮されます。マージンが小さいほど同等性は高いとされますが、必要症例数は非常に多くなります。一方でマージンを大きくすると意味がなくなってしまいます。
今回の主張は、過去に非劣性が証明できなかった試験でも、生存曲線が明らかに重なっており、マージンにこだわらずに費用や有害事象の面で利益があるなら、もう少し設定を緩和しても良いのではないかというものです。本文中では、7つの惜しい非劣性試験を取り上げており、これらは設定マージンをわずかに超えてしまったためにネガティブな結果となってしまいました。いずれの試験も500から1万を超える多数の症例が含まれています。ベイズ方式での新治療群が劣っている確率は10%程度ですが、費用や有害事象において利益があるのであれば、同等性が認められてもよいのではないかと考えます。ここが、柔軟に考える派と厳密な試験設定との間で常に議論がある点です。
当然ながら、反論も存在します[Freidlin B Lanct Oncol 2025 PMID:39756457]。反論の内容は、サンプルサイズを減少させると信頼性が低下し、場合によってはプラセボに劣るものを推奨しかねないというもので、統計的な代替案が示されていないことも指摘されています。私はこれらの反論に完全に同意します。優位性が示せないが、非劣性を示せたと後付けで変更できないように、従来の統計学的ルールには従う必要があります。しかし、P<0.05が単なる基準であるように、結果を実地臨床でどのように解釈するかも重要です。これは学会のガイドラインが果たすべき役割だと思います。つまりポジティブな試験だけを一律に推奨するのではなく、ネガティブとされた臨床試験でも有利なポイントがあれば代替レジメンとして推奨することがあってもよいのではないかと思います。また、逆にポジティブな結果であっても、患者に利益が少なければ、それを採用しないことも必要でしょう。肺癌ではレジメンが増えており「私の治療」の時代が再び訪れているのかもしれません。