임상시험 방법론과 역학 분야의 선도적 전문가인 Stephen Evans 박사(MD)가 환자를 위한 핵심 통계 개념을 설명합니다. 그는 검정력 부족 임상시험이 무엇인지, 그리고 왜 실제 치료 효과를 발견하지 못하는지를 명확히 밝힙니다. Evans 박사는 편향을 피하기 위해 사전에 지정된 주요 종료점의 중요성을 상세히 설명하며, 치료 필요 건수(NNT) 지표를 분석해 그 유용성과 한계를 강조합니다. 이러한 개념들은 의학 뉴스를 해석하고 치료 효능을 이해하는 데 필수적입니다.
임상시험 분석 이해: 검정력, 종료점, NNT 설명
항목 바로가기
검정력 부족 임상시험
검정력 부족 임상시험은 실제 치료 효과를 신뢰성 있게 탐지하기에 참가자 수가 충분하지 않은 연구를 의미합니다. Stephen Evans 박사는 검정력을 “실제 차이가 존재할 때 이를 발견할 수 있는 시험의 능력”이라고 설명합니다. 그는 COVID-19 치료 시험을 예로 들며, 사망률이 낮은 경우 이를 연구하려면 대규모 표본이 필요하다고 지적합니다.
예를 들어, 사망률을 10%에서 7%로 낮추는 효과를 확인하려면 많은 환자가 필요합니다. 시험 규모가 너무 작으면 검정력이 부족해져 임상적으로 의미 있는 효과를 놓칠 수 있습니다. 초기 COVID-19 시험들은 사망 결과를 평가하는 데 종종 검정력이 부족했습니다. Stephen Evans 박사는 검정력이 연구 대상 결과와 직접적으로 연관된다고 강조합니다.
1차 종료점 대 2차 종료점
임상시험은 치료 효과를 측정하기 위해 1차와 2차 종료점을 설정합니다. 1차 종료점은 시험에서 평가하는 가장 주요한 결과입니다. Stephen Evans 박사는 사망률이 중요하지만 연구하기 어려운 1차 종료점이라고 말합니다. 많은 환자가 필요하기 때문입니다.
연구자들은 종종 회복 시간이나 바이러스 양처럼 측정하기 쉬운 1차 결과를 선택합니다. 이러한 객관적 지표는 더 적은 참가자로도 연구할 수 있습니다. 하지만 Evans 박사는 이러한 기준이 시험 시작 전에 명확히 정의되어야 한다고 경고합니다. 결과를 확인한 후 종료점을 바꾸면 심각한 편향이 생겨 결과의 신뢰성을 떨어뜨립니다.
텍사스 명사수 오류
텍사스 명사수 오류는 임상시험의 무결성과 관련된 중요한 개념입니다. Stephen Evans 박사는 이를 “총을 쏜 후 탄흔 주위에 과녁을 그리는 것”에 비유합니다. 연구에서는 데이터를 확인한 후 원하는 결과를 얻으려고 1차 종료점을 변경하는 것을 의미합니다.
이러한 관행은 심각한 편향을 초래하고 시험의 타당성을 해칩니다. 종료점 변경이 허용되는 경우도 있지만, 반드시 결과를 확인하기 전에 이루어져야 합니다. Evans 박사는 종료점의 사전 정의가 신뢰할 수 있는 임상시험 분석의 핵심이라고 강조합니다. 이를 통해 연구자가 허위 양성 결과를 만들기 위해 데이터를 조작하는 것을 방지할 수 있습니다.
치료 필요 환자 수(NNT)
치료 필요 환자 수(NNT)는 환자가 치료 효과를 이해하는 데 도움이 되는 지표입니다. Stephen Evans 박사는 NNT를 “한 명의 부정적인 결과를 예방하기 위해 치료해야 하는 환자 수”로 정의합니다. 예를 들어, 어떤 약이 사망률을 10%에서 5%로 줄인다면 NNT는 20입니다.
이는 한 명의 생명을 구하려면 20명을 치료해야 함을 의미합니다. 하지만 Stephen Evans 박사는 NNT의 중요한 한계를 지적합니다. NNT는 단순한 숫자가 아닙니다. 추적 기간과 결과 정의에 따라 달라질 수 있습니다. 치료법을 비교할 때는 NNT가 동일한 방식으로 계산되었는지 확인해야 합니다. 단순해 보여도 NNT는 신중하게 해석해야 합니다.
시험 결과 해석
임상시험 결과를 올바르게 이해하려면 주요 통계 개념을 알아야 합니다. Stephen Evans 박사는 사전에 정의된 종료점을 가지고 검정력이 충분한 연구를 찾을 것을 권장합니다. 이렇게 하면 결과가 우연이나 편향이 아닌 실제 효과를 반영할 가능성이 높아집니다.
환자들은 결과의 임상적 의미를 고려해야 합니다. 통계적으로 유의미한 결과라도 NNT가 매우 높으면 실질적 도움이 되지 않을 수 있습니다. Anton Titov 박사는 이러한 개념이 공중보건 이해에 중요하다고 강조합니다. 검정력, 종료점, NNT를 이해하면 의학 뉴스를 비판적으로 평가하고 합리적인 결정을 내리는 데 도움이 됩니다.
전체 전문
Anton Titov 박사: Evans 교수님, 임상시험에는 몇 가지 기본 개념이 있습니다. 예를 들어, 시험이 “검정력이 부족하다”는 것은 무슨 뜻인가요? 임상시험 용어는 이제 언론에도 자주 등장합니다. 사람들이 이러한 기본 개념을 이해하는 것이 중요합니다. 그렇다면 검정력 부족 시험이란 무엇이며, NNT(치료 필요 환자 수)는 무엇인가요? 장단점과 같은 기본 개념들, 그리고 임상시험의 1차와 2차 종료점은 무엇인가요? 확실히, 일부 시험들은 종료점을 변경해 왔는데, 이는 의학계에서 흔한 관행입니다.
Stephen Evans 박사: 우리는 대부분의 예를 현재 COVID-19 상황에서 가져오려고 합니다. 사망률을 연구하려면 상당히 많은 사람이 필요합니다. 다행히도 병원에서도 모든 사람이 사망하는 것은 아닙니다. 사망률이 10%라고 가정하면, 치료 시작 후 30일 내 사망률을 10%에서 7%로 줄이는 것과 같은 의미 있는 차이를 발견하려면 많은 환자가 필요합니다.
우리는 이에 대해 통계 분석을 수행합니다. 하지만 시험의 규모가 너무 작으면, 바로 이것이 검정력 부족 시험입니다. 실제 차이가 존재할 때 이를 발견할 능력이 연구에 충분하지 않은 경우입니다. 이는 COVID-19 치료를 위해 수행된 초기 일부 시험에 해당됩니다.
반면, 수천 명의 환자를 연구하면 합리적인 차이를 다룰 때 사망 결과에 대한 검정력이 부족할 가능성이 낮습니다. 10% 사망률과 9.9% 사망률 사이의 차이를 발견하려면 수만 명의 환자가 필요하지만, 이는 개별 환자에게 큰 의미가 없는 차이일 수 있습니다.
따라서 검정력 부족 시험은 문제입니다. 검정력은 연구하는 결과와 직접 관련이 있습니다. 사망률을 1차 결과로 삼으면 많은 환자가 필요합니다. 종종 연구자들은 사망률을 2차 결과로 두고, 연구하기 더 쉽고 더 적은 환자로도 가능한 1차 결과를 선택합니다.
이런 경우 1차 결과는 종종 질병에서 회복하는 시간입니다. 문제는 이 기준이 다소 주관적일 수 있다는 점입니다. 임상 평가를 바탕으로 회복한 사람을 정의할 수도 있고, 바이러스 양 같은 객관적 측정을 사용할 수도 있습니다.
그래서 우리는 사망률보다 연구하기 쉬운 1차 결과를 객관적으로 평가할 수 있습니다. 문제는 회복을 평가할 때 정의를 미리 설정하지만, 사람들이 그 기준을 충족하지 않을 수도 있다는 점입니다. 1차 결과로 정한 것이 시험 중에 유용한 데이터를 제공하지 않을 것이 분명해질 수도 있습니다.
변경할 합법적인 이유가 있을 수 있습니다. 하지만 어려운 점은 사람들이 결과를 이미 알고 있다면, 질문을 바꿔 원하는 답을 얻을 수 있다는 것입니다. 역학에서는 이것을 텍사스 명사수 증후군이라고 부릅니다. 텍사스 총잡이가 헛간 옆에 서서 헛간을 향해 총을 쏜 후, 걸어가서 탄흔 주위에 과녁을 그리는 것과 같습니다.
시험에서는 미리 지정된 과녁이 필요합니다. 그다음 시험을 수행하고 결과를 확인해야 합니다. 시험이 진행되는 동안 과녁을 바꾸어서는 안 됩니다. 일반적으로 결과를 변경할 합법적인 이유가 있을 수 있지만, 이미 총을 쏘고 탄환이 어디에 박혔는지 본 후에는这样做지 않도록 매우 조심해야 합니다.
탄환이 어디에 떨어질지 모르는 상태에서这样做어야 합니다.
결과를 측정할 때 우리가 할 수 있는 일 중 하나는 사망률을 살펴보는 것입니다. 치료로 인해 사망률이 10%에서 5%로 줄었다고 가정해 봅시다. 이는 100명을 치료하면 5명의 생명을 구할 수 있음을 의미합니다. 즉, 20명을 치료하면 1명의 생명을 구할 수 있습니다.
이를 뒤집어, 한 명의 사망을 예방하려면 20명을 치료해야 한다고 말합니다. 10%와 5%의 차이에서 NNT는 20입니다. 20%와 15%의 차이나 50%와 45%의 차이에서도 마찬가지입니다. 이는 한 명의 사망을 예방하는 데 필요한 치료 환자 수를 나타냅니다.
때로는 사망 대신 심근경색이나 뇌졸중 같은 특정 사건을 보기도 합니다. 이 숫자의 문제는 단순한 숫자가 아니라는 점입니다. 이는 환자를 얼마나 오래 추적観察했는지에 따라 달라질 수 있습니다. 또 다른 통계적 문제도 있습니다.
그래서 제가 특히 좋아하는 개념은 아닙니다. “이 약은 NNT가 20이고, 저 약은 NNT가 50이야”라고 말하는 것은 꽤 그럴듯하게 들리지만, 두 NNT가 동일한 방식으로 계산되었다면 비교가 유효합니다. NNT는 순수한 숫자가 아니므로, 치료법을 비교할 때 정확히 같은 방법으로 사용되었는지 주의해야 합니다.