http://blog.naver.com/exactmehta?Redirect=Log&logNo=80095344492

(연세대학교 응용통계학과 강승호 교수)

두 모집단의 모비율을 비교하고 싶다고 하자. 예를 들어, 신약 그룹의 치료율을 p1이라 하고, placebo 그룹의 치료율을 p2라고 하자. 두 모집단의 모비율을 비교하는 데는 다음의 세 가지 측도가 자주 사용된다.

 

1. risk difference

이는 p1-p2 이다. 비율이 종종 risk를 나타내는 경우가 있어서, 두 모비율의 차이는 risk difference라고 불린다.

 

2. risk ratio, or relative risk

이는 p1/p2 이다.

 

3. odds ratio

p1/(1-p1) 를 p2/(1-p2) 로 나눈 것이다.

 

오늘은 이 odds ratio (오즈비)에 대하여 살펴보겠다. odds ratio는 상당히 자주 사용되는데 비해, 많은 사람들이 그 개념을 이해하는데 어려움을 갖고 있다. 우선 odds가 무엇인지부터 알아야 한다.

 

어떤 관심 있는 사건이 발생할 확률을 p라고 하자. 이 경우, 이 사건의 odds는 p/(1-p) 로 정의된다. p 값이 달라짐에 따라, odds 값이 어떻게 달라지는지 아래에서 살펴보자.

 

p       odds

1/5    1/4

2/5    2/3

1/2     1

3/5    3/2

4/5     4

 

p가 1/2 일 때, odds가 1이 되고, p가 1/2에서 0으로 감소할수록, odds도 0으로 감소한다. 반면에 p가 1로 증가할수록, odds는 (무한대로) 증가한다. 이는 어떤 사건의 odds가 클수록, 실제 그 사건이 발생할 확률은 커진다는 의미이다. 우리나라 사람들은 그냥 그 사건이 발생할 확률 p를 사용하지, odds를 사용하는 데는 익숙하지 않다. 반면에 서양 사람들은 odds를 사용하는데 (적어도 우리보다는) 익숙하다.

 

다시 위의 예로 돌아가서, 신약 그룹의 치료율을 p1이라 하고, placebo 그룹의 치료율을 p2라고 하자. 이 경우 신약 그룹에서 치료되는 사건의 odds는 p1/(1-p1)이고, placebo 그룹에서 치료되는 사건의 odds는 p2/(1-p2)이다. odds ratio란 이 두 odds의 비 (ratio)이다. 그러므로 p1/(1-p1)을 p2/(1-p2)로 나눈 것이 되어 p1(1-p2)/[p2(1-p1)]이 된다. 이는 placebo 그룹에 비하여, 신약 그룹의 치료되는 사건에 대한 odds ratio이다.

 

이처럼 odds ratio을 말할 때는 반드시 기준이 되는 그룹이 무엇이며, 어떤 사건에 대한 odds인지를 명확히 밝혀야 한다. 하지만 많은 경우, 그런 것들을 암묵적으로 정의한 상태에서 odds ratio를 사용하므로, 혼란이 발생한다.

 

만일 신약 그룹에 비하여, placebo 그룹의 치료되는 사건에 대한 odds ratio를 구한다면, 이는 p2/(1-p2)를 p1/(1-p1)으로 나눈 값이 되어, p2(1-p1)/[p1(1-p2)]이 된다. 이는 placebo 그룹에 비하여, 신약 그룹의 치료되는 사건에 대한 odds ratio의 역수가 된다.

 

또한 만일 치료되지 않는 사건에 관심이 있다면, 신약 그룹과 placebo 그룹에서의 치료되지 않는 사건의 odds는 각각 (1-p1)/p1과 (1-p2)/p2가 될 것이다.

 

그러므로 placebo 그룹에 비하여, 신약 그룹의 치료되지 않는 사건에 대한 odds ratio는 (1-p1)/p1을 (1-p2)/p2로 나눈 값이 되어, p2(1-p1)/[p1(1-p2)]이 된다.

 

또한 신약 그룹에 비하여, placebo 그룹의 치료되지 않는 사건에 대한 odds ratio는 (1-p2)/p2를 (1-p1)/p1으로 나눈 값이 되어, p1(1-p2)/[p2(1-p1)]이 된다.

 

위에서 구한 4개의 odds ratio는 사실 서로 같은 값이거나, 아니면 역수이거나의 관계에 있다. 어쨌든 다시 한 번 강조하지만, odds ratio을 말할 때는 반드시 기준이 되는 그룹이 무엇이며, 어떤 사건에 대한 odds인지를 명확히 밝혀야 한다.

 

자 이제, placebo 그룹에 비하여, 신약 그룹의 치료되는 사건에 대한 odds ratio인 p1(1-p2)/[p2(1-p1)]를 구했더니, 2.0이라고 하자. 이는 무엇을 의미하는가?

이는 odds ratio의 정의대로, 신약 그룹의 치료되는 사건에 대한 odds인 p1/(1-p1)이, placebo 그룹의 치료되는 사건에 대한 odds인 p2/(1-p2)보다 2배 크다는 의미이다.

하지만, 정의는 이해가 되지만, 그래도 여전히 신약 그룹이 placebo 그룹에 비하여, 치료율이 얼마나 좋은지 명확하게 잘 머리에 쏙 들어오지 않는다.

위의 odds ratio가 2.0이 나오는 구체적인 예를 들어보자.

 

p1    p1/(1-p1)    p2    p2/(1-p2)    odds ratio

2/3      2            1/2     1                  2

4/5      4            2/3     2                  2

6/7      6            3/4     3                  2

 

이 예들에서 보듯이 (p1,p2)가 (2/3,1/2) 또는 (4/5,2/3) 또는 (6/7,3/4)인 경우, odds ratio가 2.0이 된다. 물론 그 외의 경우도 무수히 많다.

odds ratio가 2.0이라는 것의 의미를 더 이상 명확하고도 상세하게 설명할 길은 없다.

 

그러므로 내 개인적인 의견으로는, 비록 odds ratio를 계산하더라도, 두 비율의 차이인 risk difference를 계산해볼 것을 권하고 싶다. 왜냐하면, risk difference는 p1-p2이므로 훨씬 빠르고 정확하게 그 의미가 이해되기 때문이다. 그러기 위해서는, 신약 그룹과 placebo 그룹이 행에 오고, 치료와 치료되지 않음이 열에 오는, 다음과 같은 2 x 2 분할표를 반드시 작성하여, 두 그룹에서의 표본 치료율의 차이를 계산해볼 것을 권고한다. 그리고나서 odds ratio를 보면, 그렇게 하지 않은 것에 비해, odds ratio값의 의미가 더 잘 이해가 될 것이다.

 

           치료됨 치료되지않음

-------------------------

신약         a         b

placebo    c        d

-------------------------

 

a는 신약 그룹의 치료된 환자 수, b는 신약 그룹의 치료되지 않은 환자 수, c는 placebo 그룹의 치료된 환자 수, d는 placebo 그룹의 치료되지 않은 환자 수를 각각 나타낸다.

 

이 경우, 신약 그룹에서 치료되는 사건에 대한 odds의 추정치는 a/(a+b)를 1-a/(a+b)로 나눈 값이므로, a/b 이다. 반면에 placebo 그룹에서 치료되는 사건에 대한 odds의 추정치는 c/(c+d)를 1-c/(c+d)로 나눈 값이므로, c/d 이다. 그러므로 placebo 그룹에 비하여, 신약 그룹의 치료되는 사건에 대한 odds ratio의 추정치는 a/b를 c/d로 나눈, ad/(bc)가 된다. 구체적인 예를 들어보자. 만약 우리가 관찰된 자료가 다음과 같다고 가정해보자.

 

              치료됨 치료되지않음

-------------------------

신약         20       10

placebo    20       20

-------------------------

 

placebo 그룹에 비하여, 신약 그룹의 치료되는 사건에 대한 odds ratio의 추정치는 (20 x 20)/(10 x 20) = 2.0 이 된다. 문제는 분명히 odds ratio의 정의를 잘 알고 있음에도 불구하고, 도대체 신약이 placebo에 비하여 얼마나 좋은지 감이 잘 오지 않는다는 점이다.

하지만, risk difference를 구하면, 20/30 - 20/40 =66.7% - 50.0% = 16.7%가 되는데, 이는 신약의 치료율이 placebo의 치료율에 비하여 16.7% 좋다는 것이므로, 명확하게 이해가 된다.

 

odds ratio가 이처럼 해석상의 어려움이 있음에도 불구하고, 자주 사용되는 이유는 무엇일까? 그 이유 중의 하나는 odds ratio를 사용하면, 통계학적인 이론과 모형이 쉽게 개발되기 때문이다. 이에 대해서는 나중에 기회가 되면 더 설명할 것이다.


Posted by president

BLOG main image
InnoBrain [Innovate U're Brain]
empirelee's Blog ; Criminal Analyst in CarnegieMellon Univ. by president

카테고리

분류 전체보기 (125)
PC [Post Collection's] (12)
MC [Main Crit] (18)
CH [Carnegie Mellon History] (1)
PC [Political Crit] (1)
SM [Story Master] (33)
GC [Game Crit] (15)
GT [Game Tip] (1)
M&M [Media] (2)
R&R [Research & Readings] (3)
GRE [Study Rep] (1)
Online Regulation (29)
Public Policy (7)

글 보관함

달력

«   2019/02   »
          1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28    
Total : 114,079
Today : 0 Yesterday : 2