[A/B Test] 신뢰 구간

해당 포스트에서는 통계적 가설 검정의 절차에서 p-value와 함께 자주 등장하는 “신뢰구간“의 개념에 대해 리뷰해보도록 하겠다.

먼저 신뢰 구간이 어떠한 맥락에서 등장했는지를 파악하기 위해 통계적 추론의 “구간 추정” 이라는 개념을 살펴본 다음, 이를 바탕으로 신뢰 구간의 가설 검정에서 어떻게 활용되는지, 또한 신뢰 구간의 정확한 해석은 무엇인지에 대해 차례대로 살펴볼 예정이다.

 


1. 구간 추정

앞선 포스트에서 통계학이란 미지의 모수를 추정하기 위한 학문이라는 점을 살펴보았다. 이러한 측면에서 통계학에서 모수를 추정하는 방법은 크게 “점 추정“과 “구간 추정” 으로 구분된다.

첫 번째로 점 추정이란, 말 그대로 모수의 구체적인 한 값을 추정하는 것이다. 예를 들어, 우리나라 남성의 “평균 키” 라는 모수가 궁금하다고 할 때, 우리는 임의 표본을 수집한 다음 표본 평균이라는 지표로 해당 모수를 추정할 수 있다. 결론적으로 점 추정은 구체적인 하나의 값을 그 결과로 제시하게 된다 (ex. 남성의 평균 키의 추정치 = “174.3” cm).

이와는 대조적으로, 두 번째 구간 추정이란 모수가 포함될 것이라고 생각되는 일정한 범위를 추정하는 것이다. 가령, 곧 있을 대통령 선거에서 후보별 득표율에 대한 출구 조사를 진행하는 것이 대표적인 예시라고 할 수 있는데, 이 경우 득표율의 구체적인 값 보다는 득표율의 범위 (ex. 특정한 후보의 득표율: 20% ~ 27%) 를 제시하는 것이 더욱 의미가 있을 것이다. 해당 포스트의 주제인 신뢰 구간은 바로 이러한 구간 추정의 결과로 등장하는 개념이다.

비록 이렇게 개념적으로는 구분될 수 있으나, 사실 점 추정과 구간 추정은 뗄레야 뗄 수 없는 관계이다. 그 이유는 구간 추정의 결과인 할 수 있는 신뢰 구간의 계산 식에 점 추정치 (point estimate) 가 포함되기 때문이다. 아래의 그림을 살펴보도록 하자. (출처)


신뢰 구간의 정의

 

위 그림에 제시된 신뢰 구간의 정의로부터, 우리는 신뢰 구간이 상한값과 하한값이 점 추정치 (point estimate)에 일정한 값을 더하고 빼서 구해지는 것을 확인할 수 있다. 이러한 측면에서 구간 추정이란 점 추정을 좀 더 확장시킨 개념이라고 생각해도 무방하다.

 


2. 가설 검정과 p-value의 한계

다음으로 통계적 가설 검정의 맥락에서 구간 추정, 즉 신뢰 구간이 왜 필요한지에 대해서 살펴보도록 하겠다. 본격적인 논의에 앞서, 이전 포스트에서 다룬 통계적 가설 검정의 절차를 간단하게 리뷰해보자.

당연하게도, 통계적 가설 검정을 위해서는 기본적으로 가설이 필요하다. 구체적으로, 통계학에서는 기존 현상을 유지하려는 주장을 “귀무 가설”, 기존 현상을 반박하는 주장을 “대립 가설“이라고 표현한다는 점을 살펴보았다. 여기서 주의해야 할 점은, 우리가 다루는 모든 형태의 가설은 점 추정량을 포함한 진술이라는 점이다.

예를 들어 <어떤 모바일 앱의 새로운 UI는 기대 수익을 증가시킬 것이다> 라는 가설을 검정하는 것이 목표라고 가정해보자. $\bar X$를 평균 기대 수익이라고 할 때, 귀무 가설과 대립 가설은 다음과 같이 수식적으로 나타낼 수 있다.

$$ \begin{aligned} H_0 &: \bar X_{new} - \bar X_{old} \leq 0 \\[10pt] H_1 &: \bar X_{new} - \bar X_{old} > 0 \end{aligned} $$

 

이 때, 우리가 수행하고자 하는 가설 검정이란 궁극적으로 위 부등식의 좌변인 “새로운 UI와 기존 UI의 평균 기대 수익의 차이” 라는 점 추정량이 검증하고자 하는 효과의 기준인 0보다 큰지 아닌지를 판단하는 것이라고 할 수 있다. 그리고 이러한 판단은 저번 포스트에서 살펴본 것처럼 p-value를 기준으로 이루어진다 (ex. 유의수준 0.05보다 작으면 귀무가설을 기각).

가령 위 예시에서는 구체적으로 0.03이라는 p-value 값이 도출되었다고 가정해보자. 이에 대한 해석은 다음과 같다:

>> "새로운 UI가 아무런 효과가 없는 경우, 관측된 매출에서만큼의 차이가 발생할 확률은 고작 3% 밖에 되지 않는다."

따라서 p-value란, 관측된 데이터를 바탕으로 계산된 점 추정량이 “귀무 가설을 지지하는 정도“를 수치화 한 지표라고 이해할 수 있다. 그리고 바로 이 부분에서 p-value의 본질적인 한계점이 드러난다.

가령 새로운 UI가 실제로 효과가 있어, 유의수준보다 작은 p-value 값이 계산되어 귀무가설을 기각하고 대립가설을 채택했다고 가정해보자 (i.e. 새로운 UI가 평균 기대 수익을 증가시켰다). 이러한 맥락에서 자연스러운 궁금증은 “그렇다면 구체적으로 몇 퍼센트 정도의 수익이 증가할까?” 일 것이다. 하지만 애석하게도 p-value는 이러한 질문에 대한 구체적인 대답을 제시하지 못한다. 그리고 이를 해결해주는 것이 바로 신뢰 구간의 역할이다.

 


3. 가설 검정과 신뢰 구간

따라서 “신뢰 구간”이란 특정한 모수를 포함할 “가능성이 있는” 범위를 의미한다. 여기서 “가능성이 있는” 이라는 표현이 굳이 강조된 이유는 바로 신뢰구간에는 확률적인 의미가 담겨있지 않기 때문이다. 이와 관련한 내용은 잠시 뒤에 다시 살펴보는 것으로 하고, 일단은 신뢰 구간이 가설 검정에서 어떻게 활용되는지를 먼저 파악해보자. 앞선 예시의 실험의 결과로 다음과 같은 신뢰구간을 구했다고 가정하겠다.

>> "평균적인 매출의 증가 비율에 대한 95% 신뢰구간은 [0.32, 2.15] 이다." (단위: %)

앞서 p-value는 단순히 새로운 UI의 효과가 유의미한지에 대한 여부만을 제시했다면 (yes/no), 신뢰 구간은 좀 더 구체적으로 어느 정도의 효과가 있을 것인지를 파악할 수 있도록 해준다는 점에서 그 의의가 있다고 할 수 있다. 가령 위 신뢰 구간을 바탕으로 우리는 좀 더 디테일하게 해당 기능을 적용할지 말지, 만약 적용한다면 어느 정도의 수익을 기대할 수 있을지에 대한 보수적인 판단 기준을 세울 수 있다.

한편, 신뢰 구간의 유용성은 여기서 끝이 아니다. 가령 또 다른 실험에서는 새로운 UI의 효과에 대한 95% 신뢰 구간이 $[0.001, 0.002]$ 라고 가정해보겠다. 이 경우, 약 0.1% ~ 0.2% 정도의 기대수익의 상승을 위해 여러 비용을 감수하며 새로운 UI를 적용하는 것이 과연 실제로 의미가 있을지에 대해서는 생각해 볼 여지가 있다.

이처럼 통계적 유의성이 “실질적 유의성”을 보장하는 것은 아니기 때문에, 통계적 가설 검정 절차에서는 p-value와 신뢰 구간이 함께 활용되는 것이 일반적이다. 실제로 미국 통계학회의 지침에서도 연구의 유의성을 주장할 때 p-value와 더불어 신뢰 구간을 함께 제시할 것을 강력히 권고하고 있다.

 


4. 신뢰 구간의 해석

그렇다면 마지막으로 신뢰 구간의 해석과 관련해서 주의해야 할 점을 짚고 포스트를 마무리하도록 하겠다.

앞서 살펴본 예시에서의 신뢰 구간을 다시 상기해보자.

>> "평균적인 매출의 증가 비율에 대한 95% 신뢰구간은 [0.32, 2.15] 이다." (단위: %)

이와 관련해서, 신뢰 구간의 앞 부분에 “95%”라는 구체적인 수치가 붙어서 “해당 구간에 모수가 포함될 확률이 대략 95% 정도가 아닐까?” 라고 잘못 해석하기가 상당히 쉬운데, 바로 이 부분이 신뢰 구간의 해석과 관련해서 가장 하기 쉬운 실수이다.

그렇다면 올바른 해석은 무엇일까? 가장 정확한 해석은 “만약 해당 실험을 100번 반복해 서로 다른 100개의 신뢰 구간을 구할 경우, 그 중에서 약 95개의 신뢰 구간이 실제 모수를 포함하고 있을 것이다” 가 된다.

이처럼 통계학이 내리는 결론은 언뜻 보면 불필요할 정도로 복잡하고, 직관적이지 않을 수 있다. 왜 그런지에 대한 이유를 간단히 살펴보자면, 이는 바로 현재 우리가 다루고 있는 전통적인 통계학에서는 모수를 고정된 상수로 가정하기 때문이다.

다시 말해, 새로운 UI의 도입으로 인한 평균 “기대 수익의 증가량은 우리가 비록 알 수는 없으나 특정한 상수로 정해진 값이고, 이에 대한 가장 그럴싸한 (또는 합리적인) 추정량을 제시하는 것이 바로 전통적인 통계학이다. 바로 이러한 맥락에서 우리가 추정하고자 하는 모수가 특정한 신뢰 구간에 포함될 “확률”0 또는 1 이다. 왜냐하면 앞서 보았듯이 모수란 특정한 “상수”이기 때문에, 해당 모수 값이 우리가 구한 신뢰 구간에 포함될지 말지는 포함되거나 / 포함되지 않거나 의 두 가지 가능성 밖에 없기 때문이다.

그렇다면 왜 통계학은 왜 굳이 위와 같이 직관적이지 않은 형태로 결론을 제시하는 것일까? 이전 포스트에서 통계학의 세계관에서는 관측되는 모든 데이터가 특정한 확률 분포로부터 랜덤하게 발생된다고 했던 점을 기억해보자. 즉, 관측된 데이터는 “특정한 확률분포로부터 관측될 수 있는 여러 가능한 데이터 중 하나“라고 생각하는 것이 통계학적 사고의 핵심이다.

설명의 편의상 예시를 하나 들어보겠다. 가령 앞서 언급한 <새로운 UI는 매출을 늘리는 효과가 있다> 라는 가설에 대해서 실제 모수가 0, 즉 새로운 기능은 매출의 향상에 아무런 영향력이 없었다고 가정해보자 (다시 한번 강조하지만, 모수의 참값은 절대 알 수 없다). 이러한 가정 아래에서, A/B Test를 진행해 새로운 기능을 도입한 이후의 평균 매출의 증가율을 측정해본다면 어떤 값들을 얻을 수 있을까? 단정적인 대답을 내리기는 어렵겠으나, 실험을 여러번 반복할 경우 다음과 같은 개별적인 관측치들을 얻을 수 있을 것이다.

>> 0.7 / -0.2 / 0.03 / 0.12 / ... (단위: %)

이렇듯 개별 관측치는 실험마다 다를 수 있기 때문에, 통계학은 “확률 분포“의 형태로 불확실성을 수치화한다는 내용을 살펴보았다. 결론적으로 우리가 특정한 실험을 통해서 얻은 값은 내제된 확률분포에서 임의로 발생한 하나의 값이라는 점이 핵심이다.

이러한 맥락에서 현실에서 진행되는 실험, 또는 가설 검정의 결과 역시 마찬가지이다. 동일한 모수에 대해서 완벽히 동일한 실험을 진행한다 하더라도 매 실험마다 그 결과에는 다소 차이가 있을 것이며, 그 결과로 구해진 신뢰 구간 역시 전부 다를 것임은 자명하다. 아래의 그림은 이를 시각적으로 보여주고 있다.


서로 다른 100개의 신뢰 구간

 

위 그림은 서로 다른 100개의 신뢰 구간을 보여주고 있다. 그리고 해당 신뢰 구간들 중에서 모수의 참 값인 0을 포함하지 않는 신뢰 구간은 빨간색으로 표시해두었다. 이렇게 빨간색으로 표시된 신뢰 구간 5개에 대응되는 실험들에서는 모수에 대한 잘못된 결론을 내리게 된다 (실제로는 효과가 0인데, 0을 포함하지 않기 때문). 이를 통계학에서는 1종 오류라고 부른다는 점을 살펴본 바 있다. 이러한 맥락에서 위와 같이 동일한 절차로 구해진 신뢰 구간이 여러개가 있는 경우, 이론적으로 그 중에서 약 95% 정도는 실제로 모수의 참 값을 포함하고 있을 것이라는 점에서 신뢰 구간의 앞에 “95%”라는 수치가 붙어 “95% 신뢰 구간”이라는 용어가 사용되는 것이다.

한편, 현실적으로 실험을 여러번 반복해서 진행하는 것은 어렵기 때문에 많은 경우 우리는 특정한 한번의 실험에서 얻은 결과를 바탕으로 결론을 내리게 된다. 물론 우리가 구한 신뢰 구간이 위 예시처럼 100개의 신뢰 구간 중 95번의 빈도로 등장하는 올바른 신뢰구간인지, 아니면 5번의 빈도로 등장하는 잘못된 신뢰구간인지 (빨간색) 실제로 알 수 있는 방법은 없다 (모수의 참 값을 모르기 때문).

정리하자면, 특정한 하나의 신뢰 구간에 대해 “모수가 포함될 확률이 95%이다!” 와 같이 확률적인 결론을 내리는 것은 불가능하며, 이러한 측면에서 신뢰 구간은 어떻게 보면 우리의 직관에 맞지 않는 지표라고 볼 수도 있다. 하지만 그럼에도 불구하고 합리적인 수준에서 불확실성을 구체적인 구간으로 제시할 수 있다는 점에서 그 의의가 있다고 할 수 있다.

You might also enjoy