1. 들어가며
이 포스팅은 표본평균의 평균과 분산 공식의 개념, 성질, 적용에 관한 글 입니다.
표본평균은 미적분과 통계기본의 마지막 장에서 등장하는 개념으로, 통계적 추정을 할 때 그 성질이 요긴하게 쓰이게 됩니다. 이 부분을 정확한 개념 이해 없이 피상적으로 알고 공식 적용에만 급급한 학생들이 많은데요. 그렇게하면 당장의 한 문제는 맞힐 수 있을지 몰라도 내용을 온전히 이해했다고 할 수 없습니다. 또한 여러 개념이 혼재된 상태에서 문제를 풀다보면 후에 핵심개념을 묻는 수능 문제에서 틀릴 가능성이 농후합니다. 따라서 이 글에선 표본평균이란 무엇인 지, 그로부터 파생되는 여러 비슷한 개념들은 무엇이며 어떤 차이점을 지니고 있는지를 짚어보고, 이들의 성질과 적용에 대해 소개하겠습니다.
이 글이 필요한 학생은
1. 표본평균의 개념이 제대로 잡히지 않은 학생
2. 표본평균의 평균과 분산, 모평균과 모분산, 표본의 분산에 대해 헷갈리는 학생
3. 통계적 추정에서 표준편차를 무엇으로 써야할 지 개념이 헷갈리는 학생
4. 기타 확률과 통계부분에 대한 전반적인 이해가 부족한 학생
입니다.
제 글이 많은 학생들에게 도움이 됐으면 하는 바람입니다.
i) 모집단, 모평균, 모분산, 모표준편차
모집단(母集團, population)이란, 통계적 관찰 및 처리의 대상이 되는 전체 집단을 이르는 말로, 특정 확률분포를 따르는 확률변수들의 전체 집합, 즉 확률공간 입니다. 모집단 내에 포함된 확률변수들이 따르는 확률분포로의 대표적인 예로는 정규분포(Normal distriubtion)가 있습니다. 정규분포는 확률변수들의 평균과 분산만 정해진다면 그 확률밀도함수가 다음과 같이 정해지는 연속확률분포입니다.
(식을 외울 필요는 없지만, 눈여겨볼만 한 점은 주어진 함수의 위치와 모양을 정하는 두 인자가 m과 σ 두 개뿐이라는 것입니다. 변수 x를 제외한 나머지는 상수입니다.)
여기서는 모집단의 평균(=모평균)을 나타내는 기호로 m을, 모집단의 표준편차를 나타내는 기호로 σ을 쓰겠습니다. 즉, 이 글에서 모집단은 정규분포 N(m, σ²)를 따르는 확률변수들의 총 집합입니다.
ii) 전수조사와 표본조사, 표본추출
위에서 소개한 모집단 전체의 구성원을 모두 조사하는 통계적 작업을 전수조사라고 합니다. 전수조사의 예로는 대선과 총선의 투표용지 개표작업, 5년마다 한 번씩 시행하는 인구주택총조사등이 있습니다. 일반적으로 통계에서 다루는 모집단의 크기는 매우 크기때문에, 이처럼 전수조사를 하기 위해선 많은 비용과 시간, 노력이 들어갑니다.
모집단 내의 모든 변수들에 대한 전수조사가 (비용, 시간등의 이유로) 불가능할 경우, 집단의 특성을 추정하기 위해 일부 표본(sample)만 추출하여 조사하는데요. 이 때 지표로 활용할 표본을 뽑는 작업을 표본 추출이라고 하며, 표본들의 특성을 조사하는 것을 표본조사, 표본조사를 토대로 모집단의 성질을 추정하는 작업을 통계적 추정이라고 합니다. 여기서는 추출한 표본의 크기, 즉 표본의 개수를 n이라고 상정하고 설명하겠습니다.
한편 표본을 추출하는 방법으로는 여러가지가 있으나 임의, 복원추출이 가장 일반적으로 쓰입니다. 즉, 추출하는 주체의 어떠한 선입견도 없이 임의로 표본을 하나씩 추출하되, 추출한 표본을 확인한 후 다시 모집단에 넣어서(복원) 추출하는 방법을 택하는 것입니다. 이제부터 설명할 표본추출은 모두 이 방식(임의추출, 복원추출)을 써서 일어난다고 생각하겠습니다.
iii) 표본평균의 개념
표본평균(sample mean)은 추출된 표본들의 단순 산술평균으로, 모평균과는 다르게 X_bar(X위에 선분)로 표현합니다. 즉, 크기가 n인 표본들(X1, X2, .... Xn)의 평균을 우리는 표본평균이라고 정의합니다.
여기서 주의할 점은, (임의, 복원)추출된 표본들의 경우에 따라 표본평균값이 달라질 수 있다는 것입니다. 즉, 처음 추출한 n개의 표본과, 그 표본들을 다시 모집단에 다 넣은 뒤 다시 추출한 표본은 (같을 수도 있지만 일반적으론) 다릅니다. 더욱이 그들의 평균인 표본평균은 추출된 표본값들에 따라 같은 값을 가질 수도, 그렇지 않을 수도 있습니다. 설령 처음에 추출한 n개의 표본과 그 다음에 추출한 n개의 표본이 서로 다르다 할지라도 그들의 평균인 표본평균은 확률적으로 같을 수도 있고 다를수도 있다는 것입니다.
이처럼 표본평균은 매 추출시 그 값이 확률적으로 정해지는 '확률변수'입니다. 많은 학생들이 표본평균을 하나의 '고정된 값'으로 이해하고 있는데, 이는 완전한 오해입니다. 표본평균은 특정 추출에서 나타나는 표본들의 평균일 뿐, n개의 표본들을 다시 추출하면 그 값이 달라질 수도 있는 확률변수, 특히 이산확률변수로 받아들여야합니다. (*연속확률변수로서 설명하는게 더 옳으나, 표본이 완전히 연속적인 경우는 거의 없으니 편의상 표본 및 표본평균은 이산적이라고 생각하겠습니다.) 즉 한 번의 표본추출에 대해 하나의 표본평균(X_bar)이 정해집니다만, 여기에는 임의추출을 함으로써 발생하는 확률이 개입됩니다. 특정 추출에서 n개의 표본에 대해 계산된 표본평균은, 사실 확률분포를 따르는 많은 이산적인 값들 중 한 값이며 이 때 구한 값이 다음 번 추출에서 똑같이 나오리라는 보장은 없습니다. 표본평균에 관한 이러한 개념 및 성질을 제대로 이해하지 못한다면 앞으로 나오게될 용어들을 받아들이는 데 많은 혼란이 있으니 다시 한 번 주의깊게 행간의 의미를 파악하시기 바랍니다.
iv) 표본평균의 평균과 분산
표본평균이 확률변수라는 사실을 받아들였다면, 이제 문제는 이 확률변수가 어떤 분포를 따를 것인가, 그 때의 평균과 분산은 무엇인가를 구하는 것으로 귀결됩니다. 이를 위해 예를 하나 들어보겠습니다.
숫자 1, 2, 3, 4 가 적혀있는 공이 들어있는 상자를 생각해봅시다. 우리는 거기에 1, 2, 3, 4가 적힌 공이 네 개 들어있다는 사실은 알고 있다고 가정하겠습니다. 즉, 상자를 모집단으로 본다면 모집단에 대한 정보는 이미 알고 있습니다. 그렇게 하는 이유는, 뒤에 나올 미지의 모집단에 관한 통계적 추정을 하기에 앞서, 표본평균의 성질을 (이미 알고 있는) 모집단의 그것과 연관시켜보기 위함입니다. 다시말해서 지금은 표본평균이 따르는 확률분포를 알아보는 과정이지 그로부터 모집단을 추정하고자 함이 아닙니다.
한편, 모든 공은 구분이 가지 않기 때문에 이들중 하나를 뽑을 확률은 모두 1/4로 동일합니다. 공에 적힌 숫자를 확률변수로 보고, 모평균 m과 모분산 σ를 구해봅시다.
이제 이 상자에서 크기가 2인 표본을 임의, 복원추출해봅시다. 처음에 뽑은 숫자를 X1, 두번째 뽑은 숫자를 X2라고 하면, 가능한 모든 추출의 방법 및 그 때의 표본평균을 계산해보면 아래 표와같이 정리할 수 있습니다.
각 경우마다 표본평균의 값이 달라짐을 확인하시기 바랍니다. 표본평균의 값이 가장 작을 때, 즉 X_bar가 1일 때는 처음 뽑은 값과 두번째 뽑은 값이 모두 1인 경우이고, 값이 가장 클 때, X_bar가 4가 될 때에는 뽑은 두 값이 모두 4가 나온 경우입니다. 이제 이로부터 표본평균이 취할 수 있는 값과 그에 대응하는 확률을 확률분포표로 작성해보면 다음과 같습니다.
중간으로 갈 수록 확률이 커지고 양 끝으로 갈 수록 확률이 작아짐(정규분포와 흡사)에 주목하세요. 이제 이로부터 (확률변수인) 표본평균의 기댓값과 분산을 구해보면,
그 결과 표본평균의 평균은 모집단의 평균과 같고, 분산은 모집단의 분산의 1/2배가 됨을 얻었습니다. 이 때 1/2는 추출한 표본의 크기(=n)인 2의 역수입니다. 즉, 평균은 그대론데 분산은 값이 줄어들어, 변량들이 더 평균에 모이게 됐습니다. (X는 1, 2, 3, 4인 반면 X_bar는 1, 1.5, 2, 2.5, 3, 3.5, 4로, 더 밀접한 분포를 이룹니다.)
소개한 예에서 모집단에서 표본을 추출하는 방법, 추출된 표본들의 표본평균은 어떻게 구하며, 그들이 왜 확률변수로서의 성질을 지니는 지, 또한 표본평균이 따르는 확률분포의 대략적인 모양은 어떤 지, 더불어 이 분포의 평균과 분산은 어떤 값을 지니며 모집단의 평균, 분산과 어떤 관계가 있는 지를 파악하는 게 중요합니다.
이를 일반화시키면, 모집단의 평균이 m, 분산이 σ²이면, 이들로부터 크기 n의 표본을 복원추출한 뒤 얻어지는 표본평균 X_bar는 확률변수이며, (n이 아주 클 때, 대략 n>30일 때) X_bar는 정규분포 N(m, σ²/n) 을 따릅니다. (*이 때 모집단 자체는 정규분포를 따를 필요는 없습니다.)
표본평균의 확률분포에 관한 증명은 고등학교 범위를 넘습니다. 고교수학에서는 소개한 예 정도로만 표본평균을 이해하시면 됩니다. 더 궁금한 사람은 통계학에서 배우는 중심극한정리(Central limit theorem)에 관한 증명을 찾아보세요.
i) 모평균의 추정
이제 원래의 문제, 즉 모집단이 너무 커서 표본조사를 통해서만 그 성질을 추정할 수 있는 상황으로 돌아옵시다. 이제부터는 앞서 알아본 표본평균의 성질을 토대로 미지의 모평균을 추정하는 법에 대해 알아볼 것입니다.
(내용이 정립되는 과정을 아셔야 합니다. 위에서는 확률변수로서의 표본평균을 이해하기 위해서 모집단의 분포는 이미 알고있다고 가정하고 표본평균의 평균과 분산을 구했습니다. 그 결과 표본평균의 평균(=기댓값)은 모평균 m과 같고, 분산은 모분산 σ²의 1/n배인 σ²/n과 같다는 사실을 알았습니다. 이제는 표본평균(X_bar)이 N(m, σ²/n)을 따른다는 그 성질을 이용해서 미지의 모평균인 m을 추정하는 과정입니다. 즉, 이 단락에서는 특정한 한 번의 표본추출에서의 표본평균의 값을 구합니다. 이를 다시 모집단에 집어넣어서 또 다른 표본평균을 구하지 않기 때문에 여기서는 표본평균의 값이 하나의 값으로 지정이 되는데, 그렇다고 해서 표본평균이 확률변수로서의 성질을 잃는 것은 아닙니다. 즉, 모평균의 추정에서 구하게되는 표본평균의 '특정 값'은, 확률분포를 따르는 표본평균의 수많은 값들 중 우연히 하나의 값으로 얻어진 것이며 여기에도 당연히 확률의 개념이 개입되어있습니다. 바로 이러한 관계때문에 학생들이 표본평균의 개념을 혼란스러워하는 경우가 많습니다. 내용 구성이나 전개 흐름을 놓치지만 않는다면 개념을 헷갈릴 이유가 없습니다.)
각설. 표준정규분포표를 이용하면 다음 확률값을 읽어낼 수 있습니다.
또한 표준정규분포의 성질을 이용해 다음 확률도 쉽게 구할 수 있습니다.
이제 여기에, 정규분포를 따르는 확률변수 X_bar를 표준화시켜서 얻어지는 표준화 변수를 대입해봅시다. 그게 가능한 이유는 모든 정규분포는 표준화를 거쳐 표준정규분포로 환원할 수 있기 때문이며, 따라서 정규분포 N(m, σ²/n)를 따르는 확률변수 X_bar도 당연히 표준화가 가능합니다.
식을 적절히 변형하면 다음 결과를 얻습니다.
확률변수를 부등호 중간에 남기지 않고 모평균인 m을 기준으로 식을 정리한 이유는, 지금 하고 있는 작업이 미지의 m을 추정하는 과정이기 때문입니다. (단순히 확률변수가 취할 수 있는 확률을 구하는 것과는 다릅니다.)
위 식의 의미는, 모평균 m이 취할 수 있는 값이 식의 부등식의 범위 안에 놓일 것으로 추정이 되는데 이는 신뢰도 95%로 믿을 만하다는 것입니다. 다시말해서, 모집단으로부터 n개의 표본을 '한 번만' 임의, 복원추출하여 계산된 표본평균(X_bar)값과 표본의 크기 n, 그리고 모표준편차(σ)를 토대로 모평균을 추정합니다. 모평균은 표본평균과 비슷한 값을 가질 것으로 예상되는데, 얻어진 표본평균의 값으로부터 ±1.96*σ/√n 만큼 떨어진 구간 내에 존재할 확률이 95%라는 것입니다.
아래 그림은 표본평균 X_bar의 확률밀도함수입니다. X_bar는 정규분포 N(m, σ²/n)을 따르므로 x=m을 기준으로 대칭이며, 그래프의 벌어진 모양은 σ²/n에 의해 결정됩니다. 이제 표본추출을 통해, 연속된 수많은 확률변수 X_bar의 값들 중 우연히 하나의 값이 얻어졌습니다. 이 값으로부터 ±1.96*σ/√n이 떨어진 구간에 모평균 m이 놓일 확률은 95%입니다. 통계에서의 1.96*σ/√n이라는 수치는 생각보다 그 값이 큽니다. 따라서 대부분(95%)의 X_bar에 대해서, 구간 [X_bar-1.96*σ/√n, X_bar+1.96*σ/√n] 내에 모평균 m이 들어오게 됩니다.(그림에서 X_bar_1) 물론 아주 우연히(5%의 확률로) n개의 표본의 값들이 모두 비정상적으로 작은 경우나 큰 경우가 발생할 수도 있습니다. 그런 경우라면 저 폐구간 안에 x=m이 놓이지 않게 될 것입니다. (그림에서 X_bar_2)
위에서 95%를 신뢰도, 폐구간 [X_bar-1.96*σ/√n, X_bar+1.96*σ/√n]을 신뢰구간이라고 하며, 이 구간의 크기인 2*1.96*σ/√n 를 신뢰구간의 길이라고 말합니다. 신뢰도를 정하면 신뢰구간의 길이는 바뀌지 않음을 수식과 그림으로 확인하세요. 이제 신뢰도를 바꿔가며 모평균의 추정에 대해 더 깊이 알아봅시다.
표준정규분포표를 이용하면 다음 확률값을 계산할 수 있습니다.
(정규분포를 따르는) X_bar를 표준화시켜 앞의 과정과 유사하게 전개하면 다음 확률 식이 얻어집니다.
위 식의 의미는, 추출된 n개의 표본으로부터 구한 표본평균값에서 ±2.58*σ/√n 만큼 떨어지도록 구간을 잡으면 그 안에 모평균 m이 들어올 확률이 99%라는 것입니다. 나머지 아주 비정상적으로 작은 값들이나 큰 값들이 표본으로 뽑혀 1%의 확률로 모평균 추정이 틀릴 수도 있습니다만, 통계에서의 2.58*σ/√n은 매우 큰 값이기 때문에 그럴 확률은 거의 없습니다. 즉, 위와 같이 부등식의 구간을 넓게 잡으면 모평균에 관한 추정이 99%로 믿을만하다는 것입니다. 다시말해서 여기서는 추정의 신뢰도를 높이기 위해 신뢰구간 [X_bar-2.58*σ/√n, X_bar+2.58*σ/√n]을 앞의 경우보다 더 넓혀놓은 것입니다. 위 그림에서 95%의 신뢰도로 추정했을 때 신뢰구간에 모평균이 못 들어가는 경우라도, 신뢰도를 99%로 높이면 모평균을 포함할 수 있는 상황이 됩니다. (아래 그림 참고)
신뢰도가 더 높다고 해서 그게 꼭 좋은 추정만은 아닙니다. 신뢰구간을 넓힌다는 말은 (즉 신뢰도를 높게 가져가겠다는 말은) 추정에 대한 확신이 없으니 책임을 회피할 구실을 만들겠다는 말입니다. 기상청을 비꼬기 위해 만든 개그 코너에서 "내일 비가 올 확률은 0에서 100% 사이입니다." 라는 내용이 있었습니다. 즉, 강수확률에 대한 신뢰구간을 [0, 100]으로 잡는데 이는 너무 당연한 얘기여서 웃기기까지 한 것입니다. 아이러니하게도 이 상황을 수학에서는 신뢰도 100%로 추정한 것으로서 해석합니다.
ii) 통계적 추정에서의 표준편차
끝으로 통계적 추정에서의 표준편차에 대한 개념을 짚어보겠습니다.
위에서 구한 신뢰구간의 표현식은 다름아닌 X_bar의 정규분포에서 유도됐습니다. 따라서 식에서 나타난 σ²/n은 확률변수 X_bar의 분산이어야하며, 이 때 σ²은 모집단의 분산이라고 했습니다. 따라서 모집단의 평균인 m을 표본평균(X_bar)으로부터 추정하기 위해서는 몇 개의 표본을 뽑았는 지(=n), 표본들의 평균은 무엇인 지(=X_bar), 모집단의 표준편차는 무엇인 지(=σ)에 관한 정보가 있어야하는데요. 여기서 어폐가 생깁니다. 바로 모평균을 추정하는 데 있어서, 모집단의 표준편차를 구하는 게 선행되어야한다는 것입니다. 추정의 대상인 모집단의 산포도, 즉 모표준편차를 알기 위해선 집단 전체의 변량들을 모두 조사해야하는데 그렇게하면 우리가 지금껏 모평균 m을 추정해온게 의미가 없어집니다. 모집단 전체를 조사하면 그로부터 바로 평균값을 구할 수 있기 때문입니다.
(그러나 위에서 유도된 모평균의 추정에 관한 신뢰구간에서 쓴 σ²는 모분산임이 확실합니다. 말했다시피 이 식이 정규분포를 따르는 확률변수인 표본평균 X_bar의 '표준화'로부터 유도됐기 때문이며, 이 때 X_bar의 분산은 σ²/n으로, 앞에서 구한 것을 써야합니다.)
그러나 실제 상황에서 우리에게 주어지는 것들은 n개의 표본을 추출했을 때 나오는 변량들 X1, X2, ... Xn 입니다. 우리가 실제로 구할 수 있는 것은 이들의 평균, 즉 표본평균(=X_bar)과 이들의 분산인 표본분산(=s²)이라고 하는 것입니다. 표본분산이란, 말 그대로 한 번 뽑은 n개의 표본들의 자체적인 분산으로 다음과 같이 정의됩니다.
원래 분산의 정의(=편차의 제곱의 평균)에 따르면 우변에서 n-1이 아닌 n으로 나눠줘야 합니다만, 통계적 추정에서 사용하는 표본분산 s²은 위와같이 구합니다. 그 이유는, 모집단으로부터 추출된 표본들의 실제 분산(n으로 나눴을 때의 분산)은 모분산(=σ²)보다 항상 작거나 같게 나오는데 이를 달리 표현하면, 실제 분산의 정의를 통해 구해진 표본들의 분산 값이 모분산으로 쓰기에 다소 저평가되어있다는 말입니다. 따라서 그 값을 모분산 값과 유사하게 맞춰주기 위해 n으로 나누는 대신 그보다 더 작은 n-1로 나누어서 값을 키워줍니다. 이런 연유로 표본분산을 표기할 때에는 실제 변량들의 분산과 구분하기 위해 s²으로 나타냅니다. (여기서 s는 표준편차(standard deviation)의 약자입니다.) 이에 대한 내용은 Bessel 이라는 사람이 제안했으며, 통계학에서는 Bessel's correction이라고 부릅니다.
이제 위에서 소개한 표본분산을 통계적 추정의 모분산 대신 사용할 수 있습니다. 물론 이 값이 정확한 추정을 나타내는 것은 아닙니다만, 그 오차가 너무도 미미해서 대체해서 사용해도 무방하다는 게 알려져 있습니다. 따라서 실제 표본조사를 통해 모평균을 추정할 때에는, 표본평균과 표본분산, 그리고 표본의 크기에 관한 정보를 토대로 신뢰구간을 잡아서 하면 됩니다. (그러나 신뢰구간의 정확한 수학적 의미는 모분산을 써서 표현해야한다는 것을 잊지 마세요.)
iii) 개념 정리
지금껏 평균과 분산, 표준편차에 관한 많은 개념들이 나왔습니다. 이들을 정리하면 다음과 같습니다.
위 그림은 지금껏 다룬 내용을 그림으로 나타낸 것입니다. 그림에 표현된 개념과 그 표기, 관계를 잘 파악하시기 바랍니다. 즉 모평균과 표본평균, 표본평균의 평균의 개념, 그리고 모분산과 표본분산, 표본평균의 분산의 개념은 서로 다른 개념으로, 정확한 의미를 파악하고 적용할 줄 아는 게 중요합니다.
가장 중요한 것은 표본평균을 확률변수로서 받아들여야 한다는 것입니다.
이번 포스팅에서는
1. 확률변수로서의 표본평균의 의미
2. 표본평균의 평균과 분산
3. 모평균의 추정
4. 모평균의 추정에서 사용되는 표준편차
에 대해 살펴보았습니다.
미적분과 통계기본의 마지막 단원인 통계적 추정. 비록 한 단원으로 정리되어 있지만, 여기서 등장하는 개념들은 그 이상의 의미를 지니고 있습니다. 각 요소의 의미와 관계를 제대로 파악하고 그들을 적재적소에서 쓸 줄 알아야 합니다. 그러기 위해선 정확한 개념 파악이 선행되어야함은 자명합니다. 알고있다고 생각한 개념들도 다시 한 번 점검해서 제대로 알고자하는 태도를 기르시기 바랍니다.
제 글이 많은 학생들에게 도움이 됐으면 좋겠습니다.
[유형별 정리]경우의 수 - 함수의 개수 문제 (0) | 2021.03.06 |
---|---|
[총정리] 기하학적 의미를 갖는 함수 관련 수식들 (0) | 2021.03.06 |
이항분포의 평균과 분산 공식 유도 (3) | 2021.03.06 |
(총정리) 이항정리 관련 공식 유도- 개념, 응용, 공식, 증명 (2) | 2021.03.06 |
각뿔의 부피가 각기둥 부피의 1/3인 이유 (원뿔의 부피, 삼각뿔의 부피, 사각뿔의 부피) (0) | 2021.03.06 |