Jump to content

모비율의 추정

From DawoumWiki, the free Mathematics self-learning

모평균의 추정과 모비율의 추정은 같은 이론을 사용합니다. 모평균의 추정은 확률변수의 값이 실수 값을 가지는 반면에, 모비율의 추정은 확률변수의 값이 1과 0의 값을 가지는 것으로 해석할 수 있습니다.

예를 들어, 전체 100명 중에 수학을 좋아하는 사람 60명, 좋아하지 않는 사람 40명이면, 수학을 좋아하는 비율은 0.6이고 좋아하지 않는 비율은, 여사건이므로, 당연히 0.4입니다. 이때, 전체에서 어떤 한 사람을 선택했을 때, 그 사람이 수학을 좋아하는 사람일 사건에 대해 모비율은 0.6이라고 말합니다.

반면에, 그들 중 10명(표본)을 대상으로 수학을 좋아하는 사람이 7명이었다면, 그들 중에 한 명을 뽑았을 때, 그 사람이 수학을 좋아하는 사람일 사건에 대해 표본비율은 0.7이라고 말합니다.

이때, 모비율은 로 나타내고, 표본비율은 로 나타냅니다.

표본비율의 분포

모집단에서 사건 의 모비율을 라고 하면, 한 번의 실험에서 사건 가 일어날 확률은 입니다.

반면에, 임의추출한 크기 인 표본에서 사건 가 일어나는 횟수를 확률변수 라고 하면, 표본비율 입니다.

이때, 확률변수 는 크기가 인 표본 중에서, 어떤 특성(위의 예제에서 수학을 좋아함)을 갖는 사건(사람)의 개수(명수)이므로, 가 취하는 값(좋아하는 사람)은 0, 1, 2, ···, n이고, 그 특성을 갖는 사건의 확률은 모비율 이므로, 이항분포 를 따릅니다. 당연하게도 전체의 비율에서 좋아하는 사람의 명수가 결정될 수 있으므로, 표본은 그것보다는 적게 얻어야 말이 됩니다. 전체 100명에서 좋아하는 사람이 10명인데, 표본 20명을 얻었을 때, 11명 이상 좋아하는 사람이 나올 수는 없습니다.

이항분포에서, 주사위를 100번 던져서 3의 배수가 나오는 횟수를 확률변수를 잡았을 때와 같은 경우입니다.

따라서, 확률변수 의 평균과 분산은 각각

,
(단, )

이므로, 표본비율 의 평균과 분산, 및 표준편차는 다음과 같습니다.

게다가, 이항분포에서 확률변수 가 이항분포를 따르고 독립실험의 횟수 이 충분히 크면, 근사적으로 정규분포를 따르는 것처럼, 표본비율 가 이항분포를 따르고, 표본의 크기 이 충분히 크면, 는 근사적으로 정규분포를 따릅니다.

따라서, 확률변수 가 근사적으로 정규분포 를 따르고, 표본비율 은 근사적으로 을 따릅니다.

이제, 정규분포는 표준화 과정을 거쳐서 표준정규분포표에서 확률을 구할 수 있습니다.

모비율의 추정

위에서 근사적으로 정규분포가 됨을 알 수 있었으므로, 나머지 과정은 모평균의 추정에서와 동일한 과정을 거칩니다.

표본의 비율로부터 모비율의 추정은 마찬가지로 신뢰구간과 신뢰도의 문제입니다.

모비율 로부터 신뢰도 로 모비율을 추정하면,

이때, 표준정규분포표에서 입니다.

그러므로, 그의 표준화 과정으로부터

모비율의 안쪽 끝의 값

또한, 대칭의 성질에 의해 모비율의 다른 끝의 값은

따라서, 표본비율 로부터 신뢰도 의 모비율의 추정은

마찬가지로, 신뢰도 일 때에는

게다가, 모비율이 알려져 있지 않고 표본의 크기가 충분히 클 경우에서, 그의 분산을 구할 때 모비율 대신에 표분비율을 사용할 수 있습니다.

이때에는 신뢰도 의 추정은 다음과 같이 쓸 수 있습니다: