Jump to content

모집단과 표본

From DawoumWiki, the free Mathematics self-learning
모집단(population)에서 표본(sample)을 얻는 과정을 시각화.

대한민국은 매년 대학 수학능력 시험을 봅니다. 시험의 결과에 대한 평균과 표준편차는 채점이 완전히 끝나야 알 수 있습니다. 그러나, 학생들은 자신의 가채점한 점수로 자신이 얼마나 시험을 잘 본지 알고 싶어합니다.

표준정규분포에서, 표준정규분포표가 있기 때문에, 시험의 평균과 표준편차를 알고 있으면, 내 점수의 위치를 알 수 있으므로, 궁금증의 해소는 물론이고, 전년도의 합격한 자료가 알려져 있으므로, 지원할 대학교를 결정할 수 있기 때문에, 모든 학생의 점수를 채점을 하기 전에 전체의 평균과 표준편차를 예상해 보는 것은 생각보다 중요한 일입니다.

이때, 일부의 가채점한 점수가 필요한데, 데이터를 기초하지 않은 평균과 표준편차의 예상은 그 자체가 맞는지 여부가 의심받을 수 있기 때문입니다.

만약, 모든 학생들의 점수를 모두 조사해서 평균을 낼 수도 있는데, 이것을 전수조사라고 하고, 반면에, 일부의 학생을 조사하는 것을 표본조사라고 합니다. 여기서, 일부 학생을 얻는 과정을 표본화이라고 합니다.

표본화

통계학에서, 표본화(sampling:표본화:표본 추출)은 전체 모집단의 특성을 추정하기 위해 통계적 모집단(statistical population) 안에서 개체의 부분 집합 (통계적 표본)의 선택입니다. 표본화의 두 가지 장점은 전체 모집단을 측정하는 것보다 비용이 낮고 데이터 수집이 빠르다는 점입니다.

게다가, 표본화을 어떻게 하는냐에 따라, 모집단의 평균과 표준편차의 예상이 잘 맞을 수도 있고, 덜 맞을 수도 있습니다. 예를 들어, 공부의 열기가 가득한 학교가 많은 지역에서 표본을 많이 얻으면, 그렇지 않은 지역의 학교에서 표본을 많이 얻은 것보다 평균이 높게 예상할 수 있습니다. 따라서, 한쪽 지역에 치우친 표본으로부터 전체의 평균과 표준편차를 예상하는 것은 틀릴 가능성이 매우 높습니다.

이를 방지하기 위해서, 표본은 모집단의 특정 지역이나 특성에 치우져 뽑혀져서는 안되고, 모집단의 각 대상이 같은 확률로 뽑힐 수 있어야 하므로, 이런 추출 방법을 임의추출이라고 합니다.

한편, 모집단에서 표본을 임의추출할 때, 이전에 뽑은 원소를 다시 모집단에 집어 넣어서, 모집단의 상태를 항상 같게 유지하고 표본을 뽑는 것을 복원추출이라고 하고, 뽑은 원소를 넣지 않고, 표본을 계속 뽑는 것을 비복원추출이라고 합니다.

표본화의 경우의 수

모집단의 크기 에서, 표본 개를 얻을 때,

  • 복원추출의 경우의 수는, 중복순열이므로, 입니다.
  • 반면에 비복원추출의 경우의 수는
순서대로 하나씩 뽑을 때에는, 순열이므로, 입니다.
동시에 뽑을 때에는, 조합이므로, 입니다.

표본평균과 표본표준편차

모집단으로부터, (공정하게) 임의추출된 표본에 대해,

일반적으로 모집단의 특성을 나타내는 확률변수의 확률분포를 모집단의 분포라 하고, 표본과 구별하기 위해, 이 모집단의 평균, 분산, 표준편차를 각각 모평균, 모분산, 모표준편차라 하고, 기호로 라고 나타냅니다.

반면에, 표본의 평균, 분산, 표준편차를 표본평균, 표본분산, 표본표준편차라 하고, 기호로 라고 나타냅니다.

한편, 모집단에서 크기 인 표본 을 뽑았을 때,

  • 표본평균 :
  • 표본분산 : 표본분산에서, 표본의 크기 n으로 나누지 않고, n–1로 나누는 것은 Variance#Sample variance를 참조하십시오
  • 표본표준편차 :