Jump to content

Sampling distribution

This is a fully translated article. Click here for more information.
From DawoumWiki, the free Mathematics self-learning

통계학(statistics)에서, 표본화 분포(sampling distribution) 또는 유한-표본 분포(finite-sample distribution)는 주어진 무작위-표본(random sample)-기반 통계량(statistic)확률 분포(probability distribution)입니다. 만약, 각각의 여러 관측 (데이터 점)을 포함하는, 표본의 임의로 큰 숫자가 각 표본에 대해 (예를 들어, 표본 평균(sample mean) 또는 표본 분산(variance)과 같은) 통계량의 하나의 값을 계산하기 위해 개별적으로 사용되면, 표본화 분포는 통계량이 취하게 되는 값의 확률 분포입니다. 많은 문맥에서, 오직 하나의 표본이 관찰되지만, 표본화 분포는 이론적으로 구할 수 있습니다.

표본화 분포는 통계학에서 중요한데 왜냐하면 그들은 통계적 추론(statistical inference)으로 연결하는 주요한 단순화를 제공하기 때문입니다. 보다 구체적으로, 그들은 모든 개별 표본 값의 결합 확률 분포(joint probability distribution)라기 보다는, 통계량의 확률 분포에 기초하여 해석적 고려-사항을 허용합니다.

Introduction

통계량의 표본화 분포는 크기 무작위 표본(random sample)에서 파생될 때 확률 변수(random variable)로 여겨지는 해당 통계량의 분포(distribution)입니다. 주어진 표본 크기의 같은 모집단에서 가능한 모든 표본에 대해 통계량의 분포로 여길 수 있습니다. 표본화 분포는 모집단의 놓여-있는 분포(distribution), 고려되는 통계량, 사용된 표본화 절차, 및 사용된 표본 크기에 따라 다릅니다. 표본화 분포가 점근적 분포(asymptotic distribution)로 근사화될 수 있는지 여부의 관심이 종종 중요하며, 이것은 무한 모집단에서 취해지고 무한대로 경향인 분포를 생성하기 위해 사용되는 유한 크기의 무작위 표본의 숫자로, 또는 단지 하나의 같은-무한-크기 "표본"이 해당 같은 모집단에서 취할 때 극한적인 경우에 해당합니다.

예를 들어, 평균 및 분산 을 갖는 정규(normal) 모집단을 생각해 보십시오. 우리는 이 모집단에서 주어진 크기의 표본을 반복적으로 취하고 각 표본에 대한 산술 평균(arithmetic mean) (이 통계량은 표본 평균(sample mean)으로 불립니다)을 계산한다고 가정합니다.이 통계를 샘플 평균이라고 합니다. 이들 평균의 분포는 "표본 평균의 표본화 분포"라고 불립니다. 이 분포는 정규 (n은 표본 크기)인데 왜냐하면 놓여-있는 모집단이 표본 분포는 정규이기 때문이며, 표본화 분포가 심지어 모집단 분포가 정규가 아닐 때 정규로 역시 종종 접근하기 때문입니다 (중심 극한 정리(central limit theorem))를 참조하십시오). 표본 평균에 대한 대안은 표본 중앙값(median)입니다. 같은 모집단에서 계산될 때, 그것은 평균의 분포와 다른 표본화 분포를 가지고 일반적으로 정규가 아닙니다 (그러나 표본 크기가 큰 것에 대해 정규에 접근할 것입니다).

정규 분포를 갖는 모집단에서 표본의 평균은 가장-간단한 통계적 모집단(statistical population) 중 하나에서 취해진 간단한 통계량의 하나의 예제입니다. 다른 통계량 및 다른 모집단에 대해, 공식이 더 복잡하고, 종종 그들은 닫힌-형식(closed-form)으로 존재하지 않습니다. 그러한 경우에서, 표본화 분포는 몬테카를로 모의실험(Monte-Carlo simulation),[1][p. 2] 부트스트랩(bootstrap) 방법, 또는 점근적 분포(asymptotic distribution) 이론을 통해 근사화될 수 있습니다.

Standard error

통계량(statistic)의 표본화 분포의 표준 편차(standard deviation)는 해당 양의 표준 오차(standard error)로 참조됩니다. 통계량이 표본 평균이고 표본이 비-상관인 경우에 대해, 표준 오류는 다음입니다:

여기서 는 해당 양의 모집단 분포의 표준 편차이고 은 표본 크기 (표본에서 항목의 숫자)입니다.

이 공식의 중요한 의미는 표본 크기는 절반 (1/2) 측정 오차를 달성하기 위해 4배 (4로 곱해짐)로 되어야 한다는 것입니다. 비용이 인수인 통계적 연구를 설계할 때, 이것은 비용-이익 타협을 이해하는 것에 역할을 가질 것입니다.

Examples

모집단 통계량 표본화 분포
정규(Normal): 크기 n의 표본에서 표본 평균 .

만약 표준 편차 가 알려져 있지 않으면, 우리는 를 고려할 수 있으며, 이것은 자유도를 갖는 스튜던트의 t-분포(Student's t-distribution)를 따릅니다. 따라서 는 표본 분산이고, 주축의 양(pivotal quantity)이며, 그의 분포는 에 의존하지 않습니다.

베르누이(Bernoulli): "성공한 시행" 의 표본 비율
두 독립 정규 모집단:

 and 

표본 평균 사이의 차이,
밀도 ƒ를 갖는 임의의 절대적으로 연속 분포 F 크기 n = 2k − 1의 표본에서 중앙값(median) , 여기서 표본은 에서 로 순서화됩니다
분포 함수 F를 갖는 임의의 분포 크기 n의 무작위 표본에서 최대(maximum)

Statistical inference

통계적 추론(statistical inference)의 이론에서, 충분한 통계량(sufficient statistic)의 아이디어는 정보가 선택된 통계량의 표본화 분포를 갖는 표본의 완전한 확률론적 설명을 대체함으로써 손실되지 않는 그러한 방법에서 (표본 데이터 점의 함수로) 통계량을 선택하는 기초를 제공합니다.

빈도주의 추론(frequentist inference)에서, 예를 들어 통계적 가설 테스트(statistical hypothesis test) 또는 신뢰 구간(confidence interval)의 개발에서, 통계량의 표본화 분포 (또는 점근적 분포(asymptotic distribution)의 형식에서 이것에 대한 근사)의 유효성은 그러한 절차의 준비된 공식화를 허용할 수 있지만, 표본의 결합 분포에서 시작하는 절차의 개발은 덜 간단할 것입니다.

베이즈 추론(Bayesian inference)에서, 통계량의 표본화 분포가 이용-가능할 때, 우리는 그러한 절차의 최종 결과, 특히 표본 데이터가 주어졌을 때 임의의 미지수 양의 조건부 분포(conditional distribution)를, 선택된 표본 통계량이 주어졌을 때 임의의 미지수 양의 조건부 분포(conditional distribution)로 대체하는 것을 고려할 수 있습니다. 이러한 절차는 통계량의 표본화 분포를 포함할 것입니다. 선택된 통계량이 결합적으로 충분한 통계량이라는 조건으로 제공되면 그 결과는 동일할 것입니다.

References

  1. ^ Mooney, Christopher Z. (1999). Monte Carlo simulation. Thousand Oaks, Calif.: Sage. ISBN 9780803959439.

External links