Simple random sample

통계(statistics)에서, 단순 무작위 표본(simple random sample 또는 SRS)은 개인(individuals)의 부분집합이 모두 같은 확률을 갖는 무작위(randomly)로 선택되는 더 큰 집합 (모집단)에서 선택된 개인 (표본)의 부분집합입니다. 그것은 무작위적인 방법에서 표본을 선택하는 과정입니다. SRS에서, k 개인의 각 부분집합은 k 개인의 임의의 다른 부분집합과 마찬가지로 표본에 대해 선택될 같은 확률을 가집니다.^[1] 단순 무작위 표본은 불편향된 표본 추출 기술입니다. 단순 무작위 표본화는 표본화의 기본 유형이고 다른 보다 복잡한 표본화 방법의 구성 요소가 될 수 있습니다.

Introduction

단순 무작위 표본화의 원칙은 모든 각 항목의 집합이 선택될 같은 확률을 가진다는 것입니다. 예를 들어, N명의 대학생이 농구 경기 표를 사고 싶어하지만, 그들을 위한 X < N개의 표밖에 없으므로, 누가 가는지 알기 위해 공정한 방법을 찾기로 결정했다고 가정해 보십시오. 그런-다음, 모든 학생에게 0에서 N-1 사이의 숫자가 주어지고, 무작위 숫자가 전자적으로 또는 무작위 숫자 테이블에서 생성됩니다. 0에서 N-1 사이의 범위를 벗어나는 숫자는 이전에 선택한 임의의 숫자와 마찬가지로 무시됩니다. 첫 번째 X 숫자는 행운의 티켓 당첨자를 식별합니다.

작은 모집단과 종종 큰 모집단에서, 그러한 표본화는 전형적으로 "복원 없이(without replacement)" 수행됩니다. 즉, 의도적으로 모집단 임의의 숫자를 한 번보다 많이 선택하지 않습니다. 비록 단순 무작위 표본화가 대신 복원과 함께 수행될 수 있지만, 이는 덜 공통적이고 통상적으로 복원과 함께(with replacement) 단순 무작위 표본화를 더 완벽하게 설명합니다. 복원 없이 수행된 표본화는 더 이상 독립적이지 않지만, 여전히 교환-가능성(exchangeability)을 만족하며, 따라서 많은 결과가 여전히 유지됩니다. 더욱이, 큰 모집단에서 작은 표본에 대해, 같은 개인을 두 번 선택할 확률이 낮기 때문에 복원 없는 표본화가 복원과 함께 표본화와 거의 같습니다.

개인의 불편향된 무작위 선택이 많은 표본이 추출되면, 평균 표본이 모집단을 정확하게 나타내도록 중요합니다. 어쨌든, 이것은 특정 표본이 모집단을 완벽하게 대표한다는 것을 보장하지 않습니다. 단순 무작위 표본화는 표본을 기반으로 전체 모집단에 대해 외부적으로 유효한 결론을 도출하도록 허용합니다.

개념적으로, 단순 무작위 표본화는 가장 간단한 확률 표본화 기술입니다. 그것은 완전한 표본화 프레임(sampling frame)이 필요하며, 큰 모집단을 구성하는 데 사용할 수 없거나 실현 가능하지 않을 수 있습니다. 심지어 완전한 프레임을 사용할 수 있더라도, 모집단의 단위에 대한 다른 유용한 정보를 사용할 수 있다면 보다 효율적인 접근이 가능할 수 있습니다.

장점은 그것은 분류 오류가 없고, 프레임 이외의 모집단에 대한 최소한의 사전 지식이 필요하다는 것입니다. 단순성으로 인해 이러한 방식으로 수집된 데이터를 비교적 쉽게 해석할 수 있습니다. 이러한 이유로, 단순 무작위 표본화는 모집단에 대한 정보가 많지 않고 무작위로 분산된 항목에 대해 데이터 수집을 효율적으로 수행할 수 있거나 표본화 비용이 단순성보다 효율성을 덜 중요하게 만들 만큼 충분히 작은 상황에 가장 적합합니다. 이들 조건이 충족되지 않으면, 계층화된 표본화(Stratified Sampling) 또는 클러스터 표본화(cluster sampling)가 더 나은 선택일 수 있습니다.

Relationship between simple random sample and other methods

Equal probability sampling (epsem)

각 개인 단위가 선택될 확률이 같은 기회를 가지는 표본화 방법은 같은 확률 표본화(equal probability sampling, 줄여서 Epsem)이라고 불립니다.

단순 무작위 표본을 사용하면 항상 epsem로 이어질 것이지만, 모든 epsem 표본이 SRS인 것은 아닙니다. 예를 들어, 선생님이 6열 5행으로 배열된 학급을 가지고 있고 5명의 학생을 무작위로 추출하기를 원하면 6열 중 하나를 무작위로 선택할 수 있습니다. 이것은 epsem 표본이지만 단일 열로 배열된 부분집합만 선택할 수 있기 때문에 5명의 학생의 모든 부분집합이 여기에서 같은 가능성이 있는 것은 아닙니다. SRS가 아닌 다중-단계 표본화(multistage sampling)를 구성하는 방법도 있지만 최종 표본은 epsem이 됩니다.^[2] 예를 들어, 시스템적 무작위 표본화(systematic random sampling)는 각 개인 단위가 포함의 같은 확률을 가지지만, 단위 집합마다 선택될 확률이 다른 표본을 생성합니다.

epsem인 표본은 자체 가중(self weighting)이며, 각 표본에 대한 선택 확률의 역이 같음을 의미합니다.

Distinction between a systematic random sample and a simple random sample

1000명의 학생이 있는 학교를 생각하고, 연구원이 추가 연구를 위해 그들 중 100명을 선택하려고 한다고 가정합니다. 그들의 이름을 모두 양동이에 담았다가 100개의 이름을 꺼낼 수도 있습니다. 각 사람이 선택될 같은 확률을 가질 뿐만 아니라, 표본 크기 (n)와 모집단 (N)을 알고 있기 때문에 주어진 사람이 선택될 확률 (P)을 쉽게 계산할 수 있습니다:

1. 어떤 주어진 사람이 한 번만 선택될 수 있는 경우에서 (즉, 선택 후 사람이 선택 풀에서 제거됨):

{\begin{aligned}P&=1-{\frac {N-1}{N}}\cdot {\frac {N-2}{N-1}}\cdot \cdots \cdot {\frac {N-n}{N-(n-1)}}\\[8pt]&{\stackrel {\text{Canceling:}}{=}}1-{\frac {N-n}{N}}\\[8pt]&={\frac {n}{N}}\\[8pt]&={\frac {100}{1000}}\\[8pt]&=10\%\end{aligned}}

2. 어떤 선발된 사림이 선발 풀에 복귀하는 경우에서 (즉, 1회 이상 선발 가능):

P=1-\left(1-{\frac {1}{N}}\right)^{n}=1-\left({\frac {999}{1000}}\right)^{100}=0.0952\dots \approx 9.5\%

이것은 학교에서 모든 학생이 이 방법을 사용하여 선택될 확률이 대략 1/10임을 의미합니다. 더욱이, 100명의 학생 조합은 동일한 선택 확률을 가집니다.

만약 무작위 표본화에 시스템적인 패턴이 도입되면, "시스템적 (무작위) 표본화"라고 참조됩니다. 예를 들어 학교에 다니는 학생들의 이름에 0001에서 1000까지의 숫자가 붙어 있고, 임의의 시작 점, 예를 들어, 0533을 선택하고, 그 후 10번째 이름마다 선택하여 100개의 표본을 제공했습니다 (0993에 도달한 후 0003으로 다시 시작합니다). 이러한 의미에서, 이 기술은 첫 번째 단위의 선택이 나머지를 결정하기 때문에 클러스터 표본화와 유사합니다. 이것은 더 이상 단순 무작위 표본화가 아닙니다. 100명의 학생 중 일부 조합은 다른 조합보다 더 큰 선택 확률을 가지기 때문입니다. 예를 들어 {3, 13, 23, ..., 993}은 선택 확률이 1/10이고, 반면 {1 , 2, 3, ..., 100}은 이 방법 아래에서 선택될 수 없습니다.

Sampling a dichotomous population

만약 모집단의 구성원이 "파란색", "빨간색", 및 "검은색"의 세 가지 유형으로 제공되면, 주어진 크기의 샘플에서 빨간색 원소의 숫자는 표본에 따라 달라질 것이고 따라서 분포가 연구되어야 할 수 있는 무작위 변수입니다. 그 분포는 전체 모집단에서 빨간색과 검은색 원소의 숫자에 따라 달라집니다. 복원과 함께 단순 무작위 표본에 대해, 분포는 이항 분포(binomial distribution)입니다. 복원 없이 단순 무작위 표본에 대해, 초기하 분포(hypergeometric distribution)를 얻습니다.

Algorithms

단순 무작위 표본화를 위한 몇 가지 효율적인 알고리듬이 개발되어 왔습니다.^[3]^[4] 소박한 알고리듬은 각 단계에서 같은 확률로 집합에서 해당 단계에서 항목을 제거하고 항목을 표본에 넣는 무승부 알고리듬입니다. 우리는 원하는 크기 $k$ 의 표본을 얻을 때까지 계속합니다. 이 방법의 단점은 집합에서 무작위 접근이 필요하다는 것입니다.

Fan 등에 의해 1962년에 개발된 선택-거부 알고리듬은 데이터에 대한 단일 전달이 필요합니다;^[5] 어쨌든, 이는 순차 알고리듬이고 스트리밍 시나리오에서는 사용할 수 없는 항목 $n$ 의 총 수에 대한 지식이 필요합니다.

매우 간단한 무작위 정렬 알고리듬이 Sunter에 의해 1977년에 입증되었습니다.^[6] 이 알고리듬은 균등 분포 $(0,1)$ 에서 추출된 무작위 숫자를 각 항목의 키로 할당한 다음, 키를 사용하여 모든 항목을 정렬하고 가장 작은 $k$ 항목을 선택합니다.

J. Vitter는 1985년 널리 사용되는 저장소 표본화(reservoir sampling) 알고리듬을 제안했습니다.^[7] 이 알고리듬은 모집단 $n$ 의 크기에 대한 사전 지식이 필요하지 않고, 일정한 공간을 사용합니다.

무작위 표본화는 표본 사이의 틈의 분포에서 표본화하고^[8] 틈을 건너뛰어 가속할 수도 있습니다.

References

^ Yates, Daniel S.; David S. Moore; Daren S. Starnes (2008). The Practice of Statistics, 3rd Ed. Freeman. ISBN 978-0-7167-7309-2.
^ Peters, Tim J., and Jenny I. Eachus. "Achieving equal probability of selection under various random sampling strategies." Paediatric and perinatal epidemiology 9.2 (1995): 219-224.
^ Tille, Yves; Tillé, Yves (2006-01-01). Sampling Algorithms - Springer. Springer Series in Statistics. doi:10.1007/0-387-34240-0. ISBN 978-0-387-30814-2.
^ Meng, Xiangrui (2013). "Scalable Simple Random Sampling and Stratified Sampling" (PDF). Proceedings of the 30th International Conference on Machine Learning (ICML-13): 531–539.
^ Fan, C. T.; Muller, Mervin E.; Rezucha, Ivan (1962-06-01). "Development of Sampling Plans by Using Sequential (Item by Item) Selection Techniques and Digital Computers". Journal of the American Statistical Association. 57 (298): 387–402. doi:10.1080/01621459.1962.10480667. ISSN 0162-1459.
^ Sunter, A. B. (1977-01-01). "List Sequential Sampling with Equal or Unequal Probabilities without Replacement". Applied Statistics. 26 (3): 261–268. doi:10.2307/2346966. JSTOR 2346966.
^ Vitter, Jeffrey S. (1985-03-01). "Random Sampling with a Reservoir". ACM Trans. Math. Softw. 11 (1): 37–57. CiteSeerX 10.1.1.138.784. doi:10.1145/3147.3165. ISSN 0098-3500.
^ Vitter, Jeffrey S. (1984-07-01). "Faster methods for random sampling". Communications of the ACM. 27 (7): 703–718. CiteSeerX 10.1.1.329.6400. doi:10.1145/358105.893. ISSN 0001-0782.

External links

Media related to Random sampling at Wikimedia Commons

[1] Yates, Daniel S.; David S. Moore; Daren S. Starnes (2008). The Practice of Statistics, 3rd Ed. Freeman. ISBN 978-0-7167-7309-2.

[2] Peters, Tim J., and Jenny I. Eachus. "Achieving equal probability of selection under various random sampling strategies." Paediatric and perinatal epidemiology 9.2 (1995): 219-224.

[3] Tille, Yves; Tillé, Yves (2006-01-01). Sampling Algorithms - Springer. Springer Series in Statistics. doi:10.1007/0-387-34240-0. ISBN 978-0-387-30814-2.

[4] Meng, Xiangrui (2013). "Scalable Simple Random Sampling and Stratified Sampling" (PDF). Proceedings of the 30th International Conference on Machine Learning (ICML-13): 531–539.

[5] Fan, C. T.; Muller, Mervin E.; Rezucha, Ivan (1962-06-01). "Development of Sampling Plans by Using Sequential (Item by Item) Selection Techniques and Digital Computers". Journal of the American Statistical Association. 57 (298): 387–402. doi:10.1080/01621459.1962.10480667. ISSN 0162-1459.

[6] Sunter, A. B. (1977-01-01). "List Sequential Sampling with Equal or Unequal Probabilities without Replacement". Applied Statistics. 26 (3): 261–268. doi:10.2307/2346966. JSTOR 2346966.

[7] Vitter, Jeffrey S. (1985-03-01). "Random Sampling with a Reservoir". ACM Trans. Math. Softw. 11 (1): 37–57. CiteSeerX 10.1.1.138.784. doi:10.1145/3147.3165. ISSN 0098-3500.

[8] Vitter, Jeffrey S. (1984-07-01). "Faster methods for random sampling". Communications of the ACM. 27 (7): 703–718. CiteSeerX 10.1.1.329.6400. doi:10.1145/358105.893. ISSN 0001-0782.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]