Jump to content

Sampling (statistics)

This is a fully translated article. Click here for more information.
From DawoumWiki, the free Mathematics self-learning
(Redirected from Random sample)
A visual representation of the sampling process

통계학, 품질 보증조사 방법론(survey methodology)에서, 표본화(sampling)는 전체 모집단의 형질을 추정하기 위해 통계적 모집단(statistical population) 안으로부터 개체의 부분-집합 (통계적 표본(statistical sample))의 선택입니다. 통계학자는 표본을 문제에서 모집단을 나타내기 위해 시도합니다. 표본화의 두 가지 장점은 전체 모집단을 측정하는 것보다 비용이 낮고 데이터 수집이 빠른 것입니다.

관측(observation)은 독립적인 대상 또는 개체로써 구별되는 관찰-가능한 몸체의 하나 이상의 (무게, 위치, 색깔과 같은) 속성을 측정합니다. 조사 표본화(survey sampling)에서, 가중은 표본 설계, 특히 층화 표본화(stratified sampling)에 대해 조정하기 위한 데이터에 적용될 수 있습니다.[1] 확률 이론(probability theory)통계적 이론(statistical theory)으로부터 결과는 실제 적용을 안내하기 위해 사용됩니다. 영업 및 의학 연구에서, 표본화는 모집단에 대한 정보를 수집하는 것에서 널리 사용됩니다.[2] 승인 표본화(acceptance sampling)는, 재료의 제품 한 벌이 관리 사양(specification)을 만족하는지를 결정하기 위해서 사용됩니다.

Population definition

성공적인 통계적 실습은 초점을 맞춘 문제 정의를 기반으로 합니다. 표본화에서, 이것은 우리의 표본이 추출되는 "모집단(population)"을 정의하는 것을 포함합니다. 모집단은 우리가 이해하기를 원하는 특성을 가진 모든 사람 또는 항목을 포함하는 것으로 정의될 수 있습니다. 모집단에서 모든 사람 또는 모든 것으로부터 정보를 수집하기 위한 충분한 시간 또는 돈은 거의 없기 때문에, 목표는 해당 모집단의 전형적인 표본 (또는 부분집합)을 찾는 것이 됩니다.

때때로 모집단을 정의하는 것이 분명합니다. 예를 들어, 제조업체는 제품(production)으로부터 재료의 일회분이 고객에게 출시되기에 충분한 품질인지, 품질이 좋지 않아 폐기 또는 재작업을 선고해야 하는지 여부를 결정해야 합니다. 이 경우에서, 일회분이 모집단입니다.

비록 관심있는 모집단이 물리적 대상으로 종종 구성될지라도, 때때로 시간, 공간, 또는 이들 차원의 조합에 따라 표본화하는 것이 필요합니다. 예를 들어, 슈퍼마켓 직원의 조사는 다양한 시간에 물건값 계산 줄 길이를 검토하는 것, 또는 멸종 위기에 처한 펭귄에 대한 연구가 시간에 걸쳐 다양한 사냥터의 사용을 이해하는 것을 목표로 할 수 있습니다. 시간 차원에 대해, 초점은 기간 또는 이산적 용무일 수 있습니다.

다른 경우에서, 조사된 '모집단'은 더 적게 명백할 수 있습니다. 예를 들어, 재거 조셉(Joseph Jagger)몬테 카를로(Monte Carlo)에 있는 카지노에서 룰렛(roulette) 바퀴의 동작을 연구하고, 이것을 편향된 바퀴(biased wheel)를 식별하기 위해 사용했습니다. 이 경우에서, 재거가 조사하고 싶었던 '모집단'은 바퀴의 전체 동작, 즉, 무한히 많은 시도에 걸친 결과의 확률 분포(probability distribution)이었지만, 반면에 그의 '표본'은 해당 바퀴의 관찰 결과로부터 형성되었습니다. 비슷한 고려사항은 구리(copper)전기 전도성(electrical conductivity)과 같은 일부 물리적 특성을 반복된 측정을 취할 때 발생합니다.

이 상황은 관측된 모집단이 결과인 인과 시스템(cause system)에 대한 지식을 찾을 때 종종 발생합니다. 그러한 경우에서, 표본화 이론은 관측된 모집단을 더 큰 '초모집단'의 표본으로 취급할 수 있습니다. 예를 들어, 만약 금연 프로그램이 전국적으로 제공되면 그것의 효과를 예측하기 위해, 연구원은 100명의 환자로 구성된 테스트 그룹에서 새로운 '금연' 프로그램의 성공률을 연구할 수 있습니다. 여기서 초모집단은 "이 치료법에 접근할 수 있는 국가의 모든 사람들" – 그 프로그램은 아직 모든 사람들이 이용할 수 없기 때문에 아직 존재하지 않는 그룹입니다.

표본이 추출되는 모집단은 정보가 요구되는 모집단과 같지 않을 수도 있음을 주목하십시오. 프레임 문제 등으로 인해 이들 두 그룹 사이에는 크지만 완전히 겹치지 않는 경우가 종종 있습니다 (아래를 참조하십시오). 때로는 그들은 완전히 분리되어 있을 수 있습니다 – 예를 들어, 인간 건강에 대한 이해를 높이기 위해 쥐를 연구하는 것, 또는 2009년에 태어날 사람들에 대해 예측하기 위해 2008년에 태어난 사람들의 기록을 연구하는 것 등이 있습니다.

추출된 모집단과 관심의 모집단을 정확하게 만드는 데 소요되는 시간은, 이 단계에서 숙고하지 않아서 간과될 수 있는 많은 문제, 모호성 및 질문을 유발하기 때문에, 종종 유용하게 소비됩니다.

Sampling frame

생산에서 재료의 일회분의 표본화 (한 벌씩 승인 표본화)와 같은 가장 간단한 경우에서, 모집단에서 모든 각 단일 항목을 식별 및 측정하고 그들 중 임의의 하나를 표본에 포함하는 것이 가장 바람직합니다. 어쨌든, 보다 일반적인 경우에서, 이것은 보통 가능하지 않거나 실용적이지 않습니다. 모든 쥐의 집합에서 모든 쥐를 식별할 수 있는 방법은 없습니다. 투표가 의무적이지 않을 때, 사람이 다음 선거 (투표 이전)에 투표할 것을 식별할 방법이 없습니다. 이들 부정확한 모집단은 아래의 방법의 임의의 것에서 표본화와 우리가 통계적 이론을 적용할 수 있는 다루기 쉬운 것이 없습니다.

해결책으로, 우리는 모든 각 단일 원소를 식별하고 표본에서 임의의 것을 포함할 수 있는 속성을 가진 표본화 틀(sampling frame)을 찾습니다.[3][4][5][6] 틀의 가장 간단한 유형은 적절한 연락처 정보를 가진 모집단 (바람직하게는 전체 모집단)의 원소의 목록입니다. 예를 들어, 여론 조사(opinion poll)에서, 가능한 표본화 틀은 선거인 등록부(electoral register)전화 번호부(telephone directory)를 포함합니다.

확률 표본은 모집단에서 모든 각 단위가 표본에서 선택될 (영보다 큰) 기회를 가지고, 이 확률은 정확하게 결정할 수 있는 표본입니다. 이들 특성의 조합은 선택의 그들의 확률에 따라 표본 단위에 가중함으로써 모집단 전체의 불-편향 추정을 생성하는 것을 가능하게 만듭니다.

예제: 우리는 주어진 마을에 사는 성인의 총 소득을 추정하기를 원합니다. 우리는 해당 마을에서 각 가정을 방문하고, 그곳에 사는 모든 성인을 식별하고, 각 가정에서 무작위로 한 성인을 선택합니다. (예를 들어, 우리는 0과 1 사이의 균등 분포(uniform distribution)에서 생성된 무작위 숫자를 각 사람에게 할당하고, 각 세대에서 가장 높은 숫자를 가진 사람을 선택할 수 있습니다). 우리는 그런-다음 선택된 사람을 대면하고 그들의 수입을 구합니다.

혼자 사는 사람들은 반드시 선택되어야 하므로, 우리는 전체의 추정을 위해 그들의 소득을 단순히 더합니다. 그러나 두 명의 성인의 가정에 사는 사람은 오직 둘-중-하나 선택의 기회를 가집니다. 이것을 반영하기 위해, 우리는 그러한 가정을 방문할 때, 우리는 선택된 사람의 소득을 전체에 두 배로 계산해야 합니다. (그 가구에서 선택된 사람 선택되지 않은 사람을 대표하는 것으로 느슨하게 볼 수 있습니다.)

위의 예제에서, 모든 사람이 같은 선택의 확률을 갖는 것은 아닙니다; 그것을 확률 표본으로 만드는 것은 각 사람의 확률이 알려져 있다는 사실입니다. 모집단에서 모든 각 원소가 같은 선택의 확률을 가질 때, 이것은 '같은 선택의 확률' (EPS) 설계로 알려져 있습니다. 그러한 설계는 모든 표본화된 단위가 같은 가중을 제공하기 때문에 '자가-가중'으로 역시 참조됩니다.

확률 표본화는 단순 확률 표본화(Simple Random Sampling), 체계적 표본화(Systematic Sampling), 계층화된 표본화(Stratified Sampling), 크기 표본화에 비례한 확률, 클러스터(Cluster) 또는 다단계 표본화(Multistage Sampling)를 포함됩니다. 이들 다양한 확률 표본화의 방법은 두 가지 공통점을 가집니다:

  1. 모든 각 원소는 표본될 알려진 비-영 확률을 가집니다.
  2. 같은 점에서 무작위 선택을 포함합니다.

Nonprobability sampling

비확률 표본화는 모집단의 일부 원소가 선택될 기회가 없음 (이들은 때때로 '범위 밖'/'숨겨진'으로 참조됩니다) 또는 선택의 확률이 정확하게 결정될 수 없는 임의의 표본화 방법입니다. 그것은 관심의 모집단에 관한 가정을 기반으로 한 원소의 선택이 포함되며, 이것은 선택에 대해 기준을 형성합니다. 따라서, 원소의 선택은 미-무작위이기 때문에, 비-확률 표본화는 표본화 오차의 추정을 허용하지 않습니다. 이들 조건은 배제 편향(exclusion bias)을 일으켜며, 표본이 모집단에 대해 제공할 수 있는 정보의 양을 제한합니다. 표본과 모집단 사이의 관계에 대한 정보는 제한되며, 표본에서 모집단으로의 외삽하는 것을 어렵게 만듭니다.

예제: 우리는 주어진 마을에 있는 모든 각 가정을 방문하고, 문에서 응답하는 첫 번째 사람과 대면합니다. 한 명보다 많은 거주자가 있는 임의의 가정에서, 일부 사람들이 문에서 응답할 가능성이 더 높기 때문에, 이것은 비-확률 표본입니다 (예를 들어, 대부분의 시간을 집에서 보낸 실직자는 설문자가 호출했을 때 직장일 수 있는 고용된 가사-도우미보다 응답할 가능성이 더 높습니다). 그리고 이들 확률을 계산하는 것은 실용적이지 않습니다.

비-확률 표본화 방법은 편의 표본화(convenience sampling), 몫 표본화(quota sampling)의도가-있는 표본화(purposive sampling)를 포함합니다. 게다가, 무응답 효과는 만약 무응답의 특성이 잘 이해되지 않으면 확률 설계를 비-확률 설계로 바꿀 수 있는데, 왜냐하면 무응답은 표본화될 각 원소의 확률을 효과적으로 수정하기 때문입니다.

Sampling methods

위에서 식별된 틀의 유형의 임의의 것 안에서, 다양한 표본화 방법이 개별적으로 또는 조합하여 사용될 수 있습니다. 이들 설계 사이에 선택에 공통적으로 영향을 미치는 인자는 다음을 포함합니다:

  • 틀의 본질과 품질
  • 틀의 단위에 대한 보조 정보의 유효성
  • 정확도 요구사항, 및 정확도를 측정하기 위한 필요성
  • 표본의 자세한 분석이 기대되는지 여부
  • 비용/운영 중요성

Simple random sampling

A visual representation of selecting a simple random sample

주어진 크기의 단순 무작위 표본 (SRS)에서, 표본화 틀의 모든 부분-집합은 선택될 같은 확률을 가집니다. 틀의 각 원소는 따라서 선택의 같은 확률을 가집니다: 틀은 세분화되거나 분할되지 않습니다. 게다가, 임의의 주어진 원소의 은 임의의 다른 그러한 쌍과 선택의 같은 기회를 가집니다 (및 세-쌍에 대해 유사하게, 등등). 이것은 편향을 최소화하고 결과의 분석을 단순화합니다. 특히 표본 이내에 개별 결과 사이의 분산은 전체 모집단에서 분산의 좋은 지표이며, 이것은 결과의 정확도를 추정하는 깃을 상대적으로 쉽게 만듭니다.

단순 무작위 표본화는 표본화 오차에 취약할 수 있는데 왜냐하면 선택의 무작위성이 모집단의 구성을 반영하지 않는 표본을 초래할 수 있기 때문입니다. 예를 들어, 주어진 국가에서 10명의 단순 무작위 표본은 평균적으로 남성 5명과 여성 5명을 나타내지만, 임의의 주어진 시행은 성별을 과도하게 표현하고 다른 것을 대표하지 않을 가능성이 있습니다. 체계적이고 계층화된 기술은 보다 "대표적인" 표본을 선택하기 위해 "모집단에 대한 정보를 사용"함으로써 이 문제를 극복하려고 시도합니다.

역시, 단순 무작위 표본화는 큰 대상 모집단에서 표본화할 때 번거롭고 지루할 수 있습니다. 일부 경우에서, 조사자들은 모집단의 부분-그룹에 지정된 연구 문제에 관심이 있습니다. 예를 들어, 연구자들은 직무 수행의 예측자로서 인지 능력이 인종 그룹에 걸쳐 똑같이 적용-가능한지 여부를 조사하는 데 관심이 있을 수 있습니다. 단순 무작위 표본화는 모집단의 부분-표본을 제공하고, 계층화된 표본화와 같은 다른 표본화 전략을 대신 사용할 수 있기 때문에 이 상황에서 연구원의 요구를 수용할 수 없습니다.

Systematic sampling

A visual representation of selecting a random sample using the systematic sampling technique

체계적 표본화 (구간 표본화로 역시 알려짐)은 일부 순서화 계획에 따라 연구 모집단을 정렬하고 그런-다음 해당 순서화된 목록을 통해 규칙적인 구간에서 원소를 선택하는 것에 의존합니다. 체계적 표본화는 무작위로 시작을 포함하고 그런-다음 그곳에서 전방으로부터 모든 각 k번째 원소의 선택을 진행합니다. 이 경우에서, k = (모집단 크기/샘플 크기)입니다. 시작점이 자동으로 목록의 첫 번째는 아니지만, 대신에 목록에서 첫 번째부터 k번째 원소 이내에서 무작위로 선택되는 것이 중요합니다. 간단한 예제는 전화 번호부에서 모든 각 10번째 이름을 선택하는 것입니다 ('모든 각 10번째' 표본은 '10의 건너뛰기를 갖는 표본화'로 역시 참조됩니다).

시작점이 무작위화(randomized)되는 한, 체계적 표본화는 확률 표본화(probability sampling)의 한 유형입니다. 만약 목록이 순서화되는 변수가 관심 변수와 상관되어 있으면, 구현이 쉽고 계층화(stratification)로 인해 그것을 효율적으로 만들 수 있습니다. '모든 각 10번째' 표본화는 데이터베이스(databases)에서 효율적인 표본화에 대해 특히 유용합니다.

예를 들어, 우리가 가난한 지역 (집 번호. 1)에서 시작하여 비싼 지역 (집 번호. 1000)에서 끝나는 긴 거리로부터 사람들을 표본화하기를 원한다고 가정해 보겠습니다. 이 거리에서 주소의 단순 무작위 선택은 쉽게 높은 끝에서 너무 많고 낮은 끝에서 너무 적게 (또는 그 반대로) 끝날 수 있으며, 대표성이-없는 표본으로 이어질 수 있습니다. (예를 들어) 거리를 따라 모든 각 10번째 거리 번호마다 선택하면 표본이 거리의 길이를 따라 고르게 분포됨을 보장하며, 이들 지역의 모두를 나타냅니다. (만약 우리가 항상 집 #1에서 시작하고 #991에서 끝내면, 표본은 낮은 끝을 향해 약간 편향됩니다; #1과 #10 사이에서 시작을 무작위로 선택함으로써 이 편향이 제거됩니다.

어쨌든, 체계적인 표본화는 목록에서 주기성에 특히 취약합니다. 만약 주기성이 존재하고 주기가 사용된 구간의 배수 또는 인수이면, 표본은 특히 전체 모집단을 -대표할 가능성이 있으며, 단순 무작위 표본화보다 체계가 덜 정확한 계획을 만듭니다.

예를 들어, 홀수-번호붙인 주택이 모두 도로의 북쪽 (고가) 변에 있고, 짝수-번호붙인 주택이 모두 남쪽 (싼) 변에 있는 거리를 생각해 보십시오. 위에 주어진 표본화 계획 아래에서, 대표하는 표본을 얻는 것이 불가능합니다; 만약 연구원이 이 편향에 대한 사전 지식을 가지고 있지 않고 두 변 사이를 점프를 보장하는 건너-뛰기 (임의의 홀수-번호붙인 건너-뛰기)를 사용하여 피하지 않으면, 표본화된 주택은 홀수-번호붙인, 고가 변으로부터 모두가 되거나, 그들은 짝수-번호붙인, 싼 변으로부터 모두가 될 것입니다.

체계적 표본화의 또 다른 단점은, 심지어 그것이 SRS보다 정확한 시나리오에서, 이론적 속성이 해당 정확도를 정량화하기 어렵게 만듭니다. (위에서 주어진 체계적 표본화의 두 가지 예에서, 잠재적인 표본화 오차의 대부분은 이웃 주택 사이의 변동으로 인한 것입니다 – 그러나 이 방법은 두 이웃하는 주택을 절대 선택하지 않기 때문에, 표본은 해당 변동에 대한 임의의 정보를 제공하지 않을 것입니다.)

위에서 묘사된 것처럼, 체계적 표본화는 EPS 방법인데, 왜냐하면 모든 원소는 같은 선택의 확률을 갖기 때문입니다 (주어진 예제에서, 10 분의 1입니다). 그것은 '단순 무작위 표본화'는 아닌데 왜냐하면 같은 크기의 다른 부분-집합은 다른 선택 확률을 가지기 때문입니다 – 예를 들어, 집합 {4,14,24,...,994}는 10-분의-1의 선택의 확률을 가지지만, 집합 {4,13,24,34,...}는 영의 선택의 확률을 가집니다.

체계적 표본화는 비-EPS 접근에 역시 적용될 수 있습니다; 예제에 대해, 아래의 PPS 표본의 논의를 참조하십시오.

Stratified sampling

A visual representation of selecting a random sample using the stratified sampling technique

모집단이 다수의 구별되는 카테고리를 포함하면, 틀은 이들 카테고리별로 개별 "지층"으로 구성될 수 있습니다. 그런-다음 각 지층은 독립 부부-모집단으로 표본화되며, 그 중에서 개별 원소는 무작위로 선택될 수 있습니다.[3] 이 무작위 선택 (또는 표본)의 크기와 모집단의 크기의 비율은 표본화 분수(sampling fraction)로 불립니다. 계층화된 표본화에 여러 잠재적인 이점이 있습니다.

첫째, 모집단을 구별되는, 독립 지층으로 나누는 것은 연구원에게 보다 일반화된 무작위 표본에서 잃어버릴 수 있는 특정 부분-그룹에 대한 추론을 도출하는 것을 활성화할 수 있습니다.

둘째, 계층화된 표본화 방법을 사용하면 보다 효율적인 통계 추정으로 이어질 수 있습니다 (지층이, 표본의 가용성 대신에, 문제에서 기준과의 관련성에 따라 계층이 선택되는 조건으로 합니다). 심지어 계층화된 표본화 접근이 통계적 효율성을 증가되는 것으로 이어지지 않을지라도, 그러한 전술은 단순 무작위 표본화보다 덜 효율성을 초래하지는 않을 것이며, 각 지층이 모집단에서 집단의 집단 크기에 비례한다는 조건으로 합니다.

셋째, 때때로 데이터는 전체 모집단에 대한 것보다 모집단 이내에서 개별적인, 이전-존재하는 지층에 대해 보다 쉽게 이용할 수 있는 경우가 있습니다; 그러한 경우에서, 계층화된 표본화 접근을 사용하면 그룹을 가로질러 데이터를 집계하는 것보다 보다 편리할 수 있습니다 (비록 이것이 잠재적으로 기준-관련 지층을 사용하는 것의 이전에 언급된 중요성과 상충될 수 있습니다).

마지막으로, 각 지층은 독립 모집단으로 취급되므로, 다른 표본화 접근은 다른 지층에 적용될 수 있으며, 잠재적으로 연구원에게 이 모집단 이내에서 각 식별된 부분-그룹에 가장 적합한 (또는 가장 비용-효율적인) 접근을 사용함을 활성화합니다.

어쨌든, 계층화된 표본화를 사용하는 것에 일부 잠재적인 단점이 있습니다. 첫째, 지층을 식별하고 그러한 접근을 구현하면 표본 선택의 비용과 복잡성이 증가할 뿐만 아니라, 모집단 추정의 복잡성이 증가되는 것으로 이어집니다. 둘째, 여러 기준을 검토할 때, 계층화하는 변수는 일부와 관련될 수 있지만, 다른 것과는 관련이 없으며, 나아가서 설계를 더욱 복잡하게 하고, 잠재적으로 지층의 유용성을 감소시킬 수 있습니다. 마지막으로, 지층의 큰 숫자를 갖는 설계, 또는 그룹당 지정된 최소 표본 크기를 갖는 디자인과 같은) 일부 경우에서, 계층화된 표본화는 다른 방법보다 더 큰 표본이 잠재적으로 요구될 수 있습니다 (비록 대부분의 경우에서, 요구된 표본 크기가 단순 무작위 표본화에 대해 요구된 것보다 더 크지 않을 것입니다).

계층화된 표본화 접근은 세 가지 조건이 충족될 때 가장 효과적입니다
  1. 지층 이내의 다양성이 최소화됩니다.
  2. 지층 사이의 다양성이 최대화됩니다.
  3. 모집단이 계층화되는 변수는 원하는 종속 변수와 강하게 서로 관련됩니다.
다른 표본화 방법을 넘어선 장점
  1. 중요한 부분-모집단에 중점을 두고 관련없는 것들은 무시합니다.
  2. 다른 부분-모집단에 대해 다른 표본화 기술을 사용할 수 있습니다.
  3. 추정의 정확성/효율성을 개선합니다.
  4. 다양한 크기의 지층에서 같은 숫자를 표본화함으로써 지층 사이의 차이의 테스트의 통계적 힘의 균형을 더 크게 허용합니다.
단점
  1. 어려울 수 있는 관련 계층화 변수의 선택을 요구합니다.
  2. 동종 부분-그룹이 없을 때 유용하지 않습니다.
  3. 구현하기 위해 비용이 많이들 수 있습니다.
후-계층화(Poststratification)

계층화는 때때로 "후계층화"라 불리는 과정에서 표본화 단계 후에 도입됩니다.[3] 이 접근법은 전형적으로 적절한 계층화하는 변수의 이전 지식의 부족에 기인 또는 실험자가 표본화 단계 동안 계층화하는 변수를 생성하기 위해 필요한 정보가 부족할 때 구현됩니다. 비록 그 방법이 사후 접근 방식의 함정에 취약할지라도, 그것은 올바른 상황에서 여러 이점을 제공할 수 있습니다. 구현은 보통 간단 무작위 표본을 따릅니다. 보조 변수에 계층화를 허용하는 것 외에도, 후-계층화는 가중하는 것을 구현하기 위해 사용될 수 있으며, 이것은 표본의 추정의 정확도를 향상시킬 수 있습니다.[3]

초과-표본화

선택-기반 표본화는 계층화된 표본화 전략 중 하나입니다. 선택-기반 표본화에서,[7] 데이터는 목표에서 계층화되고 표분은 희귀 목표 클래스가 표본에서 보다 표시되도록 각 지층에서 취합니다. 그 모델은 그런-다음 이 편향된 표본(biased sample)을 기반으로 세워집니다. 목표에 대한 입력 변수의 효과는 무작위 표본에 비해 심지어 더 작은 전체 표본 크기가 취할 때 선택-기반 표본과 함께 보다 정밀도로 종종 추정됩니다. 결과는 보통 초과-표본화에 대해 수정하기 위해 조정되어야 합니다.

Probability-proportional-to-size sampling

일부 경우에서, 표본 설계자는 모집단에서 각 원소에 대해 관심의 변수와 서로 관련되는 것으로 믿어지는 "보조 변수" 또는 "크기 측정"에 접근을 가집니다. 이들 데이터는 표본 설계에서 정확성을 향상시키기 위해 사용될 수 있습니다. 한 가지 선택사항은 위에서 논의된 것처럼 보조 변수를 계층화에 대해 기초로 사용하는 것입니다.

또 다른 선택사항은 크기 ('PPS') 표본화에 비례하는 확률이며, 이것에서 각 원소에 대한 선택 확률은, 최대 1까지, 그것의 크기 측정에 비례하도록 설정됩니다. 간단한 PPS 설계에서, 이들 선택 확률은 그런-다음 푸아송 표본화(Poisson sampling)에 대해 기초로 사용될 수 있습니다. 어쨌든, 이것은 변수 표본 크기의 단점을 가지고, 모집단의 다른 부분은 선택에서 기회 변동으로 인해 여전히 과대- 또는 과소-표현될 수 있습니다.

체계적 표본화 이론은 크기 표본에 비례하는 확률을 생성하기 위해 사용될 수 있습니다. 이것은 크기 변수 이내의 각 계산을 단일 표본화 단위로 처리함으로써 행해집니다. 표본은 그런-다음 크기 변수 이내에서 이들 계산 중에서 같은 구간에서 선택함으로써 식별됩니다. 이 방법은 감사 또는 법의학적 표본화의 경우에서 PPS-순차 또는 화폐 단위 표본화라고 때때로 불립니다.

예제: 우리는 각각 150, 180, 200, 220, 260 및 490학생 (총 1500학생)의 모집단을 갖는 6개의 학교를 갖고, 우리는 학생 모집단을 크기 3의 PPS 표본에 대해 기초로 사용하기를 원한다고 가정합니다. 이것을 하기 위해, 우리는 첫 번째 학교에 숫자 1에서 150, 두 번째 학교에 151에서 330 (= 150 + 180), 세 번째 학교에 331에서 530, 그리고 계속 진행해서 마지막 학교 (1011에서 1500)에 할당할 수 있습니다. 우리는 그런-다음 1에서 500 (1500/3과 같은 값) 사이의 무작위 시작을 생성하고 학교 모집단을 500의 배수로 계산합니다. 만약 무작위 시작이 137이면, 우리는 할당된 숫자 137, 637, 및 1137인 학교, 즉, 첫 번째, 네 번째, 및 여섯 번째 학교에 선택해야 합니다.

PPS 접근은 모집단 추정에 가장 큰 영향을 미치는 큰 원소에 표본을 집중시킴으로써 주어진 표본 크기에 대해 정확도를 향상시킬 수 있습니다. PPS 표본화는 공통적으로 원소 크기가 다양하고 보조 정보가 종종 사용할 수 있는 비즈니스 설문 조사에 주로 사용됩니다 – 예를 들어 호텔에서 숙박한 고객의 숙박 일수를 측정하려는 설문 조사는 각 호텔의 객실 숫자를 보조 변수로 사용할 수 있습니다. 일부 경우에서, 관심 변수의 오래된 측정은 더 많은 현재 추정을 생성하려고 시도할 때 보조 변수로 사용될 수 있습니다.[8]

Cluster sampling

A visual representation of selecting a random sample using the cluster sampling technique

때때로 그룹 ('클러스터')에서 응답자를 선택하는 것이 보다 비용-효율적입니다. 표본화는 종종 지역, 또는 시간대별로 떼를 짓게 됩니다. (거의 모든 표본은 – 비록 이것은 분석에서 거의 고려되지 않을지라도 – 어떤 의미에서 '떼를 짓게' 됩니다.) 예를 들어, 만약 도시 안의 가구를 조사하면, 우리는 100개의 도시 블록을 선택하고 그런-다음 선택된 블록 이내의 모든 각 가구를 대면할 수 있습니다.

클러스터링은 출장 및 관리 비용을 줄일 수 있습니다. 위의 예제에서, 면접관은 각 가구에 대해 다른 블록으로 운전하지 않고 한 블록에서 여러 가구를 방문하기 위해 단일 여행을 만들 수 있습니다.

역시 목표 모집단의 모든 원소를 나열하는 표본화 틀(sampling frame)이 필요하지 않습니다. 대신, 클러스터는 오직 선택된 클러스터에 대해 생성된 원소-수준 틀과 함께 클러스터-수준 틀에서 선택될 수 있습니다. 위의 예제에서, 표본은 초기 선택에 대해 블록-수준 도시 지도를 요구 요구하고, 그런-다음 전체 도시의 가구-수준 지도가 아니라 100 선택된 블록의 가구-수준 지도를 요구합니다.

(역시 클러스터 표본화로 알려진) 클러스터 표본화는 일반적으로 클러스터-이내 변동과 비교하여 서로 사이의 클러스터가 어떻게 다른지에 따라 단순 무작위 표본화의 그것 위에 표본 추정의 변동가능성을 증가시킵니다. 이러한 이유에 대해, 클러스터 표본화는 정확도의 같은 수준을 달성하기 위해 SRS보다 더 큰 표본이 요구됩니다 – 그러나 클러스터링으로 비용 절감은 여전히 이것을 더 싼 선택사항으로 할 수 있습니다.

클러스터 표본화(Cluster sampling)는 공통적으로 다단계 표본화(multistage sampling)로 구현됩니다. 이것은 단위의 두 개 이상의 수준이 다른 것에 내장된 하나에서 클러스터 표본화의 복잡한 형식입니다. 첫 번째 단계는 표본화하기 위해 사용될 클러스터를 작성하는 것으로 구성합니다. 두 번째 단계에서, 기본 단위의 표본은 (모든 선택된 클러스터에 포함된 모든 단위를 사용하는 것이 아니라) 각 클러스터에서 무작위로 선택됩니다. 다음 단계에서, 그들의 선택된 클러스터의 각각에서, 단위의 추가적인 표본이 선택되며, 등등입니다. 이 절차의 마지막 단계에서 선택된 (예를 들어, 개별적인) 모든 궁극적인 단위는 그런-다음 조사됩니다. 이 기술은 따라서 본질적으로 선행하는 무작위 표본의 무작위 하위-표본을 취하는 과정입니다.

다단계 표본화는 표본화 비용을 대체로 줄일 수 있으며, 여기서 완전한 모집단 목록은 (다른 표본화 방법이 적용되기 전에) 구성될 필요가 있습니다. 선택되지 않은 클러스터를 설명하는 것에 포함된 작업을 제거함으로써, 다단계 표본화는 전통적인 클러스터 표본화와 결합된 큰 비용을 줄일 수 있습니다.[8] 어쨌든, 각 표본이 전체 모집단을 완전히 대표하지 않을 수 있습니다.

Quota sampling

몫 표본화에서, 모집단은, 단지 계층화된 표본화(stratified sampling)에서 처럼, 서로 배타적(mutually exclusive) 부분-그룹으로 먼저 분할됩니다. 그런-다음 판단은 지정된 비율에 따라 각 세그먼트에서 주제 또는 단위를 선택하기 위해 사용됩니다. 예를 들어, 면접관은 45세에서 60세 사이의 200 여성과 300 남성을 표본화하기 위해 지시받을 수 있습니다.

그것은 기술을 비-확률 표본화 중 하나로 만드는 것이 이 두 번째 단계입니다. 몫 표본화에서, 표본의 선택은 비-무작위(random)입니다. 예를 들어, 면접관은 가장 도움이 되는 사람들을 대면하려고 시도할 수 있습니다. 문제는 모든 사람이 선택의 기회를 얻지 못하기 때문에 이들 표본이 편향될 수 있다는 것입니다. 이 무작위 원소는 가장 큰 약점이고 몫 대 확률은 여러 해 동안 논란의 여지가 있습니다.

Minimax sampling

표본화 비율이 모집단 통계량을 따르지 않는 불균형 데이터-집합에서, 우리는 최소-최대 표본화(minimax sampling)라고 불리는 보수적인 방법에서 데이터-집합을 다시-표본화할 수 있습니다. 최소-최대 표본화는 그 값이 0.5임을 입증된 앤더슨(Anderson) 최대-최소 비율에서 그의 기원을 가집니다: 이진 분류법에서, 클래스-표본 크기는 같게 선택되어야 합니다. 이 비율은 가우시안 분포를 갖는 LDA 분류기를 가정 아래에서 오직 최소-최대 비율로 입증될 수 있습니다. 최소-최대 표본화의 개념은 클래스-별 스마트 분류기로 불리는 분류 규칙의 일반 클래스를 위해 최근 개발되었습니다. 이 경우에서, 클래스의 표본화 비율은 클래스 이전 확률에 대해 모든 가능한 모집단 통계량에 걸쳐 최악의 분류기 오차가 가장 좋도록 선택됩니다.[9]

Accidental sampling

(때때로 잡기, 편의 또는 기회 표본화라고 알려져 있는) 우연한 표본화(accidental sampling)는 손에 가까운 모집단의 해당 부분에서 추출된 표본을 포함하는 비-확률 표본화의 유형입니다. 즉, 모집단은 그것이 쉽게 이용될 수 있고 편리하기 때문에 선택됩니다. 우리가 인터넷과 같은 기술적 수단을 통해 또는 전화를 통해 그들을 만나거나 그들을 찾음으로써 선택될 때 사람을 만나거나 표본에 사람을 포함시키는 것이 될 수 있습니다. 이러한 표본을 사용하는 연구원은 이 표본으로부터 전체 모집단에 대한 과학적으로 일반화를 절대 할 수 없는데 왜냐하면 그것은 충분히 대표적이지 않기 때문입니다. 예를 들어, 만약 면접관이 특정 날 아침 일찍 쇼핑 센터에서 그러한 조사를 실시하면, 대면할 수 있는 사람들은 주어진 시간에 그곳에 있는 사람들로 제한될 것이며, 이것은 만약 조사가 하루 중 다른 시간과 일주일에 여러 번 수행되면, 그러한 지역에서 다른 사회 구성원의 견해를 설명하지 못합니다. 표본화의 이 유형은 파일럿 테스트에 가장 유용합니다. 편의 표본을 사용하는 연구원에 대해 여러 중요한 고려사항은 다음을 포함합니다:

  1. 연구 설계 또는 실험 안에 비-무작위 편의 표본의 영향을 줄일 수 있는, 그것에 의하여 결과가 모집단을 보더 잘 대표할 수 있음을 보장하는 통제가 있습니까?
  2. 특정 편의 표본이 같은 모집단에서 임의 표본보다 반응하거나 다르게 행동해야 한다고 믿을만한 충분한 이유가 있습니까?
  3. 편리 표본을 사용하여 적절하게 답변할 수 있는 연구에 의해 질문이 제기되고 있습니까?

사회 과학 연구에서, 눈덩이 표본화(snowball sampling)는 유사한 기술이며, 여기서 존재하는 연구 주제는 더 주제를 표본으로 모집하기 위해 사용됩니다. 응답자 중심 표본화와 같은, 일부 눈덩이 표본화의 변형은 선택 확률의 계산을 허용하고 특정 조건 아래에서 확률 표본화 방법입니다.

Voluntary Sampling

자발적 표본화 방법은 비-확률 표본화의 한 유형입니다. 자원-봉사자들은 조사를 완료하기로 선택합니다.

자원-봉사자들은 소셜 미디어에서 광고를 통해 초대될 수 있습니다.[10] 광고에 대해 목표 모집단은 소셜 미디어에서 제공하는 도구를 사용하여 위치, 나이, 성별, 소득, 직업, 교육 또는 관심사와 같은 특성에 의해 선택될 수 있습니다. 광고는 연구에 대한 메시지 및 조사에 연결을 포함할 수 있습니다. 연결을 따르고 조사를 완료한 후 자원-봉사자는 표본 모집단에 포함될 데이터를 제출합니다. 이 방법은 전-세계 모집단에 도달할 수 있지만 캠페인 예산에 의해 제한됩니다. 초대된 모집단 이외의 자원-봉사자들은 역시 샘플에 포함될 수 있습니다.

이 표본은 전체 모집단을 나타내지 않을 수 있기 때문에 일반화하기가 어렵습니다. 종종, 자원-봉사자들은 조사의 주요 주제에 큰 관심을 가집니다.

Line-intercept sampling

선-가로막기 표본화(Line-intercept sampling)는 만약 "transect"라고 불리는 선택된 선분이 원소를 가로막으면 원소가 표본화되는 영역에서 원소를 표본화하는 방법입니다.

Panel sampling

패널 표본화는 무작위 표본화 방법을 통해 참가자의 그룹을 먼저 선택하고 그런-다음 일정 기간에 걸쳐 해당 그룹에 (잠재적으로 같은) 정보를 여러 번 요청하는 방법입니다. 그러므로, 각 참가자는 둘 이상의 시점에서 대면됩니다; 각 데이터 수집 기간은 "파(wave)"라고 불립니다. 그 방법은 정치 캠페인(political campaign)을 연구하기 위한 수단으로 1938년에 사회학자 폴 라자스펠트(Paul Lazarsfeld)에 의해 개발되었습니다.[11] 이러한 종단(longitudinal) 표본화-방법은, 예를 들어 주간 음식 소비에 대한 만성 질환 대 직장 스트레스와 관련하여, 모집단에서 변화를 추정을 허용합니다. 패널 표본화는 나이로 인한 개인의 건강 변화를 연구자에게 알리거나 배우자 상호-작용과 같은 지속적인 종속 변수의 변화를 설명을 돕기 위해 역시 사용될 수 있습니다.[12] MANOVA, 성장 곡선(growth curves) 및 지연 효과를 갖는 구조 방정식 모델링(structural equation modeling)을 포함하여 패널 데이터(panel data)를 분석하는 여러 제안된 방법이 있어 왔습니다.

Snowball sampling

눈덩이 표본화(Snowball sampling)는 초기 응답자의 작은 그룹을 찾고 더 많은 응답자를 모집하기 위해 그들을 사용하는 것을 포함합니다. 모집단이 숨겨져 있거나 열거하기 어려운 경우에 특히 유용합니다.

Theoretical sampling

이론적 표본화는 영역에 대한 더 깊은 이해를 개발하거나 이론을 개발하려는 목표를 갖는 지금까지 수집된 데이터의 결과를 기반으로 표본을 선택할 때 발생합니다.[13]

Replacement of selected units

표본화 계획은 복원없이 ('WOR' – 원소는 같은 표본에서 한 번보다 많이 선택할 수 없음) 또는 복원과 함께 ('WR' – 원소는 한 표본에서 여러 번 나타날 수 있음)일 수 있습니다. 예를 들어, 만약 우리는 물고기를 잡아서, 그것을 측정하고, 표본을 계속하기 전에 즉시 물로 돌려 보내면, WR 설계인데, 왜냐하면 우리는 같은 물고기를 한 번보다 많이 잡아서 측정할 수 있기 때문입니다. 어쨌든, 만약 우리가 물고기를 잡은 후에 물로 돌려 보내지 않거나 각 물고기에 꼬리표와 방출(tag and release)을 하면, 이것은 WOR 설계가 됩니다.

Sample size determination

공식, 테이블 및 힘 함수 차트는 표본 크기를 결정하기 위한 잘 알려진 방법입니다.

Steps for using sample size tables

  1. 관심의 효과 크기, α 및 β를 가정합니다.
  2. 표본 크기 테이블을 확인하십시오[14]
    1. 선택된 α에 해당하는 테이블을 선택하십시오.
    2. 원하는 힘에 해당하는 행을 찾으십시오.
    3. 추정된 효과 크기에 해당하는 열을 찾으십시오.
    4. 열과 행의 교차는 요구된 최소 표본 크기입니다.

Sampling and data collection

좋은 데이터 모음은 다음을 포함합니다: Good data collection involves:

  • 정의된 표본화 과정을 따릅니다.
  • 데이터를 시간 순서대로 유지합니다.
  • 논평 및 다른 상황에 맞는 사건을 주목합니다.
  • 무-응답을 기록합니다.

Applications of sampling

표본화는 더 큰 데이터 집합 안에서 전체 모집단의 특성을 추정하기 위한 올바른 데이터 점의 선택을 활성화합니다. 예를 들어, 매일 약 6억 개의 트윗이 있습니다. 그 날 동안 논의되는 주제를 결정하기 위해 그들의 모든를 검토할 필요는 없으며, 각 주제에 대한 의견을 결정하기 위해 모든 트윗을 검토할 필요도 없습니다. 트윗 데이터 표본화를 위한 이론적 공식화는 개발되어 왔습니다.[15]

음향, 진동, 압력, 전류, 전압과 같은 다양한 유형의 감각 데이터를 제조하는 것에서, 컨트롤러 데이터는 짧은 시간 구간에서 유효합니다. 가동-중지 시간을 예측하기 위해, 모든 데이터를 볼 필요가 있는 것이 아니라 표본으로 충분할 수 있습니다.

Errors in sample surveys

조사 결과는 전형적으로 약간의 오차가 있습니다. 전체 오차는 표본화 오차와 비-표본화 오차로 분류될 수 있습니다. 용어 "오차"는 여기서 체계적인 편향과 마찬가지로 무작위 오차를 포함합니다.

Sampling errors and biases

표본화 오차 및 편향이 표본 설계에 의해 유도됩니다. 그들은 다음을 포함합니다:

  1. 선택 편향(selection bias): 참 선택 확률이 결과를 계산하는 것에서 그들의 가정된 것과 다를 때.
  2. 무작위 표본화 오차(Random sampling error): 결과에서 무작위 변동이 무작위에서 선택된 표본에서 원소에 기인합니다.

Non-sampling error

비-표본화 오차는 데이터 수집, 처리, 또는 표본 설계에서 문제로 인해, 최종 조사 추정에 영향을 줄 수 있는 다른 오차입니다. 그러한 오차는 다음을 포함할 수 있습니다:

  1. 초과-범위: 모집단의 외부로부터 데이터 포함
  2. 미달-범위: 표본화 틀은 모집단에서 원소를 포함하지 않습니다.
  3. 측정 오차: 예를 들어, 응답자가 질문을 오해하거나, 답을 찾기가 어려울 때
  4. 처리 오차: 데이터 코딩에서 실수
  5. 무-응답 또는 참여 편견(Non-response or Participation bias): 모든 선택된 개인으로부터 완전한 데이터를 얻는 것을 실패

표본화 후, 검토는, 모든 발산이 후속 분석에서 가질 수 있는 임의의 영향을 연구하기 위해, 의도된 것이 아니라 표본화에 따르는 정확한 과정을 검토해야 합니다.[by whom?]

특정 문제는 무-응답과 관련이 있습니다. 무-응답의 두 가지 주요 유형이 존재합니다: [16][17]

  • 단위 무-응답 (측량의 임의의 부분의 완료의 부족)
  • 항목 무-응답 (조사에서 제출 또는 참여하지만 조사의 하나 이상의 성분/질문을 완료하지 못하는 것)

조사 표본화(survey sampling)에서, 표본의 일부로 식별된 많은 개인이 참여할 의사가 없는, 참여할 시간 (기회 비용)이 없거나,[18] 조사-관리자가 그들에게 연락할 수 없었을 수 있습니다. 이 경우에서, 응답과 무-응답 사이에 차이의 위험이 있으며, 모집단 매개-변수의 편향된 추정으로 이어집니다. 이것은 종종 조사 설계를 개선, 자극을 제공, 및 후속 연구를 수행함으로써 다루어지며, 이것은 응답하지 않는 접촉하고 틀의 나머지와 유사점과 차이점을 특성화하기 위한 반복된 시도를 만듭니다.[19] 그 효과는 데이터에 가중함으로써 (모집단 벤치마크가 유용할 때) 또는 다른 질문에 대한 답변을 기반으로 데이터를 대치함으로써 역시 완화될 수 있습니다. 무응답은 특히 인터넷 표본화에서 문제가 됩니다. 이 문제에 대해 원인은 부적절하게 설계된 조사,[17] 초과-조사 (또는 조사 피로),[12][20][need quotation to verify] 및 잠재적 참가자가 더 이상 사용하지 않거나 정기적으로 확인하지 않는 여러 전자-우편 주소를 가질 수 있다는 사실을 포함할 수 있습니다.

Survey weights

많은 상황에서, 표본 분수는 지층에 따라 달라질 수 있고 데이터는 모집단을 올바르게 나타내기 위해 가중되어야 할 것입니다. 따라서 예를 들어, 영국에서 개인의 단순 무작위 표본은 표본하기에 지나치게 비용이 많이 드는 외딴 스코틀랜드 섬의 일부를 포함할 수 있습니다. 더 싼 방법은 도시 및 농촌 지층에서 계층화된 표본을 사용하는 것입니다. 농촌 표본은 표본에서 과소-표현될 수 있지만, 보정하기 위해 분석에서 적절하게 가중될 수 있습니다.

보다 일반적으로, 데이터는 만약 표본 설계가 각 개인에게 같은 선택될 기회를 주지 않으면 보통 가중되어야 합니다. 예를 들어, 가구의 선택 확률이 같지만 한 사람은 각 가구 이내에서 대면될 때, 이것은 대면할 더 작은 기회가 대가족으로부터 사람들에게 제공합니다. 이것은 조사 가중을 사용하여 설명될 수 있습니다. 비슷하게, 하나보다 많은 전화선을 갖는 가구가 무작위 디지털 다이얼링 표본에서 선택될 더 큰 기회를 가지고, 가중은 이것에 대해 조정될 수 있습니다.

가중은 무응답에 대해 수정하는 것을 돕는 것과 같은 다른 목적으로 역시 사용될 수 있습니다.

Methods of producing random samples

History

제비를 사용함으로써 무작위 표본화는, 성서에서 여러번 언급된, 오래된 아이디어입니다. 1786년에 피에르-시몽 라플라스(Pierre-Simon Laplace)비율 추정기(ratio estimator)와 함께 표본을 사용하여 프랑스 인구를 추정했습니다. 그는 역시 오차의 확률적 추정값을 계산했습니다. 이것들은 현대 신뢰 구간(confidence interval)으로 표현된 것이 아니라 확률 1000/1001의 표본화 오차에서 특정 위쪽 경계를 달성하기 위해 요구되는 표본 크기로 표현되었습니다. 그의 추정은 균등 이전 확률(prior probability)을 갖는 베이즈의 정리(Bayes' theorem)를 사용했고 그의 표본이 무작위라고 가정했습니다. 알렉산더 이바노비치 추프라프(Alexander Ivanovich Chuprov)는 1870년대 러시아 제국(Imperial Russia)에 표본 조사를 도입했습니다.[citation needed]

미국에서, 대통령 선거에서 공화당의 승리에 대한 1936년 Literary Digest 예측은 심각한 편향(bias)으로 인해 심하게 틀렸습니다 [1]. 2백만 명이 넘는 사람들이 잡지 구독 목록과 전화 번호부를 통해 얻어진 이름과 함께 연구에 응답했습니다. 이들 목록은 공화당에게 크게 편향되어 있었고 결과 표본은, 비록 매우 큰 것일지라도, 깊은 결함이 있음을 이해하지 못했습니다.[21][22]

See also

Notes

The textbook by Groves et alia provides an overview of survey methodology, including recent literature on questionnaire development (informed by cognitive psychology) :

  • Robert Groves, et alia. Survey methodology (2010 2nd ed. [2004]) ISBN 0-471-48348-6.

The other books focus on the statistical theory of survey sampling and require some knowledge of basic statistics, as discussed in the following textbooks:

The elementary book by Scheaffer et alia uses quadratic equations from high-school algebra:

  • Scheaffer, Richard L., William Mendenhal and R. Lyman Ott. Elementary survey sampling, Fifth Edition. Belmont: Duxbury Press, 1996.

More mathematical statistics is required for Lohr, for Särndal et alia, and for Cochran (classic[citation needed]):

The historically important books by Deming and Kish remain valuable for insights for social scientists (particularly about the U.S. census and the Institute for Social Research at the University of Michigan):

References

  1. ^ Lance, P. & Hattori, A. (2016). Sampling and Evaluation. Web: MEASURE Evaluation. pp. 6–8, 62–64.{{cite book}}: CS1 maint: multiple names: authors list (link)
  2. ^ Salant, Priscilla, I. Dillman, and A. Don. How to conduct your own survey. No. 300.723 S3. 1994.
  3. ^ a b c d Robert M. Groves; et al. (2009). Survey methodology. ISBN 978-0470465462.
  4. ^ Lohr, Sharon L. Sampling: Design and analysis.
  5. ^ Särndal, Carl-Erik, and Swensson, Bengt, and Wretman, Jan. Model Assisted Survey Sampling.{{cite book}}: CS1 maint: multiple names: authors list (link)
  6. ^ Scheaffer, Richard L., William Mendenhal and R. Lyman Ott. (2006). Elementary survey sampling.{{cite book}}: CS1 maint: multiple names: authors list (link)
  7. ^ Scott, A.J.; Wild, C.J. (1986). "Fitting logistic models under case-control or choice-based sampling". Journal of the Royal Statistical Society, Series B. 48 (2): 170–182. JSTOR 2345712.
  8. ^ a b
    • Lohr, Sharon L. Sampling: Design and Analysis.
    • Särndal, Carl-Erik, and Swensson, Bengt, and Wretman, Jan. Model Assisted Survey Sampling.{{cite book}}: CS1 maint: multiple names: authors list (link)
  9. ^ Shahrokh Esfahani, Mohammad; Dougherty, Edward (2014). "Effect of separate sampling on classification accuracy". Bioinformatics. 30 (2): 242–250. doi:10.1093/bioinformatics/btt662. PMID 24257187.
  10. ^ Ariyaratne, Buddhika (30 July 2017). "Voluntary Sampling Method combined with Social Media advertising". heal-info.blogspot.com. Health Informatics. Retrieved 18 December 2018.[unreliable source?]
  11. ^ Lazarsfeld, P., & Fiske, M. (1938). The" panel" as a new tool for measuring opinion. The Public Opinion Quarterly, 2(4), 596–612.
  12. ^ a b Groves, et alia. Survey Methodology
  13. ^ "Examples of sampling methods" (PDF).
  14. ^ Cohen, 1988
  15. ^ Deepan Palguna, Vikas Joshi, Venkatesan Chakaravarthy, Ravi Kothari and L. V. Subramaniam (2015). Analysis of Sampling Algorithms for Twitter. International Joint Conference on Artificial Intelligence.{{cite conference}}: CS1 maint: multiple names: authors list (link)
  16. ^ Berinsky, A. J. (2008). "Survey non-response". In: W. Donsbach & M. W. Traugott (Eds.), The Sage handbook of public opinion research (pp. 309–321). Thousand Oaks, CA: Sage Publications.
  17. ^ a b Dillman, D. A., Eltinge, J. L., Groves, R. M., & Little, R. J. A. (2002). "Survey nonresponse in design, data collection, and analysis". In: R. M. Groves, D. A. Dillman, J. L. Eltinge, & R. J. A. Little (Eds.), Survey nonresponse (pp. 3–26). New York: John Wiley & Sons.
  18. ^ Dillman, D.A., Smyth, J.D., & Christian, L. M. (2009). Internet, mail, and mixed-mode surveys: The tailored design method. San Francisco: Jossey-Bass.
  19. ^ Vehovar, V., Batagelj, Z., Manfreda, K.L., & Zaletel, M. (2002). "Nonresponse in web surveys". In: R. M. Groves, D. A. Dillman, J. L. Eltinge, & R. J. A. Little (Eds.), Survey nonresponse (pp. 229–242). New York: John Wiley & Sons.
  20. ^ Porter; Whitcomb; Weitzer (2004). "Multiple surveys of students and survey fatigue". In Porter, Stephen R (ed.). Overcoming survey research problems. New directions for institutional research. San Francisco: Jossey-Bass. pp. 63–74. Retrieved 15 July 2019.
  21. ^ David S. Moore and George P. McCabe. "Introduction to the Practice of Statistics".
  22. ^ Freedman, David; Pisani, Robert; Purves, Roger. Statistics. {{cite book}}: Invalid |ref=harv (help)

Further reading

Standards

ISO

  • ISO 2859 series
  • ISO 3951 series

ASTM

  • ASTM E105 Standard Practice for Probability Sampling Of Materials
  • ASTM E122 Standard Practice for Calculating Sample Size to Estimate, With a Specified Tolerable Error, the Average for Characteristic of a Lot or Process
  • ASTM E141 Standard Practice for Acceptance of Evidence Based on the Results of Probability Sampling
  • ASTM E1402 Standard Terminology Relating to Sampling
  • ASTM E1994 Standard Practice for Use of Process Oriented AOQL and LTPD Sampling Plans
  • ASTM E2234 Standard Practice for Sampling a Stream of Product by Attributes Indexed by AQL

ANSI, ASQ

  • ANSI/ASQ Z1.4

U.S. federal and military standards

External links