Jump to content

Sample mean and covariance

This is a fully translated article. Click here for more information.
From DawoumWiki, the free Mathematics self-learning
(Redirected from Sample mean)

표본 평균(sample mean, 또는 "경험적 평균(empirical mean)") 및 표본 공분산(sample covariance)은 하나 이상의 확률 변수(random variables)표본(sample)으로부터 계산된 통계량(statistic)입니다.

표본 평균은 숫자의 더 큰 모집단(population)에서 취해진 숫자의 표본(sample)평균(average) 값이며, 여기서 "모집단"은 사람의 숫자가 아니라 수집된 여부에 관계없이 관련된 데이터의 전체를 나타냅니다. 포춘 500(Fortune 500)으로부터 40 회사의 매출의 표본은 모집단, 모든 500 회사의 매출을 보는 대신에 편의상 사용될 수 있습니다. 표본 평균은 모집단 평균, 전체 모집단에서 평균값에 대해 추정(estimator)으로 사용되며, 여기서 추정은 만약 표본이 크고 대표적이면 모집단 평균에 더 가깝습니다. 표본 평균의 신뢰도는 표준 오차(standard error)를 사용하여 추정되며, 이것은 차례로 표본의 분산(variance)을 사용하여 계산됩니다. 만약 표본이 무작위이면, 표준 오차는 표본 크기에 따라 떨어지고 표본 평균의 분포가 표본 크기가 증가함에 따라 정규 분포에 접근합니다.

용어 "표본 평균"은 역시 통계학자가 표본에서 여러 변수의 값, 예를 들어, 포춘 500 회사의 표본의 매출, 수익 및 직원을 바라볼 때 평균의 벡터(vector)를 참조하기 위해 사용될 수 있습니다. 이 경우에서, 단지 각 변수에 대한 표본 분산뿐 아니라 표본 분산-공분산 행렬 (또는 단순히 공분산 행렬(covariance matrix))이 있으며, 각 변수의 쌍 사이의 관계도 보여줍니다. 이것은 3 변수가 고려될 때 3x3 행렬이 됩니다. 표본 공분산은 표본 평균의 신뢰도를 추정으로 판단하는 것에 유용하고 역시 모집단 공분산 행렬의 추정으로 유용합니다.

계산의 용이성과 다른 바람직한 특성으로 인해, 표본 평균과 표본 공분산은 표본에서 위치(location)산포도(dispersion)를 나타내기 위해, 및 모집단에 대해 값을 추정하기 위해 통계학에서 널리 사용됩니다.

Definition of the sample mean

표본 평균은 표본에서 변수 값의 평균으로, 이것은 그들 값의 합을 값의 개수로 나눈 것입니다. 수학적 표기법을 사용하여, 만약 변수 X에 대한 N 관측의 표본이 모집단에서 취해지면 표본 평균은 다음입니다:

이 정의 아래에서, 만약 표본 (1, 4, 1)이 모집합 (1,1,3,4,0,2,1,0)에서 취해지면, 표본 평균은 1/3(1+4+1) = 2이며, 모집단의 평균 1/8(1+1+3+4+0+2+1+0) = 12/8 = 1.5과 비교됩니다. 심지어 표본이 무작위일지라도, 그것은 거의 완벽하게 대표적이지 않고, 다른 표본은 심지어 표본이 같은 모집단에서 모두 있을지라도 다른 표본 평균을 가집니다. 표본 (2, 1, 0)은, 예를 들어, 1의 표본 평균을 가집니다.

만약 통계학자가 하나가 아닌 K 변수, 그들 K 변수 각각에 대해 값을 가지는 각 관측에 관심이 있으면, 전체 표본 평균은 개별 변수에 대해 K 표본 평균으로 구성됩니다. j번째 확률 변수 (j=1,...,K)에 대한 i번째 독립적으로 뽑은 관측 (i=1,...,N)으로 놓습니다. 이들 관측은 N 열 벡터로 정렬될 수 있으며, 각각은 K 엔트리를 갖고, K ×1 열 벡터는 (i=1,...,N)로 표시되는 모든 변수의 i번째 관측을 제공합니다.

표본 평균 벡터 는 그것의 j번째 원소 j번째 변수의 N 관측의 평균 값인 열 벡터입니다:

따라서, 표본 평균 벡터는 각 변수에 대해 관측의 평균을 포함하고, 다음으로 쓰입니다:

Definition of sample covariance

표본 공분산 행렬은 다음 엔트리를 갖는 K-×-K 행렬(matrix) 입니다:

여기서 는 데이터를 기반으로 하는 모집단의 j번째 변수와 k번째 변수 사이의 공분산(covariance)의 추정입니다. 관측 벡터의 관점에서, 표본 공분산은 다음입니다:

대안적으로, 다음이 되도록 관측 벡터를 행렬의 열로 배열하는 것입니다:

,

이것은 K 행과 N 열의 행렬입니다. 이때, 표본 공순한 행렬은 다음으로 계산될 수 있습니다:

,

여기서 는 일들의 N×1 벡터입니다. 만약 관측이 열 대신에 행으로 정렬되므로, 가 이제 1×K 행 벡터이고 는 그것의 열 j가 변수 j에 대한 N 관측의 벡터인 N×K 행렬이면, 적절한 위치에서 전치를 적용하면 다음을 산출합니다:

확률 벡터(random vector)에 대해 공분산 행렬과 마찬가지로, 표본 공분산 행렬은 양의 반-한정(positive semi-definite)입니다. 그것을 입증하기 위해, 임의의 행렬 에 대해, 행렬 가 양의 반-한정임을 주목하십시오. 게다가, 공분산 행렬이 양의 한정인 것과 벡터의 랭크가 K인 것은 필요충분 조건입니다.

Unbiasedness

표본 평균과 표본 공분산 행렬은 평균(mean)확률 벡터(random vector), 그것의 j번째 원소 (j = 1, ..., K)가 확률 변수의 하나인 행 벡터의 공분산 행렬(covariance matrix)불-편향된 추정(unbiased estimates)입니다.[1] 표본 공분산 행렬은 베셀의 보정(Bessel's correction)의 변형으로 인해 분모에서 이 아닌 를 가집니다: 짧게, 표본 공분산은 각 관측과 표본 사이의 차이에 의존하지만, 표본 평균은 각 관측과 약간의 상관 관계가 있는데, 왜냐하면 그것은 모든 관측의 관점에서 정의되기 때문입니다. 만약 모집단 평균 이 알려져 있으면, 모집단 평균을 사용하여, 유사한 다음 불-편향된 추정은

분모에서 를 가집니다. 이것은 확률과 통계에서 확률 변수(random variable) (대문자)와 확률 변수의 실현(realizations) (소문자) 사이를 구별하는 것이 필수적인 이유의 예제입니다.

가우스 분포(Gaussian distribution) 경우에 대해 최대 가능도(maximum likelihood) 공분산의 추정(estimate of the covariance)

마찬가지로 분모에서 N을 가집니다. 1/N에서 1/(N−1)로의 비율은 큰 N에 대해 1에 접근하므로, 최대 가능도 추정은 표본이 클 때 불-편향된 추정과 근사적으로 같습니다.

Variance of the sampling distribution of the sample mean

각 확률 변수에 대해, 표본 평균은 모집단 평균의 좋은 추정기(estimator)이며, 여기서 "좋은" 추정기는 효율적이고 불편향된 것으로 정의됩니다. 물론 추정기는 모집단(population) 평균의 참 값이 아닐 가능성이 있을 것인데 왜냐하면 표본 모집단에서 추출된 다른 표본이 다른 표본 평균을 제공할 것이고 따라서 참 평균의 다른 추정할 것이기 때문입니다. 따라서 표본 평균은 상수가 아닌 확률 변수(random variable)이고, 결과적으로 그 자체 분포를 가집니다. j번째 확률 변수에 대한 N 관측의 확률 표본에 대해, 표본 평균의 분포 자체는 모집단 평균 와 같은 평균과 과 같은 분산을 가지며, 여기서 는 모집단 분산입니다.

Weighted samples

가중된 표본에서, 각 벡터 (K 확률 변수의 각각에 대한 단일 관측의 각 집합)는 가중 을 할당됩니다. 일반성의 손실 없이, 가중은 정규화된(normalized) 것으로 가정합니다:

(만약 그것들이 정규화되지 않으면, 가중을 합으로 나눕니다). 그런-다음 가중된 평균(weighted mean) 벡터 은 다음에 의해 제공됩니다:

그리고 가중된 공분산 행렬 의 원소 는 다음입니다:[2]

만약 모든 가중이 같은 것, 이면, 가중된 평균과 공분산은 위에서 언급된 표본 평균과 공분산으로 줄어듭니다.

Criticism

표본 평균과 표본 공분산은 강건한 통계(robust statistics)가 아니며, 그것들이 이상값(outliers)에 민감함을 의미합니다. 강건성은 종종 원했던 특성이며, 특별히 실-세계 응용에서, 강건한 대안이 특히 위치에 대해 표본 중앙값(sample median)[3] 및 산포도에 대해 사분위수-사이 범위(interquartile range) (IQR)와 같은 분위-숫자(quantile)-기반된 통계에서 바람직한 것으로 입증될 수 있습니다. 다른 대안은 정돈된 평균(trimmed mean)버림-대체된 평균(Winsorized mean)에서 처럼 정돈함(trimming)버림-대체함(Winsorising)을 포함합니다.

See also

References

  1. ^ Richard Arnold Johnson; Dean W. Wichern (2007). Applied Multivariate Statistical Analysis. Pearson Prentice Hall. ISBN 978-0-13-187715-3. Retrieved 10 August 2012.
  2. ^ Mark Galassi, Jim Davies, James Theiler, Brian Gough, Gerard Jungman, Michael Booth, and Fabrice Rossi. GNU Scientific Library - Reference manual, Version 1.15, 2011. Sec. 21.7 Weighted Samples
  3. ^ The World Question Center 2006: The Sample Mean, Bart Kosko