Jump to content

Bessel's correction

This is a fully translated article. Click here for more information.
From DawoumWiki, the free Mathematics self-learning

통계(statistics)에서, 베셀의 보정(Bessel's correction)은 표본 분산(sample variance)표본 표준 편차(sample standard deviation)에 대한 공식에서 n 대신 n − 1의 사용이며,[1] 여기서 n표본(sample)에서 관측의 개수입니다. 이 방법은 모집단 분산의 추정에서 편향을 보정합니다. 그것은 역시 모집단 표준 편차의 추정에서 편향을 부분적으로 보정합니다. 어쨌든, 그 보정은 종종 이들 추정에서 평균 제곱 오차(mean squared error)를 증가시킵니다. 이 기술은 프리드리히 베셀(Friedrich Bessel)의 이름을 따서 지어졌습니다.

모집단 평균이 알려져 있지 않을 때 표본에서 모집단 분산(variance)추정하는 것에서, 보정되지 않은 표본 분산은 표본 평균에서 표본 값의 편차의 제곱의 평균입니다 (즉, 곱셈 인수 1/n을 사용합니다). 이 경우에서, 표본 분산은 모집단 분산의 편향된 추정량(biased estimator)입니다.

보정되지 않은 표본 분산에 다음 인수를 곱하면

모집단 분산의 편향되지 않은 추정량을 제공합니다. 일부 문헌에서,[2][3] 위의 인수는 베셀의 보정이라고 불립니다.

우리는 베셀의 보정을 잔여(residuals) 벡터에서 자유도(degrees of freedom)로 이해할 수 있습니다 (모집단 평균이 알려져 있지 않기 때문에, 잔여이지 오차가 아닙니다):

여기서 는 표본 평균입니다. 표본에서 n 개의 독립적인 관측이 있지만, 오직 n − 1 독립적인 잔여가 있는데, 왜냐하면 그것들은 합이 0이기 때문입니다. 베셀의 보정에 대한 필요의 보다 직관적인 설명에 대해 § Source of bias를 참조하십시오.

일반적으로 베셀의 보정은 유한 표본 크기로 인한 편향을 줄이기 위한 접근 방식입니다. 그러한 유한-표본 편향 보정은 역시 기울어짐(skew)뾰족(kurtosis)와 같은 다른 추정량에 필요되지만, 이들에서 부정확성은 종종 훨씬 더 큽니다. 그러한 편향을 완전히 제거하기 위해, 더 복잡한 다중-매개변수 추정을 수행해야 합니다. 예를 들어, 표준 편차에 대해 올바른 보정은 뾰족 (정규화된 중심 4번째 모멘트)에 따라 달라지지만, 이것은 다시 유한 표본 편향을 가지고 그것은 표준 편차에 따라 달라집니다. 즉, 두 추정은 병합되어야 합니다.

Caveats

베셀의 보정과 관련하여 고려해야 할 세 가지 경고(caveats)가 있습니다:

  1. 그것은 표준 편차의 불-편향된 추정치를 산출하지 않습니다.
  2. 보정된 추정량는 종종 비-보정된 추정량보다 더 높은 평균 제곱 오차(mean squared error) (MSE)를 가집니다.[4] 게다가, 다른 스케일 인수가 MSE를 최소화하기 위해 항상 선택될 수 있기 때문에 최소 MSE를 가지는 모집단 분포는 없습니다.
  3. 모집단 평균이 알려져 있지 않을 때 (및 표본 평균으로 추정될 때) 오직 필요합니다. 실제로, 이것은 일반적으로 발생합니다.

첫째, 표본 분산 (베셀의 보정 사용)이 모집단 분산의 불-편향된 추정량이지만, 그것의 제곱근(square root), 표본 표준 편차는 모집단 표준 편차의 편향된 추정치입니다; 제곱근은 오목 함수이기 때문에, 편향은 옌센 부등식(Jensen's inequality)에 의해 아래로 향합니다. 정규 분포와 같은 특정 분포에 대해 보정 인수가 있지만, 모집단 표준 편차의 불-편향된 추정량에 대한 일반 공식은 없습니다; 자세한 내용에 대해 표준 편차의 불-편향된 추정(unbiased estimation of standard deviation)을 참조하십시오. 정규 분포에 대해 정확한 보정 인수에 대한 근삿값은 공식에서 n − 1.5를 사용함으써 제공됩니다: 편향은 (비-보정된 형식과 베셀의 보정된 형식에서와 같이, 선형이 아닌) 이차적으로 붕괴합니다.

둘째, 불-편향된 추정량은 평균 제곱 오차 (MSE)를 최소화하지 않고, 일반적으로 비-보정된 추정량보다 더 나쁜 MSE를 가집니다 (이것은 초과 뾰족(excess kurtosis)에 따라 변합니다). MSE는 다른 인수를 사용함으로써 최소화될 수 있습니다. 최적 값은 평균 제곱 오차: 분산에서 논의된 것처럼 초과 뾰족에 따라 다릅니다; 정규 분포에 대해 이것은 (n − 1 또는 n 대신에) n + 1로 나눔으로써 최적화됩니다.

셋째, 베셀의 보정은 모집단 평균이 알려져 있지 않을 때 오직 필요하고, 우리는 모집단 평균을 추정하기 위해 표본 평균을 사용하여 주어진 표본에서 모집단 평균 모집단 분산 둘 다를 추정하는 것입니다. 해당 경우에서 n 점의 표본에서 n 자유도가 있고, 평균과 분산의 동시 추정은 일 자유도가 표본 평균으로 이동하고 남아있는 n − 1 자유도 (잔여)가 표본 분산으로 이동함을 의미합니다. 어쨌든, 만약 모집단 평균이 알려져 있으면, 모집단 평균에서 관측의 편차는 n 자유도를 가지고 (왜냐하면 평균이 추정되지 않기 때문에 편차는 잔여가 아니라 오차임) 베셀의 보정은 적용할 수 없습니다.

Source of bias

가장 간단하게, 보정하는 것이 필요한 편향을 이해하기 위해, 극단적인 경우를 생각하십시오. 모집단이 (0,0,0,1,2,9)이라고 가정하며, 이것은 2의 모집단 평균과 10 1/3의 모집단 분산을 가집니다. n = 1의 표본이 추출되고, 인 것으로 밝혀집니다. 모집단 평균의 가장 좋은 추정치는 입니다. 그러나, 우리가 분산을 추정하기 위해 공식 을 사용하면 어떻게 될까요? 분산의 추정치는 영이 될 것이고 추정치는 임의의 모집단과 n = 1의 임의의 표본에 대해 영이 될 것입니다. 문제는 표본 평균을 추정하는 것에서 과정은 이미 우리가 표본화했던 값에 가까운 평균의 추정치를 n = 1에 대해 동일하게 만들었다는 것입니다. n = 1의 경우에서, 표본에 변동가능성이 없기 때문에 분산은 바로 추정될 수 없습니다.

그러나 n = 2를 생각해 보십시오. 표본이 (0, 2)라고 가정합니다. 그런-다음 이지만, 베셀의 보정과 함께, 이며, 이것은 불-편향된 추정치입니다 (만약 n = 2의 모든 가능한 표본이 취해지고 이 방법이 사용되면, 평균 추정치는 12.4가 될 것이며, 베셀의 보정과 함께 표본 분산과 같습니다.

이것을 더 자세히 보기 위해, 다음 예제를 생각해 보십시오. 전체 모집단의 평균이 2050이지만, 통계학자는 그것을 알지 못하고, 모집단에서 무작위로 선택된 이 작은 표본을 기반으로 그것을 추정해야 한다고 가정합니다:

우리는 표본 평균을 계산할 수 있습니다:

이것은 2050인 관찰할 수 없는 모집단 평균의 관찰-가능 추정치로 사용될 수 있습니다. 이제 우리는 모집단 분산을 추정하는 문제에 직면해 있습니다. 그것은 2050에서 편차의 제곱의 평균입니다. 만약 우리가 모집단 평균이 2050이라고 것을 알고 있었다면, 다음과 같이 진행할 수 있습니다:

그러나 모집단 평균의 추정치는 표본 평균, 2052입니다. 실제 평균, 2050은 알 수 없습니다. 따라서, 표본 평균, 2052가 사용되어야 합니다:

분산이 이제 훨씬 작아졌습니다. 아래에서 입증된 바와 같이, 모집단 평균에 대한 제곱된 거리의 합을 사용하는 것과 비교하여 표본 평균에 대한 제곱된 거리의 합을 사용하여 계산될 때 거의 항상 더 작아질 것입니다. 이에 대한 한 가지 예외는 표본 평균이 모집단 평균과 같을 때이며, 이 경우에서 분산은 역시 같습니다.

왜 이런 일이 일어나는지 알아보기 위해, 우리는 대수학에서 간단한 항등식을 사용합니다:

는 표본 평균에서 개별적인 표본의 편차를 나타내고, 는 모집단 평균에서 표본 평균의 편차를 나타내는 것으로 가정합니다. 우리는 (알-수-없는) 모집단 평균에서 개별적인 표본의 실제 편차를 두 가지 성분: 우리가 계산할 수 있는 표본 평균에서 단일 표본의 편차와 우리가 계산할 수 없는 모집단 평균에서 표본 평균의 추가 편차로 분해했습니다. 이제, 우리는 이 항등성을 모집단 평균에서 편차의 제곱에 적용합니다:

이제 이것을 모든 다섯 관측에 적용하고 특정 패턴을 관찰합니다:

중간 열에 있는 엔트리의 합은 영이어야 하는데, 왜냐하면 항 a는 모든 5 행에 더해질 것이며, 그 자체는 영과 같아야 하기 때문입니다. 그것은 a가 5 개별적인 표본 (괄호 내에 왼쪽)을 하며, 더해질 때, 그들 5 숫자 (2052)의 표본 평균 5배를 더하는 것과 같은 합을 자연스럽게 가지기 때문입니다. 이것은 이들 두 합을 빼면 영과 같아야 함을 의미합니다. 중간 열에서 인수 2와 항 b는 모든 행에 대해 같으며, 중간 열에서 모든 행에 걸쳐 상대적 차이는 같게 유지되고 따라서 무시될 수 있음을 의미합니다. 다음 명제는 남아있는 열의 의미를 설명합니다:

  • 첫 번째 열 (a2)에 있는 엔트리의 합은 표본에서 표본 평균까지의 거리의 제곱의 합입니다;
  • 마지막 열 (b2)에 있는 엔트리의 합은 측정된 표본 평균과 정확한 모집단 평균 사이의 제곱된 거리의 합입니다.
  • 모든 각 단일 행은 이제 a2 (표본 평균이 사용되기 때문에, 편향됨) 및 b2 ("실제" 모집단 평균과 부정확한 표본 평균 사이의 차이를 고려하기 때문에 편향의 보정)의 쌍으로 구성됩니다. 그러므로 첫 번째 열과 마지막 열의 모든 엔트리의 합은 이제 정확한 분산을 나타내며, 이제 표본과 모집단 평균 사이의 제곱된 거리의 합이 사용됨을 의미합니다.
  • a2-열과 b2-열의 합은 b2-열 내의 모든 엔트리가 양수이므로 a2-열의 엔트리 내의 합보다 더 커야 합니다 (모집단 평균이 표본 평균과 같은 경우 제외하며, 이 경우에서 마지막 열에서 모든 숫자는 0이 될 것입니다).

그러므로:

  • 표본에서 모집단 평균까지의 거리의 제곱의 합은, 표본 평균이 모집단 평균과 같게 발생하는 것을 제외하며, 이 경우에서 둘은 같으며, 항상 표본 평균까지의 거리의 제곱의 합보다 더 클 것입니다.

이것이 표본 평균에서 편차의 제곱의 합이 해당 제곱의 평균이 구해질 때 모집단 분산의 불-편향된 추정치를 제공하기에 너무 작은 이유입니다. 표본 크기가 작을수록, 표본 분산과 모집단 분산 사이의 차이가 커집니다.

Terminology

이 보정은 너무 공통적이어서 "표본 분산"과 "표본 표준 편차"라는 용어는 n − 1을 사용하여 보정된 추정량 (불-편향된 표본 변동, 덜 편향된 표본 표준 편차)을 의미하기 위해 자주 사용됩니다. 어쨌든, 주의가 필요합니다: 일부 계산기와 소프트웨어 패키지는 둘 다 또는 오직 더 특이한 공식에 대해 제공할 수 있습니다. 이 기사는 다음 기호와 정의를 사용합니다:

  • μ는 모집단 평균입니다
  • 는 표본 평균입니다
  • σ2는 모집단 분산입니다
  • sn2는 편향된 표준 분산입니다 (즉, 베셀의 보정없이)
  • s2는 불편향된 표본 분산입니다 (즉, 베셀의 보정과 함께)

표준 편차는 그런-다음 각 분산의 제곱근일 것입니다. 제곱근은 편향을 도입하므로, 용어 "비-보정된" 및 "보정된"은 표준 편차 추정량에 대해 선호됩니다:

  • sn는 비-보정된 표본 표준 편차입니다 (즉, 베셀의 보정없이)
  • s는 보정된 표본 표준 편차입니다 (즉, 베셀의 보정과 함께), 이것은 덜 편향되지만, 여전히 편향됩니다.

Formula

표본 평균은 다음에 의해 제공됩니다:

편향된 표본 분산은 그런-다음 다음으로 쓰입니다:

그리고 불-편향된 표본 분산은 다음으로 쓰입니다:

Proof of correctness

Alternative 1

배경 사실로, 우리는 표준 편차의 정의와 기댓값의 선형성(linearity of expectation)에서 따르는 항등식 을 사용합니다.

매우 유용한 관찰은 임의의 분포에 대해, 분산이 가 해당 분포에서 독립 표본일 때 의 기댓값의 절반과 같다는 것입니다. 이 관찰을 증명하기 위해, 우리는 (그것들이 독립이라는 사실에서 따름) 및 기댓값의 선형성을 사용할 것입니다:

이제 그 관측이 입증되었으므로, 표본 모집단 에서 둘의 관측의 기대되는 제곱된 차이는 곱하기 원래 분포에서 두 관측의 기대되는 제곱된 차이와 같음을 보이기에 충분합니다. 이를 보기 위해, 우리는 u를 통해 를 선택할 때, v는 1에서 n까지 독립적이고 균등하게 선택된 정수, 시간의 분수 임을 주목하며 우리는 u = v를 가질 것이고 따라서 표본화된 제곱된 차이는 원래 분포와 독립적인 영입니다. 남아있는 시간의 , 의 값은 원래 분포에서 둘의 독립 관측 사이의 기대되는 제곱된 차이입니다. 그러므로, 표본의 기대되는 제곱된 차이를 로 나누거나, 동등하게 로 곱하는 것은 원래 기대되는 제곱된 차이의 추정의 불-편향된 추정을 제공합니다.

Alternative 2

분산에 대한 항등식(identity for variance)을 다시 사용하여,

따라서

그리고 정의에 의해,

x1x2, …, xn가 분산 σ2를 갖는 분포에서 무작위 표본이므로, 그것은 각 i = 1, 2, …, n에 대해 다음을 따름을 주목하십시오:

그리고 역시 다음을 따릅니다:

이것은 비아내메 공식(Bienaymé formula)에서 발생하는 비-상관된 변수의 분산의 속성입니다. 요구된 결과는 그런-다음 이들 두 공식을 대입함으로써 얻습니다:

Alternative 3

편향된 추정량과 실제 분산 사이의 예상된 불일치는 다음입니다:

따라서, 편향된 추정량의 기댓값은 다음일 것입니다:

따라서, 불-편향된 추정량은 다음에 의해 제공되어야 합니다:

Intuition

편향된 추정량에서, 참 평균 대신에 표본 평균을 사용함으로써, 각 xi − µx − µ만큼 과소평가하게 됩니다. 우리는 합의 분산이 (비-상관된 변수에 대해) 분산의 합임을 알고 있습니다. 따라서, 편향된 추정량과 참 분산 사이의 불일치를 찾기 위해, 우리는 단지 (x − µ)2의 기댓값을 찾으면 됩니다.

이것은 단지 σ2/n표본 평균의 분산입니다. 따라서, 우리는 편향된 추정량이 σ2σ2/n만큼 과소평가할 것으로 예상하고, 따라서 편향된 추정량 (1 − 1/n) × 불-편향된 추정량 = (n − 1)/n × 불-편향된 추정량입니다.

See also

Notes

  1. ^ Radziwill, Nicole M (2017). Statistics (the easier way) with R. ISBN 9780996916059. OCLC 1030532622.
  2. ^ W. J. Reichmann, W. J. (1961) Use and abuse of statistics, Methuen. Reprinted 1964–1970 by Pelican. Appendix 8.
  3. ^ Upton, G.; Cook, I. (2008) Oxford Dictionary of Statistics, OUP. ISBN 978-0-19-954145-4 (entry for "Variance (data)")
  4. ^ Rosenthal, Jeffrey S. (2015). "The Kids are Alright: Divide by n when estimating variance". Bulletin of the Institute of Mathematical Statistics. December 2015: 9.

External links