Jump to content

Statistical dispersion

This is a fully translated article. Click here for more information.
From DawoumWiki, the free Mathematics self-learning
Example of samples from two populations with the same mean but different dispersion. The blue population is much more dispersed than the red population.

통계학(statistics)에서, 산포도(dispersion) (역시 변동가능성(variability), 흩뜨림(scatter), 또는 퍼짐(spread)이라고 불림)는 분포(distribution)가 퍼지거나 압착되는 범위입니다.[1] 통계적 산포도의 측정의 공통 예제는 분산(variance), 표준 편차(standard deviation), 및 사분위수-사이 범위(interquartile range)입니다. 예를 들어, 집합에서 데이터의 분산이 클 때, 그 데이터가 넓게 흩어져 있습니다. 다른 한편으로, 분산이 작을 때, 집합에서 데이터가 뭉치게 됩니다.

산포도는 위치 또는 중심 경향(central tendency)과 대조적이고, 함께 그것들은 분포의 가장 많이 사용되는 속성입니다.

Measures

통계적 산포도의 측정은 만약 모든 데이터가 같으면 영이고 데이터가 더 다양해지면 증가하는 비-음의 실수(real number)입니다.

대부분의 산포도의 측정은 측정되려는 양(quantity)과 같은 단위(unit)를 가집니다. 다시 말해서, 만약 측정이 미터 또는 초에 있으면, 산포도의 측정도 마찬가지입니다. 산포도 ㅊㄱ정의 예제는 다음을 포함합니다:

이것들은 스케일 매개변수(scale parameter)의 추정량으로 (스케일 인수(scale factor)와 함께) 자주 사용되며, 그것의 능력에서 그것들은 스케일의 추정이라고 불립니다. 스케일의 강건한 측정(Robust measures of scale)은 몇 개의 이상값(outliers)에 의해 영향을 받지 않는 측정이고, IQR와 MAD를 포함합니다.

통계적 산포도의 위의 모든 측정은 위치 불변이고 스케일에서 선형이라는 유용한 속성을 가지고 있습니다. 이것은 만약 확률 변수(random variable) XSX의 산포도를 가지면 실수(real) ab에 대해 선형 변환(linear transformation) Y = aX + b가 산포도 SY = |a|SX를 가져야 함을 의미하며, 여기서 |a|는 a절댓값(absolute value), 즉, 선행하는 음수 부호 를 무시합니다.

다른 산포도의 측정은 무차원(dimensionless)입니다. 다시 말해서, 그것들은 심지어 변수 자체가 단위를 가지지 않으면 단위를 가지지 않습니다. 이것들은 다음을 포함합니다:

다른 산포도의 측정이 있습니다:

일부 산포도의 측정은 전문화된 목적을 가집니다. 앨런 분산(Allan variance)은 노이즈가 수렴을 방해하는 응용에 대해 사용될 수 있습니다.[2] 아다마르 분산(Hadamard variance)은 선형 주파수 표류 감도에 대응하기 위해 사용될 수 있습니다.[3]

카테고리적 변수(categorical variable)에 대해, 단일 숫자에 의해 산포도를 측정하는 것은 덜 공통적입니다; 질적 변동(qualitative variation)을 참조하십시오. 그렇게 하는 한 가지 측정은 이산 엔트로피(entropy)입니다.

Sources

물리적 과학(physical sciences)에서, 그러한 변동가능성은 무작위 측정 오류로 인해 발생할 수 있습니다: 기계 측정은 종종 완벽하게 정확한, 즉, 재현-가능한 것이 아니고, 측정된 결과를 해석하고 보고하는 데 추가적인 평가자-사이 변동가능성(inter-rater variability)이 있습니다. 우리는 측정되려는 양이 안정적이고, 측정 사이의 변동이 관측 오차(observational error)로 인한 것이라고 가정할 수 있습니다. 많은 숫자의 입자 시스템은 온도, 에너지, 및 밀도와 같은 거시적 양의 상대적으로 적은 숫자의 평균값에 의해 특성을 부여받습니다. 표준 편차는 하늘이 파란 이유를 포함하여 많은 물리적 현상을 설명하는 파동 이론에서 중요한 측정입니다.[4]

생물적 과학(biological sciences)에서, 측정되려는 양은 거의 변하지 않고 안정적이고, 관찰된 변동은 현상에 추가적으로 본질적(intrinsic)일 수 있습니다: 그것은 개체-사이 변동가능성(inter-individual variability), 즉, 서로 다른 모집단의 개별 구성원으로 인한 것일 수 있습니다. 역시, 그것은 개체-이내 변동가능성, 즉, 다른 시간이나 나머지 다른 조건에서 취해진 테스트에서 다른 하나와 같은 주제로 인한 것일 수 있습니다. 그러한 유형의 변동가능성은 역시 제조된 제품의 영역에서 볼 수 있습니다; 심지어 거기에서도, 세심한 과학자는 변동을 찾습니다.

경제학(economics), 금융(finance), 및 다른 분야에서, 회귀 분석(regression analysis)은 그것 각각이 양의 산포도를 가지는 하나 이상의 독립 변수(independent variable)를 사용하여 일반적으로 그것의 분산에 의해 측정되는 종속 변수(dependent variable)의 산포도를 설명하려고 시도합니다. 설명된 분산의 분수는 결정의 계수(coefficient of determination)라고 불립니다.

A partial ordering of dispersion

평균-보존하는 확산(mean-preserving spread) (MPS)은 하나의 확률 분포 A에서 또 다른 확률 분포 B로의 변경이며, 여기서 B는 변경되지 않은 평균 (기댓값)을 남기는 동안 A의 확률 밀도 함수의 하나 이상의 부분을 확산시킴으로써 형성됩니다.[5] 평균-보존하는 확산의 개념은 확률 분포의 그것들의 산포도에 따라 부분 순서화(partial ordering)를 제공합니다: 두 확률 분포 중 하나는 나머지 다른 것보다 더 많은 산포도를 갖는 것으로 순위-매겨지거나, 대안적으로 어느 쪽도 더 많은 산포도를 가지는 것으로 순위-매겨지지 않을 수 있습니다.

See also

References

  1. ^ NIST/SEMATECH e-Handbook of Statistical Methods. "1.3.6.4. Location and Scale Parameters". www.itl.nist.gov. U.S. Department of Commerce.
  2. ^ "Allan Variance -- Overview by David W. Allan". www.allanstime.com. Retrieved 2021-09-16.
  3. ^ "Hadamard Variance". www.wriley.com. Retrieved 2021-09-16.
  4. ^ McQuarrie, Donald A. (1976). Statistical Mechanics. NY: Harper & Row. ISBN 0-06-044366-9.
  5. ^ Rothschild, Michael; Stiglitz, Joseph (1970). "Increasing risk I: A definition". Journal of Economic Theory. 2 (3): 225–243. doi:10.1016/0022-0531(70)90038-4.