Jump to content

Central tendency

This is a fully translated article. Click here for more information.
From DawoumWiki, the free Mathematics self-learning

통계학(statistics)에서, 중심 경향(central tendency) (또는 중심 경향의 측정(measure of central tendency))은 확률 분포(probability distribution)에 대해 중심 또는 전형적 값입니다.[1]

구어체로, 중심 경향의 측정은 종종 평균(averages)이라고 불립니다. 용어 중심 경향은 1920년대 후반부터 시작됩니다.[2]

중심 경향의 가장 공통적인 측정은 산술 평균(arithmetic mean), 중앙값(median), 및 최빈값(mode)입니다. 중간 경향은 값의 유한 집합 또는 정규 분포(normal distribution)와 같은, 이론적 분포에 대해 계산될 수 있습니다. 때때로 저자는 중심 경향을 "어떤 중심 값 주위로 모여드는 양적 데이터(data)의 경향"을 표시하기 위해 사용합니다.[2][3]

분포의 중심 경향은 전형적으로 그것의 산포도(dispersion) 또는 변동가능성(variability)과 대조됩니다; 산포도 및 중심 경향은 종종 분포의 속성에 대해 특성을 부여합니다. 분석가들은 데이터가 그것의 산포도에 기초하여 강한 또는 약한 중심 경향을 가지고 있는지를 판단할 수 있습니다.

Measures

다음은 일-차원 데이터에 적용될 수 있습니다. 상황에 따라, 중심 경향을 계산하기 전에 데이터를 변환하는 것이 적절할 수 있습니다. 예제는 값을 제곱하거나 로그를 취하는 것입니다. 변환이 적절한지 여부와 그것이 변환되어야 하는 것은, 분석 중인 데이터에 크게 좌우됩니다.

산술 평균(Arithmetic mean) 또는 간단히, 평균
데이터 집합에서 모든 측정값의 합을 관측의 숫자로 나눈 값.
중앙값(Median)
데이터 집합의 상위 절반과 하위 절반을 구분하는 중간 값. 중앙값과 최빈값은 값이 서로 상대적으로 순위가 매겨지지만 절대적으로 측정되지 않는 순서-숫자 데이터(ordinal data)에 대해 사용될 수 있는 유일한 중심 경향의 측정입니다.
최빈값(Mode)
데이터 집합에서 가장 빈번한 값. 이것은 순전하게 질적 카테고리 할당을 가지는 명목 데이터(nominal data)로 사용될 수 있는 유일한 중심 경향의 측정입니다.
기하 평균(Geometric mean)
이것들의 n 개가 있는 데이터 값 곱의 n번째 근(nth root). 이 측정은 오직 엄격하게 양의 스케일로 절대적으로 측정된 데이터에 대해 유효합니다.
조화 평균(Harmonic mean)
데이터 값의 역수의 산술 평균의 역수(reciprocal). 이 측정은 역시 오직 엄격하게 양의 스케일로 절대적으로 측정된 데이터에 대해 유효합니다.
가중된 산술 평균(Weighted arithmetic mean)
특정 데이터 원소에 가중치를 통합하는 산술 평균.
잘린 평균(Truncated mean) 또는 정돈된 평균(trimmed mean)
최고 및 최저 데이터 값의 특정 숫자 또는 비율이 버려진 후 데이터 값의 산술 평균.
사분위수-사이 평균(Interquartile mean)
사분위수-사이 범위(interquartile range) 내의 데이터를 기반으로 한 잘린 평균.
중간범위(Midrange)
데이터 집합의 최댓값과 최솟값의 산술 평균.
중간경첩(Midhinge)
첫 번째와 세 번째 사분위수(quartile)의 산술 평균.
셋-평균(Trimean)
중앙값과 둘의 사분위수의 가중된 산술 평균.
버림-대체된 평균(Winsorized mean)
극단 값(extreme values)이 중앙값에 더 가까운 값으로 대체되는 산술 평균.

위의 어떤 것도 다-차원 데이터의 각 차원에 적용될 수 있지만, 그 결과는 다-차원 공간의 회전에 불변하지 않을 수 있습니다. 게다가, 다음이 있습니다:

기하 평균(Geometric median)
데이터 점까지의 거리의 합을 최소화합니다. 이것은 일-차원 데이터에 적용할 때 중앙값과 같지만, 각 차원의 중앙값을 독립적으로 취하는 것과 같지는 않습니다. 그것은 다른 차원의 다른 다시-스케일에 대한 불변이 아닙니다.
이차 평균(Quadratic mean) (종종 제곱평균제곱근(root mean square)으로 알려져 있음)
공학에서는 유용하지만, 통계에서는 자주 사용되지 않습니다. 이것은 분포가 음의 값을 포함할 때 분포의 중심의 좋은 지표가 아니기 때문입니다.
단순 깊이(Simplicial depth)
주어진 분포에서 꼭짓점을 갖는 무작위로 선택된 심플렉스(simplex)가 주어진 중심을 포함할 확률입니다.
터키 중앙값(Tukey median)
그것을 포함하는 모든 각 절반공간이 역시 많은 표본 점을 포함하는 속성을 갖는 점.

Solutions to variational problems

중심 경향의 몇 가지 측정은 변화의 문제를 해결하는 것으로 특징지을 수 있습니다. 변화의 계산법(calculus of variations)의 의미에서, 즉, 중심에서 변화를 최소화하는 것입니다. 즉, 통계적 산포도(statistical dispersion)의 측정이 주어지면, 변화를 최소화하는 중심 경향의 측정을 요구합니다: 즉, 중심으로부터의 변화가 모든 중심의 선택 중에서 최소임을 만족합니다. 속담에서, "산포도가 위치보다 우선합니다". 이들 측정은 처음에는 일 차원에서 정의되지만, 여러 차원으로 일반화될 수 있습니다. 이 중심은 고유할 수도 있고 고유하지 않을 수도 있습니다. Lp 공간의 의미에서, 대응물은 다음입니다:

Lp 산포도 중심 경향
L0 변화 비율 최빈값(mode)[a]
L1 평균 절대 편차 중앙값 (기하 중앙값)[b]
L2 표준 편차 평균 (도형중심)[c]
L 최대 편차 중간범위[d]

결합된 함수는 p-노름: 각각 0-"노름", 1-노름, 2-노름, 및 ∞-노름이라고 불립니다. L0 공간에 해당하는 함수는 노름이 아니고, 따라서 종종 인용부호 안에: 예를 들어 0-"노름"와 같이 참조됩니다.

방정식에서, 주어진 (유한) 데이터 집합 X에 대해, 벡터 x = (x1,…,xn)로 생각되는, 점 c에 대한 산포도는 x에서 (점 n의 숫자에 의해 정규화된) p-노름에서 상수 벡터 c = (c,…,c)로의 "거리"입니다:

p = 0p = ∞에 대해, 이들 함수는 각각 p → 0p → ∞일 때 극한을 취함으로써 정의됩니다. p = 0에 대해, 극한하는 값은 00 = 0이고 a0 = 0 또는 a ≠ 0이므로, 그 차이는 단순히 상등이 되므로, 0-노름은 같지 않은 점의 숫자를 셉니다. p = ∞에 대해, 가장 큰 숫자가 지배적이고, 따라서 ∞-노름은 최대 차이입니다.

Uniqueness

평균 (L2 중심)과 중간범위 (L 중심)은 (그것들이 존재할 때) 고유하지만, 중앙값 (L1 중심)과 최빈값 (L0 중심)은 일반적으로 고유하지 않습니다. 이것은 결합된 함수 (강제 함수(coercive function))의 볼록성(convexity)의 관점에서 이해될 수 있습니다.

2-노름과 ∞-노름은 엄격하게 볼록(strictly convex)이고, 따라서 (볼록 최적화에 의해) 최소화기는 (만약 그것이 존재하면) 고유하고, 경계진 분포에 대해 존재합니다. 따라서 평균에 대한 표준 편차는 임의의 다른 점에 대한 표준 편차보다 낮고, 중간범위에 대한 최대 편차는 임의의 다른 점에 대한 최대 편차보다 낮습니다.

1-노름은 엄격하게 볼록이 아니지만, 엄격한 볼록성은 최소화기의 고유성을 보장하기 위해 필요됩니다. 이에 따라, (최소화의 의미에서) 중앙값은 일반적으로 고유하지 않고, 실제로 이산 분포의 두 중심 점 사이의 임의의 점은 평균 절대 편차를 최소화합니다.

0-"노름"은 볼록이 아닙니다 (따라서 노름이 아닙니다). 이에 따라, 최빈값은 고유하지 않습니다 – 예를 들어, 균등 분포에서, 임의의 점은 최빈값입니다.

Clustering

단일 중심 점 대신에, 우리는 이들 점의 변화가 최소화됨을 만족하는 여러 점을 요청할 수 있습니다. 이것은 데이터 집합에서 각 점이 가장 가까운 "중심"으로 클러스터링되는 클러스터 해석(cluster analysis)으로 이어집니다. 가장 공통적으로, 2-노름을 사용하는 것이 평균을 k-평균 클러스터링으로 일반화하고, 반면에 1-노름을 사용하는 것은 (기하) 중앙값을 k-중앙값 클러스터링으로 일반화합니다. 0-노름을 사용하는 것은 최빈값 (가장 공통적인 값)을 가장 공통적인 k 값을 중심으로 사용하도록 일반화합니다.

단일-중심 통계와 달리, 이 여러-중심 클러스터링은 일반적으로 닫힌-형식 표현(closed-form expression)에서 계산될 수 없고, 대신에 반복 방법(iterative method)에 의해 계산되거나 근사화되어야 합니다; 한 가지 일반적인 접근 방식은 기대–최대화 알고리듬(expectation–maximization algorithm)입니다.

Information geometry

변화를 최소화하는 "중심"의 개념은 정보 기하학(information geometry)에서 데이터 집합으로부터의 발산(divergence) (일반화된 거리)을 최소화하는 분포로 일반화될 수 있습니다. 가장 공통적인 경우는 최대 가능도 추정(maximum likelihood estimation)이며, 여기서 최대 가능도 추정 (MLE)은 가능도를 최대화 (예상된 놀람(surprisal)을 최소화함)하는 것으로, 변화를 측정하기 위해 엔트로피(entropy)를 사용함으로써 기하학적으로 해석될 수 있습니다: MLE는 교차 엔트로피(cross entropy) (동등하게, 상대 엔트로피(relative entropy), 쿨백–라이블러 발산)을 최소화합니다.

이것의 간단한 예제는 명목 데이터의 중심에 대한 것입니다: 모드 (유일한 단일-값 "중심")를 사용하는 대신에, 우리는 종종 "중심"으로 경험적 측정(empirical measure) (도수 분포(frequency distribution)표본 크기(sample size)로 나눈 값)을 사용합니다. 예를 들어, 이진 데이터(binary data), 말하자면 머리 또는 꼬리가 주어지면, 만약 데이터 집합이 2 머리와 1 꼬리로 구성되면, 최빈값은 "머리"이지만, 경험적 측정은 2/3 머리, 1/3 꼬리이며, 데이터 집합에서 교차 엔트로피 (전체 놀람)을 최소화합니다. 이 관점은 역시 최소 제곱(least squares)이 해로부터의 거리를 최소화하는 해을 찾는 회귀 분석(regression analysis)에서 사용되고, 로지스틱 회귀(logistic regression)와 유사하게, 최대 가능도 추정은 놀람 (정보 거리)을 최소화합니다.

Relationships between the mean, median and mode

단일-봉우리 분포(unimodal distribution)에 대해, 다음 경계가 알려져 있고 뾰족합니다:[4]

여기서 μ는 평균, ν는 중앙값, θ는 최빈값이고, σ는 표준 편차입니다.

모든 각 분포에 대해,[5][6]

See also

Notes

  1. ^ Unlike the other measures, the mode does not require any geometry on the set, and thus applies equally in one dimension, multiple dimensions, or even for categorical variables.
  2. ^ The median is only defined in one dimension; the geometric median is a multidimensional generalization.
  3. ^ The mean can be defined identically for vectors in multiple dimensions as for scalars in one dimension; the multidimensional form is often called the centroid.
  4. ^ In multiple dimensions, the midrange can be define coordinate-wise (take the midrange of each coordinate), though this is not common.

References

  1. ^ Weisberg H.F (1992) Central Tendency and Variability, Sage University Paper Series on Quantitative Applications in the Social Sciences, ISBN 0-8039-4007-6 p.2
  2. ^ a b Upton, G.; Cook, I. (2008) Oxford Dictionary of Statistics, OUP ISBN 978-0-19-954145-4 (entry for "central tendency")
  3. ^ Dodge, Y. (2003) The Oxford Dictionary of Statistical Terms, OUP for International Statistical Institute. ISBN 0-19-920613-9 (entry for "central tendency")
  4. ^ Johnson NL, Rogers CA (1951) "The moment problem for unimodal distributions". Annals of Mathematical Statistics, 22 (3) 433–439
  5. ^ Hotelling H, Solomons LM (1932) The limits of a measure of skewness. Annals Math Stat 3, 141–114
  6. ^ Garver (1932) Concerning the limits of a mesuare of skewness. Ann Math Stats 3(4) 141–142