Estimation theory

추정 이론은 무작위 구성 요소를 가지는 측정된 경험적 데이터를 기반으로 매개변수(parameters)의 값을 추정하는 것을 다루는 통계학(statistics)의 한 가지입니다. 그 매개변수는 그것들의 값이 측정된 데이터의 분포에 영향을 미치는 그러한 방법에서 놓여있는 물리적 설정을 설명합니다. 추정량(estimator)은 측정값을 사용하여 알려지지 않은 매개변수를 근사화하려고 시도합니다. 추정 이론에서, 두 가지 접근 방식이 일반적으로 고려됩니다:^[1]

확률론적 접근 방식 (이 기사에서 설명)은 측정된 데이터가 관심의 매개변수에 의존하는 확률 분포(probability distribution)와 무작위적이라고 가정합니다.
집합-구성원 접근 방식(set-membership approach)은 측정된 데이터 벡터가 매개변수 벡터에 의존하는 집합에 속한다고 가정합니다.

Examples

예를 들어, 특정 후보자에게 투표할 유권자 모집단의 비율을 추정하는 것을 희망합니다. 해당 비율은 구하는 매개변수입니다; 추정은 유권자의 작은 무작위 표본을 기반으로 합니다. 대안적으로, 나이와 같은 일부 인구 통계학적 특성을 기반으로 특정 후보에 대해 유권자 투표 확률을 추정하는 것을 희망합니다.

또는, 예를 들어, 레이더(radar)에서 목표는 전송된 펄스의 수신된 에코의 두-방향 전송 타이밍을 분석함으로써 물체 (비행기, 보트, 등)의 범위를 찾는 것입니다. 반사된 펄스는 불가피하게 전기적 노이즈에 삽입되기 때문에, 그것들의 측정된 값이 무작위로 분포하므로, 전송 시간은 추정되어야 합니다.

또 다른 예제로서, 전기 통신 이론에서, 관심의 매개변수에 관한 정보를 포함하는 측정은 종종 잡음(noisy) 신호(signal)와 결합됩니다.

Basics

주어진 모델에 대해, 몇 가지 통계적 "재료(ingredients)"가 필요되므로 추정기가 구현될 수 있습니다. 첫 번째는 통계적 표본(statistical sample)입니다 – 그것은 크기 N의 확률 벡터(random vector) (RV)에서 가져온 데이터 접의 집합입니다. 벡터(vector)에 넣으면,

\mathbf {x} ={\begin{bmatrix}x[0]\\x[1]\\\vdots \\x[N-1]\end{bmatrix}}.

두 번째로, M 매개변수가 있습니다:

\mathbf {\theta } ={\begin{bmatrix}\theta _{1}\\\theta _{2}\\\vdots \\\theta _{M}\end{bmatrix}},

그것은 값은 추정되려고 합니다. 세 번째로, 데이트를 생성했었던 놓여있는 분포의 연속 확률 밀도 함수(probability density function) (pdf) 또는 그것의 이산 짝, 확률 질량 함수(probability mass function) (pmf)가 매개변수 값에 대한 조건부로 명시되어야 합니다:

p(\mathbf {x} |\mathbf {\theta } ).\,

매개변수 자체에 대해 확률 분포 (예를 들어, 베이즈 통계(Bayesian statistics))를 가지는 것도 가능합니다 (예: 베이지안 통계). 그런-다음 베이즈 확률(Bayesian probability)을 정의할 필요가 있습니다:

\pi (\mathbf {\theta } ).\,

모델이 형성된 후, 그 목표는 매개변수를 추정하는 것이며, 추정은 공통적으로 ${\hat {\mathbf {\theta } }}$ 로 표시되며, 여기서 "모자(hat)"는 추정을 나타냅니다.

하나의 일반적인 추정량은 최적화의 기초로 추정된 매개변수와 매개변수의 실제 값 사이의 오차를 활용하는 최소 평균 제곱 오차(minimum mean squared error) (MMSE) 추정량입니다:

\mathbf {e} ={\hat {\mathbf {\theta } }}-\mathbf {\theta } .

이 오차 항은 그런-다음 제곱되고 이 제곱된 값의 기댓값(expected value)은 MMSE 추정량에 대해 최소화됩니다.

Estimators

공통적으로 사용되는 추정량 (추정 방법)과 그것들과 관련된 주제는 다음을 포함합니다:

최대 가능도(Maximum likelihood) 추정량
베이즈 추정량(Bayes estimator)
모멘트의 방법(Method of moments) 추정량
크라메르–라오 경계(Cramér–Rao bound)
최소 제곱(Least squares)
최소 평균 제곱 오차(Minimum mean squared error) (MMSE), 역시 베이즈 최소 제곱 오차 (BLSE)로 알려져 있습니다.
최대 이후(Maximum a posteriori) (MAP)
최소 분산 불편향 추정량(Minimum variance unbiased estimator) (MVUE)
비선형 시스템 식별(Nonlinear system identification)
최상 선형 불편향 추정량(Best linear unbiased estimator) (BLUE)
불편향 추정량 – 추정량 편향(estimator bias)을 참조하십시오.
입자 필터(Particle filter)
마르코프 체인 몬테카를로(Markov chain Monte Carlo) (MCMC)
칼만 필터(Kalman filter), 및 그것의 다양한 파생물.
위너 필터(Wiener filter)

Examples

Unknown constant in additive white Gaussian noise

영 평균(mean)과 알려진 분산(variance) $\sigma ^{2}$ (즉, ${\mathcal {N}}(0,\sigma ^{2})$ )을 갖는 더해진 백색 가우스 잡음(additive white Gaussian noise) (AWGN) $w[n]$ 을 갖는 미지수 상수 $A$ 로 구성되는 $N$ 독립(independent) 표본(samples)의 수신된 이산 신호(discrete signal) $x[n]$ 을 생각해 보십시오. 분산이 알려져 있으므로, 그때에 유일한 미지수 매개변수는 $A$ 입니다.

신호에 대해 모델은 그런-다음 다음입니다:

x[n]=A+w[n]\quad n=0,1,\dots ,N-1

매개변수 $A$ 에 대해 (많은 것 중) 둘의 가능한 추정량은 다음입니다:

${\hat {A}}_{1}=x[0]$
${\hat {A}}_{2}={\frac {1}{N}}\sum _{n=0}^{N-1}x[n]$ 이것은 표본 평균(sample mean)입니다.

이들 추정량의 둘 다는 $A$ 의 평균(mean)을 가지며, 이것은 각 추정량의 기댓값(expected value)을 취하는 것을 통해 표시될 수 있습니다:

\mathrm {E} \left[{\hat {A}}_{1}\right]=\mathrm {E} \left[x[0]\right]=A

및

\mathrm {E} \left[{\hat {A}}_{2}\right]=\mathrm {E} \left[{\frac {1}{N}}\sum _{n=0}^{N-1}x[n]\right]={\frac {1}{N}}\left[\sum _{n=0}^{N-1}\mathrm {E} \left[x[n]\right]\right]={\frac {1}{N}}\left[NA\right]=A

이 점에서, 이들 두 추정량은 같은 것을 수행하는 것으로 보일 것입니다. 어쨌든, 그들 사이의 차이는 분산을 비교할 때 분명해집니다.

\mathrm {var} \left({\hat {A}}_{1}\right)=\mathrm {var} \left(x[0]\right)=\sigma ^{2}

및

\mathrm {var} \left({\hat {A}}_{2}\right)=\mathrm {var} \left({\frac {1}{N}}\sum _{n=0}^{N-1}x[n]\right){\overset {\text{independence}}{=}}{\frac {1}{N^{2}}}\left[\sum _{n=0}^{N-1}\mathrm {var} (x[n])\right]={\frac {1}{N^{2}}}\left[N\sigma ^{2}\right]={\frac {\sigma ^{2}}{N}}

표본 평균은 그것의 분산이 모든 각 N > 1에 대해 더 낮기 때문에 더 나은 추정량인 것 같습니다.

Maximum likelihood

최대 가능도(maximum likelihood) 추정량을 사용하여 예제를 계속하면, 하나의 표본 $w[n]$ 에 대해 잡음의 확률 밀도 함수(probability density function) (pdf)는 다음입니다:

p(w[n])={\frac {1}{\sigma {\sqrt {2\pi }}}}\exp \left(-{\frac {1}{2\sigma ^{2}}}w[n]^{2}\right)

그리고 $x[n]$ 의 확률은 다음이 됩니다 ( $x[n]$ 은 ${\mathcal {N}}(A,\sigma ^{2})$ 로 생각될 수 있습니다)

p(x[n];A)={\frac {1}{\sigma {\sqrt {2\pi }}}}\exp \left(-{\frac {1}{2\sigma ^{2}}}(x[n]-A)^{2}\right)

독립(independence)에 의해, $\mathbf {x}$ 의 확률은 다음이 됩니다:

p(\mathbf {x} ;A)=\prod _{n=0}^{N-1}p(x[n];A)={\frac {1}{\left(\sigma {\sqrt {2\pi }}\right)^{N}}}\exp \left(-{\frac {1}{2\sigma ^{2}}}\sum _{n=0}^{N-1}(x[n]-A)^{2}\right)

pdf의 자연 로그(natural logarithm)를 취하고

\ln p(\mathbf {x} ;A)=-N\ln \left(\sigma {\sqrt {2\pi }}\right)-{\frac {1}{2\sigma ^{2}}}\sum _{n=0}^{N-1}(x[n]-A)^{2}

최대 가능도 추정량은 다음입니다:

{\hat {A}}=\arg \max \ln p(\mathbf {x} ;A)

로그-가능도 함수의 일차 도함수(derivative)를 취하고

{\frac {\partial }{\partial A}}\ln p(\mathbf {x} ;A)={\frac {1}{\sigma ^{2}}}\left[\sum _{n=0}^{N-1}(x[n]-A)\right]={\frac {1}{\sigma ^{2}}}\left[\sum _{n=0}^{N-1}x[n]-NA\right]

그것을 영으로 설정하면

0={\frac {1}{\sigma ^{2}}}\left[\sum _{n=0}^{N-1}x[n]-NA\right]=\sum _{n=0}^{N-1}x[n]-NA

이것은 최대 가능도 추정량을 초래합니다:

{\hat {A}}={\frac {1}{N}}\sum _{n=0}^{N-1}x[n]

이것은 단순히 표본 평균입니다. 이 예제에서, 표본 평균은 AWGN에 의해 손상된 고정된, 미지수 매개변수의 $N$ 표본에 대해 최대 가능도 추정량이라는 것이 밝혀졌습니다.

Cramér–Rao lower bound

표본 평균 추정량의 크라메르–라오 아래쪽 경계(Cramér–Rao lower bound) (CRLB)를 찾기 위해, 먼저 피셔 정보(Fisher information) 숫자를 찾아야 합니다:

{\mathcal {I}}(A)=\mathrm {E} \left(\left[{\frac {\partial }{\partial A}}\ln p(\mathbf {x} ;A)\right]^{2}\right)=-\mathrm {E} \left[{\frac {\partial ^{2}}{\partial A^{2}}}\ln p(\mathbf {x} ;A)\right]

그리고 위에서 복사합니다:

{\frac {\partial }{\partial A}}\ln p(\mathbf {x} ;A)={\frac {1}{\sigma ^{2}}}\left[\sum _{n=0}^{N-1}x[n]-NA\right]

이차 도함수를 취하면

{\frac {\partial ^{2}}{\partial A^{2}}}\ln p(\mathbf {x} ;A)={\frac {1}{\sigma ^{2}}}(-N)={\frac {-N}{\sigma ^{2}}}

그리고 음의 기댓값을 찾는 것은 그것이 이제 결정론적 상수이기 때문에 자명합니다:

-\mathrm {E} \left[{\frac {\partial ^{2}}{\partial A^{2}}}\ln p(\mathbf {x} ;A)\right]={\frac {N}{\sigma ^{2}}}

마침내, 피셔 정보를 다음에 넣으면

\mathrm {var} \left({\hat {A}}\right)\geq {\frac {1}{\mathcal {I}}}

다음을 초래합니다:

\mathrm {var} \left({\hat {A}}\right)\geq {\frac {\sigma ^{2}}{N}}

이것을 (이전에 결정된) 표본 평균의 분산과 비교하면 표본 평균이 $N$ 과 $A$ 의 모든 값에 대해 크라메르–라오 아래쪽 경계와 같다는 것을 알 수 있습니다. 다시 말해서, 표본 평균은 (필수적으로 고유한) 효율적 추정량(efficient estimator)이고, 따라서 역시 최대 가능도(maximum likelihood) 추정량일 뿐만 아니라 최소 분산 불편향 추정량(minimum variance unbiased estimator) (MVUE)이기도 합니다.

Maximum of a uniform distribution

추정의 가장 간단한 비-자명한 예제 중 하나는 균등 분포의 최대의 추정입니다. 그것은 실습 교실 연습으로 사용되고 추정 이론의 기본 원리를 설명하기 위해 사용됩니다. 더욱이, 단일 표본을 기반으로 추정의 경우에서, 그것은 최대 가능도(maximum likelihood) 추정량과 가능도 함수(likelihood functions)의 사용에서 철학적 문제와 가능한 오해를 시연합니다.

미지수 최댓값을 갖는 이산 균등 분포(discrete uniform distribution) $1,2,\dots ,N$ 가 주어지면, 최댓값에 대해 UMVU 추정량은 다음에 의해 제공됩니다:

{\frac {k+1}{k}}m-1=m+{\frac {m}{k}}-1

여기서 m은 표본 평균(sample mean)이고 k는 대체없이 표본화하는 표본 크기(sample size)입니다.^[2]^[3] 이 문제는 제 2차 세계 대전 동안 독일 탱크 생산량의 추정을 위해 최대 추정의 응용으로 인해 공통적으로 독일 탱크 문제(German tank problem)로 알려져 있습니다.

그 공식은 직관적으로 다음과 같이 이해될 수 있습니다:

"표본 최댓값 더하기 표본에서 관측 사이의 평균 간격",

그 간격은 모집단 최댓값에 대해 추정량으로 표본 최댓값의 음의 편향을 보상하기 위해 더합니다.^{[note 1]}

이것은 다음의 분산을 가집니다:^[2]

{\frac {1}{k}}{\frac {(N-k)(N+1)}{(k+2)}}\approx {\frac {N^{2}}{k^{2}}}{\text{ for small samples }}k\ll N

따라서 근사적으로 $N/k$ 의 표준 편차, 표본 사이의 간격의 (모집단) 평균 크기; 위의 ${\frac {m}{k}}$ 와 비교하십시오. 이것은 최대 간격 추정(maximum spacing estimation)의 매우 간단한 경우로 보일 수 있습니다.

표본 최댓값은 모집단 최댓값에 대해 최대 가능도(maximum likelihood) 추정량이지만, 위에서 논의한 바와 같이 그것은 편향되어 있습니다.

Applications

많은 분야는 추정 이론의 사용을 요구합니다. 이들 분야 중 일부는 다음을 포함합니다:

측정된 데이터는 잡음(noise) 또는 불확실성의 영향을 받기 쉽고 통계적 확률(probability)을 통해 데이터에서 최대한 많은 정보를 추출하기 위한 최적의 해결책을 찾습니다.

Notes

^ The sample maximum is never more than the population maximum, but can be less, hence it is a biased estimator: it will tend to underestimate the population maximum.

References

Citations

^ Walter, E.; Pronzato, L. (1997). Identification of Parametric Models from Experimental Data. London, England: Springer-Verlag.
^ ^a ^b Johnson, Roger (1994), "Estimating the Size of a Population", Teaching Statistics, 16 (2 (Summer)): 50–52, doi:10.1111/j.1467-9639.1994.tb00688.x
^ Johnson, Roger (2006), "Estimating the Size of a Population", Getting the Best from Teaching Statistics, archived from the original (PDF) on November 20, 2008

Sources

Theory of Point Estimation by E.L. Lehmann and G. Casella. (ISBN 0387985026)
Systems Cost Engineering by Dale Shermon. (ISBN 978-0-566-08861-2)
Mathematical Statistics and Data Analysis by John Rice. (ISBN 0-534-209343)
Fundamentals of Statistical Signal Processing: Estimation Theory by Steven M. Kay (ISBN 0-13-345711-7)
An Introduction to Signal Detection and Estimation by H. Vincent Poor (ISBN 0-387-94173-8)
Detection, Estimation, and Modulation Theory, Part 1 by Harry L. Van Trees (ISBN 0-471-09517-6; website)
Optimal State Estimation: Kalman, H-infinity, and Nonlinear Approaches by Dan Simon website
Ali H. Sayed, Adaptive Filters, Wiley, NJ, 2008, ISBN 978-0-470-25388-5.
Ali H. Sayed, Fundamentals of Adaptive Filtering, Wiley, NJ, 2003, ISBN 0-471-46126-1.
Thomas Kailath, Ali H. Sayed, and Babak Hassibi, Linear Estimation, Prentice-Hall, NJ, 2000, ISBN 978-0-13-022464-4.
Babak Hassibi, Ali H. Sayed, and Thomas Kailath, Indefinite Quadratic Estimation and Control: A Unified Approach to H² and H^$\infty$ Theories, Society for Industrial & Applied Mathematics (SIAM), PA, 1999, ISBN 978-0-89871-411-1.
V.G.Voinov, M.S.Nikulin, "Unbiased estimators and their applications. Vol.1: Univariate case", Kluwer Academic Publishers, 1993, ISBN 0-7923-2382-3.
V.G.Voinov, M.S.Nikulin, "Unbiased estimators and their applications. Vol.2: Multivariate case", Kluwer Academic Publishers, 1996, ISBN 0-7923-3939-8.

External links

Media related to Estimation theory at Wikimedia Commons

[4] The sample maximum is never more than the population maximum, but can be less, hence it is a biased estimator: it will tend to underestimate the population maximum.

[1] Walter, E.; Pronzato, L. (1997). Identification of Parametric Models from Experimental Data. London, England: Springer-Verlag.

[Johnson-2] Johnson, Roger (1994), "Estimating the Size of a Population", Teaching Statistics, 16 (2 (Summer)): 50–52, doi:10.1111/j.1467-9639.1994.tb00688.x

[Johnson2-3] Johnson, Roger (2006), "Estimating the Size of a Population", Getting the Best from Teaching Statistics, archived from the original (PDF) on November 20, 2008

[1]

[2]

[3]

[note 1]

Examples

Basics

Estimators

Examples

Unknown constant in additive white Gaussian noise

Maximum likelihood

Cramér–Rao lower bound

Maximum of a uniform distribution

Applications

See also

Notes

References

Citations

Sources

External links