Expected value

확률 이론(probability theory)에서, 확률 변수의 기댓값(expected value:예상값)은 그의 확률 분포의 핵심 관점입니다. 이산 확률 변수(discrete random variable)의 기댓값은 모든 그의 가능한 값의 확률-가중된 평균(probability-weighted average)입니다. 달리 말해서, 확률 변수로 가정될 수 있는 각 가능한 값이 발생의 그의 확률을 곱해지고, 결과 곱은 기댓값을 생성하기 위해 합해집니다. 직관적으로, 확률 변수의 기댓값은 확률 변수의 큰 숫자의 독립적인 실현의 평균을 나타냅니다. 기댓값은 기대(expectation), 수학적 기대(mathematical expectation), 평균(mean), 또는 첫 번째 모멘트(first moment)로 역시 알려져 있습니다.

기댓값은, 확률 밀도(probability density)에 관한 변수의 적분(integral)이 합을 대체한다는 점을 제외하고는, 절대적 연속(absolutely continuous) 확률 변수에 역시 적용됩니다. 공식적인 정의는 이 두 가지가 모두 포함되고 이산도 아니고 절대적 연속도 아닌 분포에 대해 역시 동작합니다; 확률 변수의 기댓값은 그의 확률 측정에 관한 확률 변수의 적분입니다.^[1]^[2]

History

기댓값의 아이디어는 17세기 중반에 소위 득점의 문제(problem of points)에 대한 연구에서 비롯된 것으로, 게임이 적절히 완료되기 전에 게임을 끝내야 하는 상황에서 두 명의 참가자 사이에 공정한 방법으로 상금을 나누기 위한 노력입니다.^[3] 이 문제는 수세기에 걸쳐 논쟁되어 왔었고, 1654년 프랑스 작가이자 아마추어 수학자 슈발리에 드 메레(Chevalier de Méré)가 블레즈 파스칼(Blaise Pascal)에 주장했을 때까지, 수년에 걸쳐 많은 상충되는 제안과 해결책이 제안되어 왔습니다. 메레는 이 문제는 해결될 수 없고 그것이 실제 세계에 대한 응용이 되었을 때 수학이 얼마나 결점이 있는지를 보여 주었다고 주장했습니다. 수학자였던, 파스칼은 화가 났었고 문제를 한 번에 해결하기로 결심했습니다. 그는 피에르 드 페르마(Pierre de Fermat)에게, 지금 유명한 편지의 시리즈에서 그 문제를 논의하기 시작했습니다. 곧 그들은 둘 다 독립적으로 해결책에 도달했습니다. 그들은 다른 계산 방식으로 문제를 해결했지만 그들의 결과는 동일했는데 왜냐하면 그들의 계산은 같은 기본 원칙을 기초로 했기 때문입니다. 원리는 미래 이익의 값은 그것을 얻는 기회에 정비례해야 한다는 것입니다. 이 원칙은 그들의 둘 다에게 자연스럽게 왔던 것으로 보입니다. 그들은 본질적으로 같은 해결책을 찾았다는 사실에 매우 기뻐했고 이것은 결국 그들이 결정적으로 문제를 해결했다고 확신하게 했습니다; 어쨌든, 그들은 발견을 발표하지 않았습니다. 그들은 파리에 있는 공동의 과학 친구들의 작은 집단에 오직 알려주었습니다.^[4]

3년 후, 1657년에, 방금 파리를 방문했었던, 네덜란드의 수학자 크리스티안 하위헌스(Christiaan Huygens)는 확률 이론에 관한 논문 "De ratiociniis in ludo aleæ"을 출판했습니다 (Huygens (1657)를 참조하십시오). 이 책에서 그는 득점의 문제를 고려했고 파스칼과 페르마의 해와 같은 원리에 기초한 해를 제시했습니다. 하위헌스는 원래 문제보다 더 복잡한 상황 (예를 들어, 3명이상의 참가자)에서 기댓값을 계산하는 방법에 대해 규칙을 더함으로써 기댓값의 개념을 확장했습니다. 이런 의미에서 이 책은 확률 이론(theory of probability)의 기초를 세우는 첫 번째 성공적인 시도로 보일 수 있습니다.

그의 책의 서문에서, 하위헌스는 다음과 같이 썼습니다:

프랑스 최고의 수학자 중 일부는 언젠가부터 이런 종류의 미적분학에 참여해 왔으므로 아무도 나에게 최초의 발명의 명예를 부여해서는 안된다는 것을 역시 밝혀둡니다. 이것은 나에게 속하지 않습니다. 그러나 이들 학자는, 비록 그들이 해결하기 어려운 많은 질문을 제안함으로써 서로를 시험해 보았을지라도, 그들의 방법을 숨겼습니다. 나는 그러므로 조사를 계속해 왔고 내 자신을 요소부터 시작하여 이 문제에 깊이 빠져들었고, 내가 같은 원리에서 출발했는지 조차 확인하는 것이 이런 이유로 불가능했습니다. 그러나 마침내 나는 많은 경우에 나의 답이 그들의 답과 다르지 않다는 것을 발견했습니다.
— Edwards (2002)

따라서, 하위헌스는 1655년 프랑스를 방문하는 동안 드 메레의 문제(de Méré's Problem)에 대해 알게 되었습니다; 나중에 1656년에 카르카비와의 서신에서 그는 그의 방법이 파스칼의 그것과 본질적으로 같다는 것을 알게 되었습니다; 그러므로 1657년 그의 책이 출판되기 전에 그는 이 주제에서 파스칼의 이전 연구에 대해 알고 있었습니다.

Etymology

파스칼과 하위헌스 두 사람은 현대적 의미에서 "기대"라는 용어를 사용하지 않았습니다. 특히, 하위헌스는 다음과 같이 썼습니다:^[5]

공정한 레이(Lay)에서 같은 기회와 기대로 산출할 수 있는 것처럼, 임의의 일을 이기기 위한 임의의 한 번의 기회 또는 기대는 단지 그러한 합의 가치가 있습니다. ... 만약 내가 a 또는 b를 기대하고, 그것들을 얻을 같은 기회를 가지면, 나의 기대는 (a+b)/2의 가치가 있습니다.

100년 이상이 지난 후, 1814년에, 피에르-시몽 라플라스(Pierre-Simon Laplace)는 그의 소책자 "Théorie analytique des probabilités"를 출판했으며, 여기서 기댓값의 개념이 명시적으로 정의되었습니다:^[6]

… 기회의 이론에서 이 장점은 그것을 얻을 확률에 의해 희망되는 합의 산물입니다; 그것은 분할이 확률에 비례하는 것이라는 가정에서 우리가 이벤트의 위험을 실행하고 싶지 않을 때 결과로 발생해야 하는 부분 합입니다. 이 분할은 모든 이상한 상황이 제거될 때 유일한 공평한 분할입니다; 왜냐하면 확률의 같은 정도는 희망되는 합에 대해 같은 권리를 부여하기 때문입니다. 우리는 이 장점을 수학적 희망이라고 부를 것입니다.

기댓값에 대한 문자 E의 사용은 1901년에서 윌리엄 앨런 휘트워스(W. A. Whitworth)로 거슬러 올라가며,^[7] 그는 서면 문자 E를 사용했습니다.이 기호는 인기를 얻어 왔는데 왜냐하면 영어 작성자에 대해 그것은 "Expectation", 독일어에 대해 "Erwartungswert", 스페인어에 대해 "Esperanza matemática"을 의미했기 때문입니다.^[8]

Definition

Finite case

$X$ 를 유한한 결과 $x_{1},x_{2},\ldots ,x_{k}$ 의 유한한 숫자에 대해, 각각, 확률 $p_{1},p_{2},\ldots ,p_{k}$ 로 발생하는 확률 변수로 놓습니다. $X$ 의 기대(expectation)는 다음으로 정의됩니다:

\operatorname {E} [X]=\sum _{i=1}^{k}x_{i}\,p_{i}=x_{1}p_{1}+x_{2}p_{2}+\cdots +x_{k}p_{k}.

모든 가능한 $p_{i}$ 는 합해져서 1이 되므로 ( $p_{1}+p_{2}+\cdots +p_{k}=1$ ), 기댓값은, $p_{i}$ 의 가중을 가진, 가중된 평균(weighted average)입니다.

만약 모든 결과 $x_{i}$ 가 같은 확률(equiprobable:동가능성) (즉, $p_{1}=p_{2}=\cdots =p_{k}$ )이면, 가중된 확률은 단순한 평균(average)으로 바뀝니다. 만약 결과 $x_{i}$ 가 같은 확률이 아니면, 단순한 평균은 가중된 평균으로 반드시 대체되어야 하며, 이것은 일부 결과가 다른 결과보다 가능성이 높다는 사실을 고려한 것입니다.

File:Largenumbers.svg

An illustration of the convergence of sequence averages of rolls of a die to the expected value of 3.5 as the number of rolls (trials) grows.

Examples

$X$ 를 공정한 육-면체 주사위 굴림의 결과를 나타내는 것으로 놓습니다. 보다 구체적으로, $X$ 는 던진 후에 주사위의 윗면에 보이는 점(pips)의 개수일 것입니다. $X$ 에 대해 가능한 값은 1, 2, 3, 4, 5 및 6이며, 그것들 모두는 1/6의 확률을 갖는 같은 가능성이 있습니다. $X$ 의 기대는

\operatorname {E} [X]=1\cdot {\frac {1}{6}}+2\cdot {\frac {1}{6}}+3\cdot {\frac {1}{6}}+4\cdot {\frac {1}{6}}+5\cdot {\frac {1}{6}}+6\cdot {\frac {1}{6}}=3.5.

만약 주사위를

n

번 굴리고 결과의 평균 (산술 평균)을 계산하면,

n

이 커짐에 따라, 평균은 거의 확실하게(almost surely) 기댓값, 큰 숫자의 강한 법칙(strong law of large numbers)으로 알려진 사실로 수렴(converge)할 것입니다.

룰렛(roulette) 게임은 작은 공과 가장자리 주위에 38개의 숫자화된 포켓을 가진 바퀴로 구성됩니다. 바퀴가 회전되므로, 공이 주머니 중 하나에 들어갈 때까지 무작위로 튀어 오릅니다. 확률 변수 $X$ 를 하나의 숫자에 대한 $1 베팅의 (금전적) 결과 ("직선" 베팅)를 나타낸다고 가정합니다. 만약 베팅에서 이기면 (미국 룰렛에서 확률 1/38과 함께 발생합니다), 상금은 $35입니다; 그렇지 않으면 참가자는 베팅을 잃어버립니다. 그러한 베팅에서 예상되는 이익은 다음일 것입니다:

\operatorname {E} [\,{\text{gain from }}\$1{\text{ bet}}\,]=-\$1\cdot {\frac {37}{38}}+\$35\cdot {\frac {1}{38}}=-\${\frac {1}{19}}.

즉, $1의 베팅은

-\${\frac {1}{19}}

을 잃어버리므로, 그것의 기댓값은

-\${\frac {1}{19}}

입니다.

Countably infinite case

직관적으로, 결과의 셀 수 있는 집합에서 값을 취하는 확률 변수의 기대는 결과 값의 가중된 합으로 유사하게 정의되며, 여기서 가중값은 해당 값을 실현할 확률과 일치합니다. 어쨌든, 무한 합과 관련된 수렴 문제는 보다 신중한 정의를 요구합니다. 엄격한 정의는 먼저 비-음의 확률 변수의 기대를 정의하고, 그런 다음 그것을 일반적인 확률 변수에 적용합니다.

$X$ 를 결과 $x_{1},x_{2},\ldots$ 의 셀 수 있는 집합과, 각각, $p_{1},p_{2},\ldots$ 로 발생하는 비-음의 확률 변수로 놓습니다. 이산 경우에 유사하게, $X$ 의 기댓값이 다음의 급수로 정의됩니다:

\operatorname {E} [X]=\sum _{i=1}^{\infty }x_{i}\,p_{i}.

$x_{i}p_{i}\geq 0$ 이므로, 무한 합은 잘-정의되어 있고 그것의 계산 순서(order)에 의존하지 않음을 주목하십시오. 이산 경우와 달리, 만약 위의 무한 합이 경계없이 증가하면, 기대는 여기서 무한대와 같을 것입니다.

Examples

$i=1,2,3,\ldots$ 에 대해, $x_{i}=i$ 이고 $p_{i}={\frac {k}{i2^{i}}}$ 를 가정하십시오. 여기서 $k={\frac {1}{\ln 2}}$ 는 확률 합이 1을 만족하는 스케일 인수입니다 ( $\ln$ 은 자연 로그(natural logarithm)입니다). 그런 다음, 비-음의 확률 변수에 대해 직접 정의를 사용하여, 우리는 다음을 가집니다:

\operatorname {E} [X]=\sum _{i}x_{i}p_{i}=1\left({\frac {k}{2}}\right)+2\left({\frac {k}{8}}\right)+3\left({\frac {k}{24}}\right)+\dots ={\frac {k}{2}}+{\frac {k}{4}}+{\frac {k}{8}}+\dots =k.

기대가 무한대인 예제는 세인트 피터스버그의 역설(St. Petersburg paradox)의 맥락에서 발생합니다. $i=1,2,3,\ldots$ 에 대해 $x_{i}=2^{i}$ 와 $p_{i}={\frac {1}{2^{i}}}$ 라고 놓습니다. 다시 한번, 확률 변수가 비-음수이므로, 기댓값 계산은 다음을 제공합니다:

\operatorname {E} [X]=\sum _{i=1}^{\infty }x_{i}\,p_{i}=2\cdot {\frac {1}{2}}+4\cdot {\frac {1}{4}}+8\cdot {\frac {1}{8}}+16\cdot {\frac {1}{16}}+\cdots =1+1+1+1+\cdots \,=\infty .

기대가 잘-정의되지 않은 예제에 대해, 확률 변수 $X$ 가 값 1, −2, 3, −4, ...를 취하고, 대응하는 확률은 ${\frac {c}{1^{2}}},{\frac {c}{2^{2}}},{\frac {c}{3^{2}}},{\frac {c}{4^{2}}}$ , ...를 가진다고 가정합니다, 여기서 $c={\frac {6}{\pi ^{2}}}$ 는 확률의 합이 1이라는 것을 보증하는 정규화 상수입니다.

그런 다음, 그것은

X^{+}

은

k=1,2,3,\cdots

에 대해 확률

c/(2k-1)^{2}

를 갖는 값

2k-1

을 취하고 남아있는 확률을 갖는 값 0을 취하는 것을 따릅니다. 비슷하게,

X^{-}

는

k=1,2,3,\cdots

에 대해 확률

c/(2k)^{2}

을 갖는 값

2k

를 취하고 남아 있는 확률을 갖는 값 0을 취합니다. 비-음의 확률 변수에 대해 정의를 사용하여, 둘 다

\operatorname {E} [X^{+}]=\infty

와

\operatorname {E} [X^{-}]=\infty

임을 보일 수 있습니다 (조화 급수(Harmonic series)를 참조하십시오). 그러므로,

X

의 기대는 잘-정의되지 않습니다.

Absolutely continuous case

만약 $X$ 가 누적 분포 함수(cumulative distribution function)가 밀도(density) $f(x)$ 를 허용하는 확률 변수이면, 만약 적분이 존재하면, 기댓값은 다음 르베그 적분(Lebesgue integral)으로 정의됩니다:

\operatorname {E} [X]=\int _{\mathbb {R} }xf(x)\,dx.

만약 적분이 존재하지 않으면, 확률 변수의 기댓값이 정의되지 않을 수 있습니다. 그러한 확률 변수의 예제는 그의 큰 "꼬리"(large "tails")에 기인하는 코시 분포(Cauchy distribution)를 갖는 것이 있습니다.^[9]

General case

일반적으로, 만약 $X$ 가 확률 공간(probability space) $(\Omega ,\Sigma ,\operatorname {P} )$ 위에 정의된 비-음의 확률 변수(random variable)이면, $\operatorname {E} [X]$ 로 표시되는, $X$ 의 기댓값은 다음 르베그 적분(Lebesgue integral)으로 정의됩니다:

\operatorname {E} [X]=\int _{\Omega }X(\omega )\,d\operatorname {P} (\omega ).

일반적인 확률 변수 $X$ 에 대해, 앞서 $X^{+}(\omega )=\max(X(\omega ),0)$ 및 $X^{-}(\omega )=-\min(X(\omega ),0)$ 으로 정의하고, $X^{+}$ 와 $X^{-}$ 둘 다는 비-음수를 갖는, $X=X^{+}-X^{-}$ 임을 주목하십시오. 그런 다음, $X$ 의 기댓값은 다음으로 정의됩니다:

\operatorname {E} [X]={\begin{cases}\operatorname {E} [X^{+}]-\operatorname {E} [X^{-}]&{\text{if }}\operatorname {E} [X^{+}]<\infty {\text{ and }}\operatorname {E} [X^{-}]<\infty ;\\\infty &{\text{if }}\operatorname {E} [X^{+}]=\infty {\text{ and }}\operatorname {E} [X^{-}]<\infty ;\\-\infty &{\text{if }}\operatorname {E} [X^{+}]<\infty {\text{ and }}\operatorname {E} [X^{-}]=\infty ;\\{\text{undefined}}&{\text{if }}\operatorname {E} [X^{+}]=\infty {\text{ and }}\operatorname {E} [X^{-}]=\infty .\end{cases}}

다차원 확률 변수에 대해, 그들의 기댓값은 성분별로 정의됩니다. 즉, 원소 $X_{ij}$ , $(\operatorname {E} [X])_{ij}=\operatorname {E} [X_{ij}]$ 를 가진 $X$ 에 대해,

\operatorname {E} [(X_{1},\ldots ,X_{n})]=(\operatorname {E} [X_{1}],\ldots ,\operatorname {E} [X_{n}])

Basic properties

아래의 기본 속성은 르베그 적분(Lebesgue integral)의 그것으로부터 바로 가져오거나 뒤따릅니다.

비-음수성(Non-negativity): 만약 $X\geq 0$ 이면, $\operatorname {E} [X]\geq 0$ 입니다.
기대의 선형성(Linearity of expectation): 기댓값 연산자 (또는 기대 연산자) $\operatorname {E} [\cdot ]$ 는, 임의의 확률 변수 $X$ 와 $Y$ , 및 상수 $a$ 인 것의 의미에서 선형(linear)입니다.

{\begin{aligned}\operatorname {E} [X+Y]&=\operatorname {E} [X]+\operatorname {E} [Y],\\\operatorname {E} [aX]&=a\operatorname {E} [X],\end{aligned}}

오른쪽 변이 잘-정의될 때마다, 이는 확률 변수의 임의의 숫자의 합의 기댓값이 개별 확률 변수의 기댓값의 합이고, 기댓값은 곱셈의 상수와 함께 선형적으로 스케일됨을 의미합니다.

단조성(Monotonicity): 만약 $X\leq Y$ 이고, $\operatorname {E} [X]$ 와 $\operatorname {E} [Y]$ 둘 다가 존재하면, $\operatorname {E} [X]\leq \operatorname {E} [Y]$ 입니다.

증명은

Z=Y-X

에 대해 선형성과 비-음수성 속성으로부터 따르는데, 왜냐하면 거의 확실하게

Z\geq 0

이기 때문입니다.

비-곱셈성(Non-multiplicativity): 일반적으로, 기댓값 연산자는 곱셈적이 아닌데, 즉, $\operatorname {E} [XY]$ 는 $\operatorname {E} [X]\cdot \operatorname {E} [Y]$ 와 같을 필요가 없습니다. 만약 $X$ 와 $Y$ 가 독립(independent)이면, $\operatorname {E} [XY]=\operatorname {E} [X]\operatorname {E} [Y]$ 임을 보일 수 있습니다. 만약 확률 변수가 종속(dependent)이면, 비록 종속의 특별한 경우에서 서로 같음이 유지될지라도, 일반적으로 $\operatorname {E} [XY]\neq \operatorname {E} [X]\operatorname {E} [Y]$ 입니다.

무의식 통계학자의 법칙(Law of the unconscious statistician): $X$ , $g(X)$ 의 측정가능한 함수의 기댓값은, $X$ 가 확률 밀도 함수 $f(x)$ 를 가진다고 주어지면, $f$ 와 $g$ 의 안의 곱(inner product)에 의해 정의됩니다:

\operatorname {E} [g(X)]=\int _{\mathbb {R} }g(x)f(x)\,dx.

이 공식은,

g

가 여러 확률 변수의 함수이고,

f

가 그들의 결합 밀도(joint density)이면, 다차원의 경우에서 역시 유지됩니다.^[10]^[11]

비-퇴화성(Non-degeneracy): 만약 $\operatorname {E} |X|=0$ 이면, 거의 확실하게 $X=0$ 입니다.
옌센 부등식(Jensen's Inequality): 잘-정의된 기대를 가진 확률 변수 $X$ 에 대해: $|\operatorname {E} [X]|\leq \operatorname {E} |X|$ .
확률 변수 $X$ $X$ 에 관련하여 다음 문장은 동등합니다:
- $\operatorname {E} [X]$ 가 존재하고 유한입니다.
- $\operatorname {E} [X^{+}]$ 와 $\operatorname {E} [X^{-}]$ 둘 다는 유한입니다.
- $\operatorname {E} [|X|]$ 은 유한입니다.

위의 이유에 대해, 표현 "

X

는 적분 가능입니다" 및 "

X

의 기댓값은 유한합니다"는 이 기사 전체에서 상호 교환 가능으로 사용됩니다.

만약 $\operatorname {E} [X]<+\infty$ 이면 $X<+\infty$ 입니다. 비슷하게, 만약 $\operatorname {E} [X]>-\infty$ 이면 거의 확실하게 $X>-\infty$ 입니다.
만약 X와 Y는 두 확률 변수이고, Y는 X의 함수, 즉 Y = f(X)로 쓸 수 있으면, X의 분포 함수를 사용하여 Y의 기댓값을 계산할 수 있습니다.^[12]
${\mathbf {1} }_{A}$ 를 사건(event) $A$ 의 지시함수(indicator function)를 나타내는 것으로 놓습니다. 그런 다음 $\operatorname {E} [{\mathbf {1} }_{A}]=1\cdot \operatorname {P} (A)+0\cdot \operatorname {P} (\Omega \setminus A)=\operatorname {P} (A)$ 입니다.
만약 거의 확실하게(a.s.) $X=Y$ 이면, $\operatorname {E} [X]=\operatorname {E} [Y]$ 입니다. 즉, 만약 거의 모든 곳에서 X = Y이면, 함수 X의 기대는 함수 Y의 기대와 같을 것입니다. 이것은 기댓값의 정의 및 계산 방법과 일치합니다.
만약 어떤 상수 $c\in [-\infty ,+\infty ]$ 에 대해 거의 확실하게 $X=c$ 이면, $\operatorname {E} [X]=c$ 입니다. 특히, 잘-정의된 기대를 가진 확률 변수에 대해, $\operatorname {E} [\operatorname {E} [X]]=\operatorname {E} [X]$ 입니다. 잘 정의된 기대는 기댓값을 정의하는 하나의 숫자 또는 오히려 하나의 상수가 있음을 의미합니다. 따라서 이 상수의 기대는 단지 원래의 기댓값을 따릅니다.

Uses and applications

확률 변수의 기대는 다양한 문맥에서 중요한 역할을 합니다. 예를 들어, 결정 이론(decision theory)에서 불완전한 정보의 문맥에서 최적의 선택을 만드는 에이전트는 종종 효용 함수(utility function)의 기댓값을 최대화하기 위해 가정됩니다. 다른 예제에 대해, 통계학(statistics)에서, 여기서 이용 가능한 데이터에 기초하여 미지수 매개변수에 대해 추정을 찾습니다; 추정 그 자체는 확률 변수입니다. 그러한 설정에서, "좋은" 추정기에 대해 바람직한 기준은 그것이 불편향(unbiased)이라는 것입니다 – 즉, 추정의 기댓값이 놓여 있는 매개변수의 참 값과 같습니다.

만약 사건이 발생하면 1이고 그렇지 않으면 0인 지시 함수(indicator function)를 기대를 취함으로써 사건의 가능성과 같은 기댓값을 구성할 수 있습니다. 이 관계는 기댓값의 속성을 확률의 속성으로 변환하기 위해 사용될 수 있습니다. 예를 들어, 빈도(frequencies)에 의한 추정 확률을 정당화하기 위해 큰 숫자의 법칙을 사용합니다.

X의 거듭제곱의 기댓값은 X의 모멘트(moments)라고 불립니다; X의 평균에 대한 모멘트(moments about the mean)는 X − E[X]의 거듭제곱의 기댓값입니다. 일부 확률 변수의 모멘트는, 모멘트 생성 함수(moment generating function)를 통해, 그들의 분포를 지정하기 위해 사용될 수 있습니다.

확률 변수의 기댓값을 경험적으로 추정(estimate)하기 위해, 변수의 관찰을 반복적으로 측정하고 결과의 산술 평균(arithmetic mean)을 계산합니다. 만약 기댓값이 존재하면, 이 절차는 불-편향(unbiased) 방식으로 참 기댓값을 추정하고 편차(residuals)의 제곱의 합 (측정과 추정(estimate) 사이의 제곱된 차이의 합)을 최소화하는 속성을 가집니다. 큰 숫자의 법칙(law of large numbers)은 (약간의 온화한 조건 아래에서) 그것을 설명하는데, 왜냐하면 표본(sample)의 크기(size)가 커져 갈수록, 이 추정(estimate)의 분산(variance)은 점점 작아지기 때문입니다.

이 속성은 통계적 추정(statistical estimation) 및 기계 학습(machine learning)의 일반적인 문제를 포함하여 몬테 카를로 방법(Monte Carlo method)을 통해 관심의 (확률적) 양을 추정하기 위해, 응용의 다양한 분야에서 종종 활용되는데, 왜냐하면 관심의 대부분 양은 기대의 관점에서 쓸 수 있습니다. 예를 들어, $\operatorname {P} ({X\in {\mathcal {A}}})=\operatorname {E} [{\mathbf {1} }_{\mathcal {A}}]$ , 여기서 ${\mathbf {1} }_{\mathcal {A}}$ 는 집합 ${\mathcal {A}}$ 의 지시 함수입니다.

File:Beta first moment.svg

The mass of probability distribution is balanced at the expected value, here a Beta(α,β) distribution with expected value α/(α+β).

고전 역학(classical mechanics)에서, 질량 중심(center of mass)은 기대와 유사한 개념입니다. 예를 들어, X가 값 x_i와 해당 확률 p_i를 갖는 이산 확률 변수라고 가정합니다. 이제 막대를 따라 x_i 위치에서 질량 p_i (그의 합은 1입니다)를 가지는 무게를 위치시킨 무게없는 막대를 고려하십시오. 막대가 균형을 잡는 점은 E[X]입니다.

기댓값은, 분산에 대해 계산 공식을 수단으로, 분산(variance)을 계산하기 위해 역시 사용될 수 있습니다

\operatorname {Var} (X)=\operatorname {E} [X^{2}]-(\operatorname {E} [X])^{2}.

기댓값의 매우 중요한 응용은 양자 역학(quantum mechanics)의 분야에서 있습니다. 양자 상태(quantum state) 벡터 $|\psi \rangle$ 에서 연산되는 양자 역학적 연산자 ${\hat {A}}$ 의 기댓값은 $\langle {\hat {A}}\rangle =\langle \psi |A|\psi \rangle$ 으로 쓰입니다. ${\hat {A}}$ 은 불확실성(uncertainty)은 공식 $(\Delta A)^{2}=\langle {\hat {A}}^{2}\rangle -\langle {\hat {A}}\rangle ^{2}$ 을 사용하여 계산될 수 있습니다.

Interchanging limits and expectation

일반적으로, 점별 $X_{n}\to X$ 임에도 불구하고 $\operatorname {E} [X_{n}]\to \operatorname {E} [X]$ 가 아닌 경우가 있습니다. 따라서, 확률 변수에 대한 추가적인 조건이 없이, 극한과 기댓값을 절대 교환할 수 없습니다. 이를 확인하기 위해, $U$ 를 $[0,1]$ 위에 균등하게 분포된 확률 변수로 놓습니다. $n\geq 1$ 에 대해, 사건 $A$ 의 지시 함수이고 ${\mathbf {1} }\{A\}$ 를 가진 다음 확률 변수의 수열을 정의합니다:

X_{n}=n\cdot \mathbf {1} \left\{U\in \left[0,{\tfrac {1}{n}}\right]\right\},

그런 다음, 그것은 거의 확실하게(a.s.) $X_{n}\to 0$ 임을 따릅니다. 그러나, 각 $n$ 에 대해 $\operatorname {E} [X_{n}]=n\cdot \operatorname {P} \left(U\in \left[0,{\tfrac {1}{n}}\right]\right)=n\cdot {\tfrac {1}{n}}=1$ 입니다. 그러므로, $\lim _{n\to \infty }\operatorname {E} [X_{n}]=1\neq 0=\operatorname {E} \left[\lim _{n\to \infty }X_{n}\right]$ 입니다.

유사하게, 확률 변수 $\{Y_{n}:n\geq 0\}$ 의 일반적인 수열에 대해, 기댓값 연산자는 $\sigma$ -덧셈적이 아닙니다. 예를 들어,

\operatorname {E} \left[\sum _{n=0}^{\infty }Y_{n}\right]\neq \sum _{n=0}^{\infty }\operatorname {E} [Y_{n}].

예제는 $n\geq 1$ 에 대해 $Y_{0}=X_{1}$ 및 $Y_{n}=X_{n+1}-X_{n}$ 임을 설정함으로써 쉽게 구해지며, 여기서 $X_{n}$ 는 이전 예제와 같습니다.

여러 수렴 결과는, 아래에 지정된 것처럼, 극한과 기대를 교환할 수 있는 것으로 허용하는 정확한 조건을 지정합니다.

단조 수렴 정리(Monotone convergence theorem): $\{X_{n}:n\geq 0\}$ 를, 각 $n\geq 0$ 에 대해, 거의 확실하게 $0\leq X_{n}\leq X_{n+1}$ 를 가진 확률 변수의 수열로 놓습니다. 게다가, 점별 $X_{n}\to X$ 로 놓습니다. 그런 다음, 단조 수렴 정리는 $\lim _{n}\operatorname {E} [X_{n}]=\operatorname {E} [X]$ 임을 말합니다.

단조 수렴 정리를 사용하여, 기대는 참으로 비-음의 확류 변수에 대해 셀 수 있는 덧셈성을 만족시킨다는 것을 보일 수 있습니다. 특히,

\{X_{i}\}_{i=0}^{\infty }

를 비-음의 확률 변수로 놓습니다. 그것은 다음을 만족하는 단조 수렴 정리(monotone convergence theorem)에서 비롯됩니다.

\operatorname {E} \left[\sum _{i=0}^{\infty }X_{i}\right]=\sum _{i=0}^{\infty }\operatorname {E} [X_{i}].

파투의 보조정리(Fatou's lemma): $\{X_{n}\geq 0:n\geq 0\}$ 를 비-음의 확률 변수의 수열로 놓습니다. 파투의 보조정리는 다음임을 말합니다:

\operatorname {E} [\liminf _{n}X_{n}]\leq \liminf _{n}\operatorname {E} [X_{n}].

따름정리(Corollary). 모든

n\geq 0

에 대해

\operatorname {E} [X_{n}]\leq C

를 가진

X_{n}\geq 0

로 놓습니다. 만약 거의 확실하게

X_{n}\to X

이면,

\operatorname {E} [X]\leq C

입니다.

증명은 거의 확실하게

\textstyle X=\liminf _{n}X_{n}

이고 파투의 보조정리를 관찰하는 것입니다.

지배 수렴 정리(Dominated convergence theorem): $\{X_{n}:n\geq 0\}$ $\{X_{n}:n\geq 0\}$ 를 확률 변수의 수열로 놓습니다. 만약 거의 확실하게 점별(pointwise) $X_{n}\to X$ $X_{n}\to X$ 이고, 거의 확실하게 $|X_{n}|\leq Y\leq +\infty$ $|X_{n}|\leq Y\leq +\infty$ 이고, $\operatorname {E} [Y]<\infty$ $\operatorname {E} [Y]<\infty$ 이면, 지배 수렴 정리에 따라,
- $\operatorname {E} |X|\leq \operatorname {E} [Y]<\infty$ ;
- $\lim _{n}\operatorname {E} [X_{n}]=\operatorname {E} [X]$
- $\lim _{n}\operatorname {E} |X_{n}-X|=0.$

균등 적분가능성(Uniform integrability): 일부 경우에서, 상등 $\displaystyle \lim _{n}\operatorname {E} [X_{n}]=\operatorname {E} [\lim _{n}X_{n}]$ 은 수열 $\{X_{n}\}$ 이 균등하게 적분가능할 때 유지됩니다.

Inequalities

확률 변수의 함수의 기댓값을 포함하는 많은 부등식이 있습니다. 다음 목록은 보다 기본적인 것들의 일부를 포함합니다.

마르코프 부등식(Markov's inequality): 비-음의 확률 변수 $X$ 와 $a>0$ 에 대해, 마르코프의 부등식은 다음임을 말합니다:

\operatorname {P} (X\geq a)\leq {\frac {\operatorname {E} [X]}{a}}.

비아내메-체비쇼프 부등식(Bienaymé-Chebyshev inequality): $X$ 를 유한한 기댓값 $\operatorname {E} [X]$ 및 유한한 분산(variance) $\operatorname {Var} [X]\neq 0$ 을 가진 임의의 확률 변수로 놓습니다. 비아내메-체비쇼프 부등식은, 임의의 실수 $k>0$ 에 대해, 다음임을 말합니다:

\operatorname {P} {\Bigl (}{\Bigl |}X-\operatorname {E} [X]{\Bigr |}\geq k{\sqrt {\operatorname {Var} [X]}}{\Bigr )}\leq {\frac {1}{k^{2}}}.

옌센의 부등식(Jensen's inequality): $f:{\mathbb {R} }\to {\mathbb {R} }$ 를 측정 가능한(measurable) 볼록 함수(convex function) 및 $X$ 를 $\operatorname {E} |X|<\infty$ 를 만족하는 확률 변수로 놓습니다. 옌센의 부등식은 다음임을 말합니다:

f(\operatorname {E} (X))\leq \operatorname {E} (f(X)).

랴푸노프의 부등식(Lyapunov's inequality):^[13] $0<s<t$ 로 놓습니다. 랴푸노프의 부등식은 다음임을 말합니다:

\left(\operatorname {E} |X|^{s}\right)^{1/s}\leq \left(\operatorname {E} |X|^{t}\right)^{1/t}.

증명. 옌센의 부등식(Jensen's inequality)을

|X|^{s}

와

g(x)=|x|^{t/s}

에 적용하여,

{\Bigl |}

\operatorname {E} |X^{s}|{\Bigr |}^{t/s}\leq \operatorname {E} |X^{s}|^{t/s}=\operatorname {E} |X|^{t}

을 얻습니다. 각 변에

t^{th}

근을 취함으로써 증명을 완성합니다.

코시–부냐콥스키–슈바르츠 부등식(Cauchy–Bunyakovsky–Schwarz inequality): 코시–부냐콥스키–슈바르츠 부등식은 다음임을 말합니다:

(\operatorname {E} [XY])^{2}\leq \operatorname {E} [X^{2}]\cdot \operatorname {E} [Y^{2}].

횔더의 부등식(Hölder's inequality): $p$ 와 $q$ 는 $1\leq p\leq \infty$ 를 만족시키고, $1\leq q\leq \infty$ , 및 $1/p+1/q=1$ 로 놓습니다. 횔더의 부등식은 다음임을 말합니다:

\operatorname {E} |XY|\leq (\operatorname {E} |X|^{p})^{1/p}(\operatorname {E} |Y|^{q})^{1/q}.

민코프스키 부등식(Minkowski inequality): $p$ 를 $1\leq p\leq \infty$ 를 만족시키는 정수로 놓습니다. 게다가, $\operatorname {E} |X|^{p}<\infty$ 및 $\operatorname {E} |Y|^{p}<\infty$ 로 놓습니다. 그런 다음, 민코프스키 부등식에 따라, $\operatorname {E} |X+Y|^{p}<\infty$ 이고 다음입니다:

{\Bigl (}\operatorname {E} |X+Y|^{p}{\Bigr )}^{1/p}\leq {\Bigl (}\operatorname {E} |X|^{p}{\Bigr )}^{1/p}+{\Bigl (}\operatorname {E} |Y|^{p}{\Bigr )}^{1/p}.

Distributions and Expected Values

Expected Values of Various Statistical Distributions
Distribution	Mathematical Distibution	Mean E(X)
Bernoulli	$X\sim ~b(1,p)$	$p$
Binomial	$X\sim B(n,p)$	$np$
Geometric	$X\sim Geometric(p)$	$1/p$
Uniform	$X\sim U(a,b)$	$(a+b)/2$
Exponential	$X\sim \exp(\lambda )$	$1/\lambda$
Normal	$X\sim N(\mu ,\sigma ^{2})$	$\mu$
Standard Normal	$X\sim N(0,1)$	$0$
Pareto	$X\sim Par(\alpha )$	$\alpha /(\alpha +1)$

Relationship with characteristic function

스칼라 확률 변수 $X$ 의 확률 밀도 함수 $f_{X}$ 는 다음 반전 공식에 의해 그의 특성 함수(characteristic function) $\varphi _{X}$ 와 관련됩니다:

f_{X}(x)={\frac {1}{2\pi }}\int _{\mathbb {R} }e^{-itx}\varphi _{X}(t)\,dt.

$g(X)$ 의 기댓값에 대해 (여기서 $g:{\mathbb {R} }\to {\mathbb {R} }$ 는 보렐 함수(Borel function)입니다), 우리는 다음을 획득하기 위해 이 반전 공식을 사용할 수 있습니다:

\operatorname {E} [g(X)]={\frac {1}{2\pi }}\int _{\mathbb {R} }g(x)\left[\int _{\mathbb {R} }e^{-itx}\varphi _{X}(t)\,dt\right]\,dx.

만약 $\operatorname {E} [g(X)]$ 가 유한이고, 적분의 순서를 바꾸면, 우리는, 푸비니-토넬리 정리(Fubini-Tonelli theorem)에 따라, 다음을 얻습니다:

\operatorname {E} [g(X)]={\frac {1}{2\pi }}\int _{\mathbb {R} }G(t)\varphi _{X}(t)\,dt,

여기서

G(t)=\int _{\mathbb {R} }g(x)e^{-itx}\,dx

는 $g(x)$ 의 푸리에 변환입니다. $\operatorname {E} [g(X)]$ 에 대해 표현은 역시 플란체렐의 정리(Plancherel theorem)를 직접 따릅니다.

Alternative formula for expected value

비-음의 확률 변수에 대해, 확률 변수의 오직 누적 분포 함수(cumulative distribution function)를 포함하는 대안적인 공식을 사용하여 기댓값을 계산할 수 있습니다. 일반적인 확률 변수에 대해 비슷한 공식은 관계 $X=X^{+}-X^{-}$ 를 사용하고 $X^{+}$ 및 $X^{-}$ 둘 다는 비-음수임을 지적함으로써 획득될 수 있으며, 이것에 대해 다음을 적용합니다.

Finite and countably infinite case

비-음의 정수-값 확률 변수 $X:\Omega \to \{0,1,2,3,\ldots \}\cup \{+\infty \}$ 에 대해,

\operatorname {E} [X]=\sum _{n=0}^{\infty }\operatorname {P} (X>n)=\sum _{n=0}^{\infty }{\bar {F}}(n),

여기서 ${\bar {F}}(x)=1-F(x)$ 및 $F(x)=P(X\leq x)$ 은 $X$ 의 누적 분포 함수(cdf)입니다.

증명.

만약 $\operatorname {P} (X=+\infty )>0$ 이면, $\operatorname {E} [X]=+\infty$ 입니다. 다른 한편으로,

\operatorname {P} (X>n)\geq \operatorname {P} (X=+\infty )>0,

그래서 오른쪽 변에 대한 급수는 $+\infty$ 로 발산하고 상등이 유지됩니다.

만약 $\operatorname {P} (X=+\infty )=0$ 이면,

\sum _{n=0}^{\infty }\operatorname {P} (X>n)=\sum _{n=0}^{\infty }\sum _{j=n+1}^{\infty }\operatorname {P} (X=j).

M={\begin{bmatrix}\operatorname {P} (X=1)&\operatorname {P} (X=2)&\operatorname {P} (X=3)&\cdots &\operatorname {P} (X=n)&\cdots \\&\operatorname {P} (X=2)&\operatorname {P} (X=3)&\cdots &\operatorname {P} (X=n)&\cdots \\&&\operatorname {P} (X=3)&\cdots &\operatorname {P} (X=n)&\cdots \\&&&\ddots &\vdots &\\&&&&\operatorname {P} (X=n)&\cdots \\&&&&&\ddots \end{bmatrix}}

을 무한한 위쪽 삼각 행렬(upper triangular matrix)로 놓습니다. 이중 급수 $\textstyle \sum _{i=1}^{\infty }\sum _{j=i}^{\infty }\operatorname {P} (X=j)$ 는 만약 합이 행별로 행해지면 $M$ 의 원소의 합입니다. 모든 각 더해지는 숫자는 비-음수이므로, 급수는 절대적으로 수렴 또는 $+\infty$ 로 발산합니다. 두 경우 모두에서, 합의 순서를 바꾸는 것은 합에 영향을 미치지 않습니다. 행별에서 열별로 합의 순서를 바꾸면 다음을 제공합니다:

{\begin{aligned}\sum _{n=0}^{\infty }\sum _{j=n+1}^{\infty }\operatorname {P} (X=j)&=\sum _{j=1}^{\infty }\sum _{n=0}^{j-1}\operatorname {P} (X=j)\\&=\sum _{j=1}^{\infty }j\operatorname {P} (X=j)\\&=\sum _{j=0}^{\infty }j\operatorname {P} (X=j)\\&=\operatorname {E} [X].\end{aligned}}

Example

동전 던지기(coin tossing) 실험에서, $p$ 를 앞면의 확률로 놓습니다. 마지막 시도를 포함하여, 첫 번째 앞면이 나오기까지 몇 번의 던짐을 기대할 수 있을까요?

해결책. 만약 $N$ 가 첫 번째 앞면이 나올 때까지의 동전 던지기의 횟수를 나타내는 확률 변수이면, $n\geq 0$ 에 대해,

{\begin{aligned}\operatorname {P} (N>n)&=1-\operatorname {P} (N\leq n)\\[1pt]&=1-\sum \limits _{j=1}^{n}\operatorname {P} (N=j)\\[1pt]&=1-\sum \limits _{j=1}^{n}(1-p)^{j-1}p\\[1pt]&=1-{\frac {1-(1-p)^{n}}{p}}\cdot p\\[1pt]&=(1-p)^{n},\end{aligned}}

여기서 우리는 기하 급수(geometric series:등비 급수) 합 공식을 고려했습니다. 우리는 이제 다음과 같이 계산합니다:

{\begin{aligned}\operatorname {E} [N]&=\sum \limits _{n=0}^{\infty }\operatorname {P} (N>n)\\&=\sum \limits _{n=0}^{\infty }(1-p)^{n}\\&={\frac {1}{p}}.\end{aligned}}

General case

만약 $X:\Omega \to [0,+\infty ]$ 가 비-음의 확률 변수이면,

\operatorname {E} [X]=\int \limits _{[0,+\infty )}\operatorname {P} (X>x)\,dx=\int \limits _{[0,+\infty )}{\bar {F}}(x)\,dx,

여기서 ${\bar {F}}(x)=1-F(x)$ 이고, $F$ 는 $X$ 의 누적 분포 함수(cdf)입니다.

증명.

1. 모든 각 $\omega \in \Omega$ 에 대해,

X(\omega )=\int \limits _{(0,X(\omega ))}dx=\int \limits _{[0,+\infty )}{\mathbf {1} }_{(0,X(\omega ))}(x)\,dx,

여기서 ${\mathbf {1} }_{(0,X(\omega ))}$ 는 $(0,X(\omega ))$ 의 지시 함수입니다. 이것을 $\operatorname {E} [X]$ 의 정의로 대체함으로써, 다음을 얻습니다:

{\begin{aligned}\operatorname {E} [X]&=\int \limits _{\Omega }Xd\operatorname {P} \\&=\int \limits _{\Omega }\int \limits _{[0,+\infty )}{\mathbf {1} }_{(0,X(\omega )]}(x)\,dx\,d\operatorname {P} (\omega ).\end{aligned}}

$X(\omega )\geq 0$ 및 ${\mathbf {1} }_{(0,X(\omega )]}(x)\geq 0$ 이므로, 이 적분 (유한 또는 무한)은 토넬리의 정리의 요구사항을 만족시킵니다. 적분의 순서를 바꿈으로써 다음을 제공합니다:

{\begin{aligned}&\int \limits _{[0,+\infty )}\int \limits _{\Omega }{\mathbf {1} }_{(0,X(\omega )]}(x)\,d\operatorname {P} (\omega )\,dx\\&=\int \limits _{[0,+\infty )}\operatorname {P} (X>x)\,dx.\end{aligned}}

References

^ Sheldon M Ross (2007). "§2.4 Expectation of a random variable". Introduction to probability models (9th ed.). Academic Press. p. 38 ff. ISBN 978-0-12-598062-3.
^ Richard W Hamming (1991). "§2.5 Random variables, mean and the expected value". The art of probability for scientists and engineers. Addison–Wesley. p. 64 ff. ISBN 0-201-40686-1.
^ History of Probability and Statistics and Their Applications before 1750. Wiley Series in Probability and Statistics. 1990. doi:10.1002/0471725161. ISBN 9780471725169.
^ Ore, Oystein (1960). "Ore, Pascal and the Invention of Probability Theory". The American Mathematical Monthly. 67 (5): 409–419. doi:10.2307/2309286. JSTOR 2309286.
^ Huygens, Christian. "The Value of Chances in Games of Fortune. English Translation" (PDF).{{cite web}}: CS1 maint: url-status (link)
^ Laplace, Pierre Simon, marquis de, 1749-1827. (1952, ©1951). A philosophical essay on probabilities. Dover Publications. OCLC 475539. {{cite book}}: Check date values in: |date= (help)CS1 maint: multiple names: authors list (link) CS1 maint: numeric names: authors list (link)
^ Whitworth, W.A. (1901) Choice and Chance with One Thousand Exercises. Fifth edition. Deighton Bell, Cambridge. [Reprinted by Hafner Publishing Co., New York, 1959.]
^ "Earliest uses of symbols in probability and statistics".
^ Richard W Hamming (1991). "Example 8.7–1 The Cauchy distribution". The art of probability for scientists and engineers. Addison-Wesley. p. 290 ff. ISBN 0-201-40686-1. Sampling from the Cauchy distribution and averaging gets you nowhere — one sample has the same distribution as the average of 1000 samples!
^ Expectation Value, retrieved August 8, 2017
^ Papoulis, A. (1984), Probability, Random Variables, and Stochastic Processes, New York: McGraw–Hill, pp. 139–152
^ https://www.dartmouth.edu/~chance/teaching_aids/books_articles/probability_book/Chapter6.pdf
^ Agahi, Hamzeh; Mohammadpour, Adel; Mesiar, Radko (November 2015). "Generalizations of some probability inequalities and $L^{p}$ convergence of random variables for any monotone measure". Brazilian Journal of Probability and Statistics. 29 (4): 878–896. doi:10.1214/14-BJPS251. ISSN 0103-0752.

Literature

Edwards, A.W.F (2002). Pascal's arithmetical triangle: the story of a mathematical idea (2nd ed.). JHU Press. ISBN 0-8018-6946-3. {{cite book}}: Invalid |ref=harv (help)
Huygens, Christiaan (1657). De ratiociniis in ludo aleæ (English translation, published in 1714). {{cite book}}: Invalid |ref=harv (help)

[Ross-1] Sheldon M Ross (2007). "§2.4 Expectation of a random variable". Introduction to probability models (9th ed.). Academic Press. p. 38 ff. ISBN 978-0-12-598062-3.

[Hamming-2] Richard W Hamming (1991). "§2.5 Random variables, mean and the expected value". The art of probability for scientists and engineers. Addison–Wesley. p. 64 ff. ISBN 0-201-40686-1.

[3] History of Probability and Statistics and Their Applications before 1750. Wiley Series in Probability and Statistics. 1990. doi:10.1002/0471725161. ISBN 9780471725169.

[4] Ore, Oystein (1960). "Ore, Pascal and the Invention of Probability Theory". The American Mathematical Monthly. 67 (5): 409–419. doi:10.2307/2309286. JSTOR 2309286.

[5] Huygens, Christian. "The Value of Chances in Games of Fortune. English Translation" (PDF).{{cite web}}: CS1 maint: url-status (link)

[6] Laplace, Pierre Simon, marquis de, 1749-1827. (1952, ©1951). A philosophical essay on probabilities. Dover Publications. OCLC 475539. {{cite book}}: Check date values in: |date= (help)CS1 maint: multiple names: authors list (link) CS1 maint: numeric names: authors list (link)

[7] Whitworth, W.A. (1901) Choice and Chance with One Thousand Exercises. Fifth edition. Deighton Bell, Cambridge. [Reprinted by Hafner Publishing Co., New York, 1959.]

[8] "Earliest uses of symbols in probability and statistics".

[Hamming2-9] Richard W Hamming (1991). "Example 8.7–1 The Cauchy distribution". The art of probability for scientists and engineers. Addison-Wesley. p. 290 ff. ISBN 0-201-40686-1. Sampling from the Cauchy distribution and averaging gets you nowhere — one sample has the same distribution as the average of 1000 samples!

[wolframMultipleContinuousVariables-10] Expectation Value, retrieved August 8, 2017

[Pap84-11] Papoulis, A. (1984), Probability, Random Variables, and Stochastic Processes, New York: McGraw–Hill, pp. 139–152

[12] ttps://www.dartmouth.edu/~chance/teaching_aids/books_articles/probability_book/Chapter6.pdf

[13] Agahi, Hamzeh; Mohammadpour, Adel; Mesiar, Radko (November 2015). "Generalizations of some probability inequalities and $L^{p}$ convergence of random variables for any monotone measure". Brazilian Journal of Probability and Statistics. 29 (4): 878–896. doi:10.1214/14-BJPS251. ISSN 0103-0752.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

History

Etymology

Definition

Finite case

Examples

Countably infinite case

Examples

Absolutely continuous case

General case

Basic properties

Uses and applications

Interchanging limits and expectation

Inequalities

Distributions and Expected Values

Relationship with characteristic function

Alternative formula for expected value

Finite and countably infinite case

Example

General case

See also

References

Literature