Conditioning (probability)

믿음은 이용 가능한 정보에 의존합니다. 이 아이디어는 조건화(conditioning)에 의해 확률 이론(probability theory)에서 형식화됩니다. 조건부 확률(Conditional probabilities), 조건부 기댓값(conditional expectation), 및 조건부 확률 분포(conditional probability distribution)는 세 단계: 이산 확률(discrete probabilities), 확률 밀도 함수(probability density function), 및 측정 이론(measure theory)에서 처리됩니다. 조건부는 만약 조건이 완전히 지정되면 비-무작위 결과로 이어집니다; 그렇지 않으면, 만약 조건이 무작위로 남겨지면, 조건화의 결과는 역시 무작위입니다.

Conditioning on the discrete level

예제: 공정한 동전을 10번 던집니다; 확률 변수(random variable) X는 이들 10번 던짐에서 앞면의 개수이고 Y는 처음 3번의 던짐에서 앞면의 개수입니다. Y가 X 전에 나온다는 사실에도 불구하고, 누군가 X는 알지만 Y는 모르는 일이 발생할 수 있습니다.

Conditional probability

X = 1이라고 주어지면, 사건 Y = 0의 조건부 확률은 다음과 같습니다:

\mathbb {P} (Y=0|X=1)={\frac {\mathbb {P} (Y=0,X=1)}{\mathbb {P} (X=1)}}=0.7

보다 일반적으로,

{\begin{aligned}\mathbb {P} (Y=0|X=x)&={\frac {\binom {7}{x}}{\binom {10}{x}}}={\frac {7!(10-x)!}{(7-x)!10!}}&&x=0,1,2,3,4,5,6,7.\\[4pt]\mathbb {P} (Y=0|X=x)&=0&&x=8,9,10.\end{aligned}}

조건부 확률을 확률 변수로 취급할 수도 있습니다 — 확률 변수 X의 함수, 즉

\mathbb {P} (Y=0|X)={\begin{cases}{\binom {7}{X}}/{\binom {10}{X}}&X\leqslant 7,\\0&X>7.\end{cases}}

이 확률 변수의 기대(expectation)는 (무조건부) 확률과 같습니다:

\mathbb {E} (\mathbb {P} (Y=0|X))=\sum _{x}\mathbb {P} (Y=0|X=x)\mathbb {P} (X=x)=\mathbb {P} (Y=0),

즉,

\sum _{x=0}^{7}{\frac {\binom {7}{x}}{\binom {10}{x}}}\cdot {\frac {1}{2^{10}}}{\binom {10}{x}}={\frac {1}{8}},

이것은 전체 확률의 법칙(law of total probability) $\mathbb {E} (\mathbb {P} (A|X))=\mathbb {P} (A)$ 의 사례입니다.

따라서, $\mathbb {P} (Y=0|X=1)$ 은 X = 1에 해당하는 확률 변수 $\mathbb {P} (Y=0|X)$ 의 값으로 취급될 수 있습니다. 다른 한편으로, $\mathbb {P} (Y=0|X=1)$ 는 X의 다른 가능한 값에 관계없이 잘-정의되어 있습니다.

Conditional expectation

X = 1이라고 주어지면, 확률 변수 Y의 조건부 기대는 $\mathbb {E} (Y|X=1)={\tfrac {3}{10}}$ 입니다. 보다 일반적으로,

\mathbb {E} (Y|X=x)={\frac {3}{10}}x,\qquad x=0,\ldots ,10.

(이 예제에서 그것이 선형 함수처럼 보이지만, 일반적으로 비-선형입니다.) 조건부 기대를 확률 변수로 취급할 수도 있습니다 — 확률 변수 X의 함수, 즉,

\mathbb {E} (Y|X)={\frac {3}{10}}X.

이 확률 변수의 기대는 Y의 (무-조건부) 기대와 같습니다:

\mathbb {E} (\mathbb {E} (Y|X))=\sum _{x}\mathbb {E} (Y|X=x)\mathbb {P} (X=x)=\mathbb {E} (Y),

즉,

\sum _{x=0}^{10}{\frac {3}{10}}x\cdot {\frac {1}{2^{10}}}{\binom {10}{x}}={\frac {3}{2}},

또는 간단히

\mathbb {E} \left({\frac {3}{10}}X\right)={\frac {3}{10}}\mathbb {E} (X)={\frac {3}{10}}\cdot 5={\frac {3}{2}},

이것은 전체 기대의 법칙(law of total expectation) $\mathbb {E} (\mathbb {E} (Y|X))=\mathbb {E} (Y)$ 의 사례입니다.

확률 변수 $\mathbb {E} (Y|X)$ 는 X가 주어졌을 때 Y의 최상의 예측기입니다. 즉, 그것은 형식 f(X)의 모든 확률 변수의 클래스에 대한 평균 제곱 오차 $\mathbb {E} (Y-f(X))^{2}$ 를 최소화합니다. ). 이 확률 변수의 클래스는 만약 X가, 말하자면, 2X로 대체되면 그대로 유지됩니다. 따라서, $\mathbb {E} (Y|2X)=\mathbb {E} (Y|X)$ 입니다. 그것은 $\mathbb {E} (Y|2X)={\tfrac {3}{10}}\times 2X$ 를 의미하는 것은 아닙니다; 오히려, $\mathbb {E} (Y|2X)={\tfrac {3}{20}}\times 2X={\tfrac {3}{10}}X$ 입니다. 특히, $\mathbb {E} (Y|2X=2)={\tfrac {3}{10}}$ 입니다. 보다 일반적으로, 모든 가능한 값 X의 집합에서 일-대-일인 모든 각 함수 g에 대해 $\mathbb {E} (Y|g(X))=\mathbb {E} (Y|X)$ 입니다. X의 값은 관련이 없습니다; 중요한 것은 (α_X로 표시됨) 표본 공간 Ω를 서로소 집합 {X = x_n}으로의 분할입니다:

\Omega =\{X=x_{1}\}\uplus \{X=x_{2}\}\uplus \dots

(여기서 $x_{1},x_{2},\ldots$ 는 X의 모든 가능한 값입니다.) Ω의 임의적인 분할 α가 주어지면, 확률 변수 $\mathbb {E} (Y|\alpha )$ 를 정의할 수 있습니다. 그래도 여전히, $\mathbb {E} (\mathbb {E} (Y|\alpha ))=\mathbb {E} (Y)$ 입니다.

다른 한편으로, 사건 B에 대한 조건화는 B를 여러 부분 중 하나로 포함할 수 있는 분할에 관계없이 $\mathbb {P} (B)\neq 0$ 라는 조건 아래에서 잘-정의됩니다.

Conditional distribution

X = x가 주어지면, Y의 조건부 분포는 0 ≤ y ≤ min ( 3, x )에 대해 다음과 같습니다:

\mathbb {P} (Y=y|X=x)={\frac {{\binom {3}{y}}{\binom {7}{x-y}}}{\binom {10}{x}}}={\frac {{\binom {x}{y}}{\binom {10-x}{3-y}}}{\binom {10}{3}}}

그것은 초기하 분포(hypergeometric distribution) H ( x; 3, 7 ), 또는 동등하게, H ( 3; x, 10-x )입니다. H ( n; R, W )에 대해, 다음과 같은 일반적인 공식에서 얻은 해당하는 기대 0.3 x는

n{\frac {R}{R+W}}

조건부 기대 E (Y | X = x) = 0.3 x일 뿐입니다.

H ( X; 3, 7 )를 확률 분포 ({0,1,2,3}에 대한 모든 측정의 4-차원 공간에 있는 확률 벡터)로 취급하면, Y의 무조건적 분포를 얻는 기대를 취할 수 있습니다 — 이항 분포(binomial distribution) Bin ( 3, 0.5 )입니다. 이 사실은 y = 0,1,2,3에 대해 상등에 해당합니다:

\sum _{x=0}^{10}\mathbb {P} (Y=y|X=x)\mathbb {P} (X=x)=\mathbb {P} (Y=y)={\frac {1}{2^{3}}}{\binom {3}{y}}

이것은 전체 확률의 법칙(law of total probability)의 사례입니다.

Conditioning on the level of densities

예제. 구 x² + y² + z² = 1의 한 점은 구의 균등 분포에 따라 무작위로 선택됩니다. 확률 변수 X, Y, Z는 무작위 점의 좌표입니다. X, Y, Z의 결합 밀도는 존재하지 않지만 (왜냐하면 구의 부피가 0이므로), X, Y의 결합 밀도 f_X,Y는 존재합니다:

f_{X,Y}(x,y)={\begin{cases}{\frac {1}{2\pi {\sqrt {1-x^{2}-y^{2}}}}}&{\text{if }}x^{2}+y^{2}<1,\\0&{\text{otherwise}}.\end{cases}}

(구와 평면 사이의 각도가 일정하지 않기 때문에 밀도가 일정하지 않습니다.) X의 밀도는 적분에 의해 계산될 수 있습니다:

f_{X}(x)=\int _{-\infty }^{+\infty }f_{X,Y}(x,y)\,\mathrm {d} y=\int _{-{\sqrt {1-x^{2}}}}^{+{\sqrt {1-x^{2}}}}{\frac {\mathrm {d} y}{2\pi {\sqrt {1-x^{2}-y^{2}}}}}\,;

놀랍게도, 결과는 (−1,1)에서 x에 의존하지 않습니다:

f_{X}(x)={\begin{cases}0.5&{\text{for }}-1<x<1,\\0&{\text{otherwise}},\end{cases}}

이는 X가 (−1,1) 위에 균등하게 분포됨을 의미합니다. 같은 것은 Y와 Z에 대해 참입니다 (그리고 실제로, a² + b² + c² = 1일 때마다 aX + bY + cZ에 대해서도 마찬가지입니다).

예제. 주변 분포 함수를 계산하는 다른 측정은 다음에 의해 제공됩니다:^[1]^[2]

f_{X,Y,Z}(x,y,z)={\frac {3}{4\pi }}

f_{X}(x)=\int _{-{\sqrt {1-y^{2}-x^{2}}}}^{+{\sqrt {1-y^{2}-x^{2}}}}\int _{-{\sqrt {1-x^{2}}}}^{+{\sqrt {1-x^{2}}}}{\frac {3\mathrm {d} y\mathrm {d} z}{4\pi }}=3{\sqrt {1-x^{2}}}/4\,;

Conditional probability

Calculation

X = 0.5라고 주어지면, 사건 Y ≤ 0.75의 조건부 확률은 다음과 같은 조건부 밀도의 적분입니다:

f_{Y|X=0.5}(y)={\frac {f_{X,Y}(0.5,y)}{f_{X}(0.5)}}={\begin{cases}{\frac {1}{\pi {\sqrt {0.75-y^{2}}}}}&{\text{for }}-{\sqrt {0.75}}<y<{\sqrt {0.75}},\\0&{\text{otherwise}}.\end{cases}}

\mathbb {P} (Y\leq 0.75|X=0.5)=\int _{-\infty }^{0.75}f_{Y|X=0.5}(y)\,\mathrm {d} y=\int _{-{\sqrt {0.75}}}^{0.75}{\frac {\mathrm {d} y}{\pi {\sqrt {0.75-y^{2}}}}}={\tfrac {1}{2}}+{\tfrac {1}{\pi }}\arcsin {\sqrt {0.75}}={\tfrac {5}{6}}.

보다 일반적으로, −1 < x < 1 (그렇지 않으면 분모 f_X(x)가 사라짐)와 $\textstyle -{\sqrt {1-x^{2}}}<y<{\sqrt {1-x^{2}}}$ (그렇지 않으면 조건부 확률은 0또는 1로 퇴화됨)임을 만족하는 모든 x와 y에 대해

\mathbb {P} (Y\leq y|X=x)={\tfrac {1}{2}}+{\tfrac {1}{\pi }}\arcsin {\frac {y}{\sqrt {1-x^{2}}}}

조건부 확률을 확률 변수로 취급할 수도 있습니다 — 확률 변수 X의 함수, 즉,

\mathbb {P} (Y\leq y|X)={\begin{cases}0&{\text{for }}X^{2}\geq 1-y^{2}{\text{ and }}y<0,\\{\frac {1}{2}}+{\frac {1}{\pi }}\arcsin {\frac {y}{\sqrt {1-X^{2}}}}&{\text{for }}X^{2}<1-y^{2},\\1&{\text{for }}X^{2}\geq 1-y^{2}{\text{ and }}y>0.\end{cases}}

이 확률 변수의 기대는 (무조건부) 확률과 같습니다:

\mathbb {E} (\mathbb {P} (Y\leq y|X))=\int _{-\infty }^{+\infty }\mathbb {P} (Y\leq y|X=x)f_{X}(x)\,\mathrm {d} x=\mathbb {P} (Y\leq y),

이는 전체 확률의 법칙(law of total probability) E ( P ( A | X ) ) = P ( A )의 사례입니다.

Interpretation

조건부 확률 P ( Y ≤ 0.75 | X = 0.5 )는 P ( Y ≤ 0.75, X = 0.5 ) / P ( X = 0.5 )로 해석될 수 없는데, 왜냐하면 후자는 0/0을 제공하기 때문입니다. 이에 따라서, P ( Y ≤ 0.75 | X = 0.5 )는 경험적 빈도를 통해 해석될 수 없는데, 왜냐하면 정확한 값 X = 0.5는 독립적인 시행의 무한 순서열 중에 한 번도 무작위로 나타날 기회가 없기 때문입니다.

조건부 확률은 극한으로 해석될 수 있습니다:

{\begin{aligned}\mathbb {P} (Y\leq 0.75|X=0.5)&=\lim _{\varepsilon \to 0+}\mathbb {P} (Y\leq 0.75|0.5-\varepsilon <X<0.5+\varepsilon )\\&=\lim _{\varepsilon \to 0+}{\frac {\mathbb {P} (Y\leq 0.75,0.5-\varepsilon <X<0.5+\varepsilon )}{\mathbb {P} (0.5-\varepsilon <X<0.5+\varepsilon )}}\\&=\lim _{\varepsilon \to 0+}{\frac {\int _{0.5-\varepsilon }^{0.5+\varepsilon }\mathrm {d} x\int _{-\infty }^{0.75}\mathrm {d} y\,f_{X,Y}(x,y)}{\int _{0.5-\varepsilon }^{0.5+\varepsilon }\mathrm {d} x\,f_{X}(x)}}.\end{aligned}}

Conditional expectation

{\begin{aligned}|Z|&=h(X,Y)={\sqrt {1-X^{2}-Y^{2}}};\\\mathrm {E} (|Z||X=0.5)&=\int _{-\infty }^{+\infty }h(0.5,y)f_{Y|X=0.5}(y)\,\mathrm {d} y=\\&=\int _{-{\sqrt {0.75}}}^{+{\sqrt {0.75}}}{\sqrt {0.75-y^{2}}}\cdot {\frac {\mathrm {d} y}{\pi {\sqrt {0.75-y^{2}}}}}\\&={\frac {2}{\pi }}{\sqrt {0.75}}.\end{aligned}}

보다 일반적으로, −1 < x < 1에 대해,

\mathbb {E} (|Z||X=x)={\frac {2}{\pi }}{\sqrt {1-x^{2}}}

조건부 기대치를 확률 변수로 취급할 수도 있습니다 — 확률 변수 X의 함수, 즉,

\mathbb {E} (|Z||X)={\frac {2}{\pi }}{\sqrt {1-X^{2}}}.

이 확률 변수의 기대는 |Z|의 (무조건적인) 기대와 같습니다:

\mathbb {E} (\mathbb {E} (|Z||X))=\int _{-\infty }^{+\infty }\mathbb {E} (|Z||X=x)f_{X}(x)\,\mathrm {d} x=\mathbb {E} (|Z|),

즉,

\int _{-1}^{+1}{\frac {2}{\pi }}{\sqrt {1-x^{2}}}\cdot {\frac {\mathrm {d} x}{2}}={\tfrac {1}{2}},

이는 전체 기대의 법칙(law of total expectation) E ( E ( Y | X ) ) = E ( Y )의 사례입니다.

확률 변수 E(|Z| | X)는 X가 주어졌을 때 |Z|의 최상의 예측기입니다. 즉, 그것은 형식 f(X)의 모든 확률 변수의 클래스에 대한 평균 제곱 오차 E ( |Z| - f(X) )²를 최소화합니다. 이산 사례와 유사하게, (−1,1) 위에 일-대-일인 모든 각 측정-가능한 함수 g에 대해 E ( |Z| | g(X) ) = E ( |Z| | X )입니다.

Conditional distribution

X = x가 주어지면, 밀도 f_Y|X=x(y)에 의해 주어진 Y의 조건부 분포는 (다시-크기 조절된) 아크사인 분포입니다; 그것의 누적 분포 함수는 x² + y² < 1임을 만족하는 모든 x와 y에 대해 다음과 같습니다:

F_{Y|X=x}(y)=\mathbb {P} (Y\leq y|X=x)={\frac {1}{2}}+{\frac {1}{\pi }}\arcsin {\frac {y}{\sqrt {1-x^{2}}}}

h(x,Y)의 해당하는 기대는 조건부 기대 E ( h(X,Y) | X=x )에 불과합니다. (X의 분포에 따라) 모든 x에 대해 취한 이들 조건부 분포의 혼합(mixture)은 Y의 무조건부 분포입니다. 이 사실은 다음 상등에 해당합니다:

{\begin{aligned}&\int _{-\infty }^{+\infty }f_{Y|X=x}(y)f_{X}(x)\,\mathrm {d} x=f_{Y}(y),\\&\int _{-\infty }^{+\infty }F_{Y|X=x}(y)f_{X}(x)\,\mathrm {d} x=F_{Y}(y),\end{aligned}}

후자는 위에서 언급된 전체 확률 법칙의 사례입니다.

What conditioning is not

이산 수준에서, 조건화는 조건이 비-영 확률 (0으로 나눌 수 없음)인 경우에만 가능합니다. 밀도의 수준에서, X = x에 대한 조건화는 P ( X = x ) = 0임에도 불구하고 가능합니다. 이 성공은 조건화가 항상 가능하다는 환상을 만들 수 있습니다. 유감스럽게도, 아래에 제시된 몇 가지 이유로 그렇지 않습니다.

Geometric intuition: caution

위에서 언급한 결과 P ( Y ≤ 0.75 | X = 0.5 ) = 5/6는 다음과 같은 의미에서 기하학적으로 명백합니다. 조건 x = 0.5을 만족시키는 구 x² + y² + z² = 1의 점 (x,y,z)는 평면 x = 0.5에서 반지름 ${\sqrt {0.75}}$ 의 원 y² + z² = 0.75입니다. 부등식 y ≤ 0.75는 호 위에 유지됩니다. 호의 길이는 원의 길이의 5/6이며, 이는 조건부 확률이 5/6과 같은 이유입니다.

이 성공적인 기하학적 설명은 다음 질문이 자명하다는 착각을 일으킬 수 있습니다.

주어진 구의 한 점이 무작위로 (균등하게) 선택됩니다. 그 점이 주어진 평면 위에 있다고 주어지면, 조건부 분포는 무엇입니까?

주어진 원 (주어진 구와 주어진 평면의 교차점)에서 조건부 분포가 균등해야 한다는 것이 명백해 보일 수 있습니다. 때로는 실제로 그렇지만 일반적으로 그렇지 않습니다. 특히, Z는 (–1,+1) 위에 균등하게 분포되고 비율 Y/X와 독립적이며, 따라서, P ( Z ≤ 0.5 | Y/X ) = 0.75입니다. 다른 한편으로, 부등식 z ≤ 0.5는 원 x² + y² + z² = 1, y = cx (임의의 c에 대해)의 호 위에 유지됩니다. 호의 길이는 원의 길이의 2/3입니다. 어쨌든, 조건부 확률은 2/3이 아니라 3/4입니다. 이것은 고전적인 보렐 역설의 표현입니다.^[3]^[4]

대칭성에 대한 호소는 만약 불변 인수로 형식화되지 않으면 오해의 소지가 있을 수 있습니다.
— Pollard^[5]

또 다른 예제. 삼-차원 공간의 확률 회전(random rotation)은 무작위 축을 중심으로 무작위 각도로 회전하는 것입니다. 기하학적 직관에 따르면 각도는 축과 독립적이고 균등하게 분포됩니다. 어쨌든, 후자는 틀렸습니다; 각도의 작은 값은 가능성이 낮습니다.

The limiting procedure

영 확률의 사건 B가 주어지면, 공식 $\textstyle \mathbb {P} (A|B)=\mathbb {P} (A\cap B)/\mathbb {P} (B)$ 는 쓸모가 없지만, B_n ↓ B (즉, $\textstyle B_{1}\supset B_{2}\supset \dots$ 및 $\textstyle B_{1}\cap B_{2}\cap \dots =B$ )를 만족하는 비-영 확률의 적절한 일련의 사건 B_n에 대해 $\textstyle \mathbb {P} (A|B)=\lim _{n\to \infty }\mathbb {P} (A\cap B_{n})/\mathbb {P} (B_{n})$ 를 시도할 수 있습니다. 위에 한 가지 예제가 나와 있습니다. 또 다른 두 가지 예제는 브라운 다리와 브라운 소풍입니다.

후자의 두 예에서, 전체 확률의 법칙은 관련이 없는데, 왜냐하면 단일 사건 (조건)만 제공되기 때문입니다. 대조적으로, 위의 예제에서, 전체 확률의 법칙이 적용되는데, 왜냐하면 사건 X = 0.5는 사건의 가족 X = x에 포함되며, 여기서 x는 (−1,1)을 초과하고, 이들 사건은 확률 공간의 분할이기 때문입니다.

역설 (예를 들어 보렐의 역설)을 피하기 위해, 다음과 같은 중요한 구분이 고려되어야 합니다. 만약 주어진 사건의 확률이 비-영이면, 위에서 언급한 것처럼 그것에 대한 조건화는 (임의의 다른 사건에 관계없이) 잘-정의되어 있습니다. 대조적으로, 만약 주어진 사건이 영 확률의 것이면, 일부 추가 입력이 제공되지 않은 한 그것에 대한 조건화는 잘못-정의됩니다. 이 추가 입력을 잘못 선택하면, 잘못된 조건부 확률 (예상, 분포)로 이어집니다. 이런 의미에서, "확률이 영과 같은 고립된 가설에 관한 조건부 확률의 개념은 허용되지 않습니다." (Kolmogorov^[5])

추가 입력은 (a) 대칭 (불변 그룹); (b) B_n ↓ B, P ( B_n ) > 0을 만족하는 사건 B_n의 순서열; (c) 주어진 사건을 포함하는 분할. 측정-이론적 조건화 (아래)는 사례 (c)를 조사하고, 일반적으로 (b)와의 관계와 적용-가능할 때 (a)와의 관계를 공개합니다.

영 확률의 일부 사건은 조건화의 범위를 벗어납니다. 예제: X_n을 (0,1) 위에 균등하게 분포된 독립 확률 변수라고 놓고, B를 사건 "X_n → 0 as n → ∞"라고 놓습니다; P ( X_n < 0.5 | B )에 대한 것이 무엇입니까? 그것이 1이 되는 경향이 있습니까? 또 다른 예제: X를 (0,1) 위에 균등하게 분포된 확률 변수라고 놓고, B를 사건 "X는 유리수이다"라고 놓습니다; P ( X = 1/n | B )에 대한 것은 무엇입니까? 유일한 대답은 다시 한 번 다음과 같습니다:

그 확률이 0과 같은 고립된 가설에 관한 조건부 확률의 개념은 허용되지 않습니다.
— Kolmogorov^[5]

Conditioning on the level of measure theory

예제. Y를 (0,1) 위에 균등하게 분포된 확률 변수라고 놓고, X = f(Y) 여기서 f는 주어진 함수입니다. 두 가지 경우가 아래에서 처리됩니다: f = f₁ 및 f = f₂, 여기서 f₁은 다음과 같은 연속 조각-별 선형 함수입니다:

f_{1}(y)={\begin{cases}3y&{\text{for }}0\leq y\leq 1/3,\\1.5(1-y)&{\text{for }}1/3\leq y\leq 2/3,\\0.5&{\text{for }}2/3\leq y\leq 1,\end{cases}}

그리고 f₂는 바이어슈트라스 함수(Weierstrass function)입니다.

Geometric intuition: caution

X = 0.75가 주어지면, Y의 두 값, 0.25와 0.5가 가능합니다. 한 점이 또 다른 점과 합동(congruent)이기 때문에 두 값 모두 조건부 확률 0.5인 것이 분명해 보일 수 있습니다. 어쨌든, 이것은 환상입니다; 아래를 참조하십시오.

Conditional probability

조건부 확률 P ( Y ≤ 1/3 | X )는 X가 주어졌을 때 다음 지시 함수의 최상의 예측기로 정의될 수 있습니다:

I={\begin{cases}1&{\text{if }}Y\leq 1/3,\\0&{\text{otherwise}},\end{cases}}

즉, 그것은 g (X) 형식의 모든 확률 변수의 클래스에 대한 평균 제곱 오차 E ( I - g(X) )²를 최소화합니다.

경우 f = f₁에서, 해당하는 함수 g = g₁은 명시적으로 계산될 수 있습니다,^{[details 1]}

g_{1}(x)={\begin{cases}1&{\text{for }}0<x<0.5,\\0&{\text{for }}x=0.5,\\1/3&{\text{for }}0.5<x<1.\end{cases}}

대안적으로, 극한하는 절차가 사용될 수 있습니다:

g_{1}(x)=\lim _{\varepsilon \to 0+}\mathbb {P} (Y\leq 1/3|x-\varepsilon \leq X\leq x+\varepsilon )\,,

같은 결과를 제공합니다.

따라서, P ( Y ≤ 1/3 | X ) = g₁ (X). 이 확률 변수의 기대는 (무조건부) 확률 E ( P ( Y ≤ 1/3 | X ) ) = P ( Y ≤ 1/3 )와 같으며, 즉,

1\cdot \mathbb {P} (X<0.5)+0\cdot \mathbb {P} (X=0.5)+{\frac {1}{3}}\cdot \mathbb {P} (X>0.5)=1\cdot {\frac {1}{6}}+0\cdot {\frac {1}{3}}+{\frac {1}{3}}\cdot \left({\frac {1}{6}}+{\frac {1}{3}}\right)={\frac {1}{3}},

이는 전체 확률의 법칙(law of total probability) E ( P ( A | X ) ) = P ( A )의 사례입니다.

경우 f = f₂에서, 해당하는 함수 g = g₂는 아마도 명시적으로 계산될 수 없습니다. 그럼에도 불구하고, 그것은 존재하고, 수치적으로 계산될 수 있습니다. 실제로, 모든 제곱 적분-가능 확률 변수의 공간(space) L₂ (Ω)는 힐베르트 공간(Hilbert space)입니다; 지시 I는 이 공간의 벡터입니다; 그리고 g(X) 형식의 확률 변수는 (닫힌, 선형) 부분공간입니다. 이 부분 공간에 대한 이 벡터의 직교 투영(orthogonal projection)은 잘-정의되어 있습니다. 그것은 무한-차원 힐베르트 공간에 대한 유한-차원 근사(finite-dimensional approximations)를 사용하여 수치적으로 계산될 수 있습니다.

다시 한 번, 확률 변수 P ( Y ≤ 1/3 | X ) = g₂ (X)의 기대는 (무조건부) 확률 E ( P ( Y ≤ 1/3 | X ) ) = P ( Y ≤ 1/3 )과 같으며, 즉,

\int _{0}^{1}g_{2}(f_{2}(y))\,\mathrm {d} y={\tfrac {1}{3}}.

어쨌든, 힐베르트 공간 접근 방식은 g₂를 개별 함수가 아닌 함수의 동치 클래스로 취급합니다. g₂의 측정-가능성은 보장되지만, 연속성 (또는 심지어 리만 적분-가능성)은 보장되지 않습니다. 값 g₂ (0.5)는 점 0.5가 X의 분포의 원자이기 때문에 고유하게 결정됩니다. 다른 값 x는 원자가 아니며, 따라서, 해당하는 값 g₂ (x)는 고유하게 결정되지 않습니다. 다시 한 번, "그 확률이 영과 같은 고립된 가설에 관한 조건부 확률의 개념은 허용되지 않습니다." (Kolmogorov.^[5])

대안적으로, 같은 함수 g (g1 또는 g2가 됨)는 라돈–니코딤 도함수(Radon–Nikodym derivative)로 정의될 수 있습니다:

g={\frac {\mathrm {d} \nu }{\mathrm {d} \mu }},

여기서 측정 μ, ν는 모든 보렐 집합 $B\subset \mathbb {R}$ 에 대해 다음에 의해 정의됩니다:

{\begin{aligned}\mu (B)&=\mathbb {P} (X\in B),\\\nu (B)&=\mathbb {P} (X\in B,\,Y\leq {\tfrac {1}{3}})\end{aligned}}

즉, μ는 X의 (무조건부) 분포이고, 반면에 ν는 조건부 분포의 1/3입니다:

\nu (B)=\mathbb {P} (X\in B|Y\leq {\tfrac {1}{3}})\mathbb {P} (Y\leq {\tfrac {1}{3}})={\tfrac {1}{3}}\mathbb {P} (X\in B|Y\leq {\tfrac {1}{3}}).

(힐베르트 공간과 라돈-니코딤 도함수를 통한) 접근 방식 둘 다는 g를 함수의 동치 클래스로 취급합니다; 두 함수 g와 g′은 g (X) = g′ (X)가 거의 확실하면 동등한 것으로 취급됩니다. 이에 따라, 조건부 확률 P ( Y ≤ 1/3 | X )은 확률 변수의 동치 클래스로 취급됩니다; 평소와 같이, 두 확률 변수는 만약 그것들이 거의 확실하게 같으면 동등한 것으로 취급됩니다.

Conditional expectation

조건부 기대 $\mathbb {E} (Y|X)$ 는 X가 주어졌을 때 Y의 최상의 예측기로 정의될 수 있습니다. 즉, 그것은 h(X) 형식의 모든 확률 변수의 클래스에 대한 평균 제곱 오차 $\mathbb {E} (Y-h(X))^{2}$ 를 최소화합니다.

경우 f = f₁에서, 해당하는 함수 h = h₁는 명시적으로 계산될 수 있습니다,^{[details 2]}

h_{1}(x)={\begin{cases}{\frac {x}{3}}&0<x<{\frac {1}{2}}\\[4pt]{\frac {5}{6}}&x={\frac {1}{2}}\\[4pt]{\frac {1}{3}}(2-x)&{\frac {1}{2}}<x<1\end{cases}}

대안적으로, 극한하는 절차가 사용될 수 있습니다:

h_{1}(x)=\lim _{\varepsilon \to 0+}\mathbb {E} (Y|x-\varepsilon \leqslant X\leqslant x+\varepsilon ),

같은 결과를 제공합니다.

따라서, $\mathbb {E} (Y|X)=h_{1}(X)$ 입니다. 이 확률 변수의 기대는 (무조건부) 기대, $\mathbb {E} (\mathbb {E} (Y|X))=\mathbb {E} (Y)$ 와 같으며, 즉,

\int _{0}^{1}h_{1}(f_{1}(y))\,\mathrm {d} y=\int _{0}^{\frac {1}{6}}{\frac {3y}{3}}\,\mathrm {d} y+\int _{\frac {1}{6}}^{\frac {1}{3}}{\frac {2-3y}{3}}\,\mathrm {d} y+\int _{\frac {1}{3}}^{\frac {2}{3}}{\frac {2-{\frac {3}{2}}(1-y)}{3}}\,\mathrm {d} y+\int _{\frac {2}{3}}^{1}{\frac {5}{6}}\,\mathrm {d} y={\frac {1}{2}},

이는 전체 기대의 법칙(law of total expectation) $\mathbb {E} (\mathbb {E} (Y|X))=\mathbb {E} (Y)$ 의 사례입니다.

경우 f = f₂에서, 해당하는 함수 h = h₂는 아마도 명시적으로 계산될 수 없습니다. 그럼에도 불구하고 그것은 존재하고, 위의 g₂ — 힐베르트 공간의 직교 투영과 같은 방법으로 수치적으로 계산될 수 있습니다. 전체 기대의 법칙은 유지되는데, 왜냐하면 투영은 부분공간에 속한 상수 1에 의해 스칼라 곱을 변경할 수 없기 때문입니다.

대안적으로, 같은 함수 h (h₁ 또는 h₂가 됨)는 라돈–니코딤 도함수(Radon–Nikodym derivative)로 정의될 수 있습니다:

h={\frac {\mathrm {d} \nu }{\mathrm {d} \mu }},

여기서 측정 μ, ν는 보렐 집합 $B\subset \mathbb {R}$ 에 대해 다음에 의해 정의됩니다:

{\begin{aligned}\mu (B)&=\mathbb {P} (X\in B)\\\nu (B)&=\mathbb {E} (Y,X\in B)\end{aligned}}

여기서 $\mathbb {E} (Y;A)$ 는 제한된 기대이며, 조건부 기대 $\mathbb {E} (Y|A)=\mathbb {E} (Y;A)/\mathbb {P} (A)$ 와 혼동해서는 안됩니다.

Conditional distribution

경우 f = f₁에서, 조건부 누적 분포 함수(cumulative distribution function)는 g₁에 대한 것과 유사하게 명시적으로 계산될 수 있습니다. 극한하는 절차는 다음과 같이 제공합니다:

F_{Y|X={\frac {3}{4}}}(y)=\mathbb {P} \left(Y\leqslant y\left|X={\tfrac {3}{4}}\right.\right)=\lim _{\varepsilon \to 0^{+}}\mathbb {P} \left(Y\leqslant y\left|{\tfrac {3}{4}}-\varepsilon \leqslant X\leqslant {\tfrac {3}{4}}+\varepsilon \right.\right)={\begin{cases}0&-\infty <y<{\tfrac {1}{4}}\\[4pt]{\tfrac {1}{6}}&y={\tfrac {1}{4}}\\[4pt]{\tfrac {1}{3}}&{\tfrac {1}{4}}<y<{\tfrac {1}{2}}\\[4pt]{\tfrac {2}{3}}&y={\tfrac {1}{2}}\\[4pt]1&{\tfrac {1}{2}}<y<\infty \end{cases}}

이는 정확하지 않은데, 왜냐하면 누적 분포 함수는 오른쪽-연속(right-continuous)이기 때문입니다!

이 역설적인 결과는 측정 이론에 의해 다음과 같이 설명됩니다. 주어진 y에 대해, 해당하는 $F_{Y|X=x}(y)=\mathbb {P} (Y\leqslant y|X=x)$ 는 (x의) 함수의 동치 클래스로 (힐베르트 공간 또는 라돈-니코딤 도함수를 통해) 잘-정의되어 있습니다. 주어진 x에 대해 y의 함수로 취급된, 그것은 일부 추가적인 입력이 제공되지 않은 한 잘못 정의됩니다. 즉, (x의) 함수는 모든 각 (또는 적어도 거의 모든 각) 동치 클래스 내에서 선택되어야 합니다. 잘못된 선택은 잘못된 조건부 누적 분포 함수로 이어집니다.

올바른 선택은 다음과 같이 할 수 있습니다. 먼저, $F_{Y|X=x}(y)=\mathbb {P} (Y\leqslant y|X=x)$ 는 유리수 y에 대해서만 고려됩니다. (임의의 다른 조밀한 셀-수-있는 집합도 똑같이 잘 사용될 수 있습니다.) 따라서, 동치 클래스의 셀-수-있는 집합만 사용됩니다; 이들 클래스 내에서 함수의 모든 선택은 서로 동등하고, 유리수 y의 해당하는 함수는 (거의 모든 각 x에 대해) 잘-정의되어 있습니다. 둘째, 함수는 오른쪽 연속성에 의해 유리수에서 실수로 확장됩니다.

일반적으로 조건부 분포는 (X의 분포에 따라) 거의 모든 x에 대해 정의되지만, 때때로 결과가 x에서 연속적이며, 이 경우에서 개별 값이 허용됩니다. 고려된 예제에서 이것이 사실입니다; x = 0.75에 대한 올바른 결과,

F_{Y|X={\frac {3}{4}}}(y)=\mathbb {P} \left(Y\leqslant y\left|X={\tfrac {3}{4}}\right.\right)={\begin{cases}0&-\infty <y<{\tfrac {1}{4}}\\[4pt]{\tfrac {1}{3}}&{\tfrac {1}{4}}\leqslant y<{\tfrac {1}{2}}\\[4pt]1&{\tfrac {1}{2}}\leqslant y<\infty \end{cases}}

이는 X = 0.75이 주어졌을 때 Y의 조건부 분포는 각각 확률 1/3 및 2/3의 0.25 및 0.5에서 두 원자로 구성됨을 보여줍니다.

유사하게, 조건부 분포는 (0, 0.5) 또는 (0.5, 1)에서 모든 x에 대해 계산될 수 있습니다.

값 x = 0.5는 X의 분포의 원자이며, 따라서, 해당하는 조건부 분포는 잘-정의되어 있고 기본적인 수단으로 계산될 수 있습니다 (분모는 사라지지 않습니다); X = 0.5가 주어졌을 때 Y의 조건부 분포는 (2/3, 1) 위에 균등합니다. 측정 이론은 같은 결과로 이어집니다.

모든 조건부 분포의 혼합은 Y의 (무조건부) 분포입니다.

조건부 기대 $\mathbb {E} (Y|X=x)$ 는 조건부 분포에 관한 기대에 불과합니다.

경우 f = f₂에서, 해당하는 $F_{Y|X=x}(y)=\mathbb {P} (Y\leqslant y|X=x)$ 는 아마도 명시적으로 계산될 수 없습니다. 주어진 y에 대해, 그것은 (힐베르트 공간 또는 라돈-니코딤 도함수를 통해) (x의) 함수의 동치 클래스로 잘-정의됩니다. 이들 동치 클래스 내에서 함수의 올바른 선택은 위와 같이 할 수 있습니다; 그것은 올바른 조건부 누적 분포 함수, 즉, 조건부 분포로 이어집니다. 일반적으로, 조건부 분포는 원자적(atomic)이거나 절대적으로 연속적(absolutely continuous)일 필요는 없습니다 (두 유형의 혼합도 아닙니다). 아마도, 고려된 예제에서 그것들은 (칸토어 분포와 같이) 특이(singular)입니다 .

다시 한번, 모든 조건부 분포의 혼합은 (무조건부) 분포이고, 조건부 기대는 조건부 분포에 관한 기대입니다.

Technical details

^ Proof:
${\begin{aligned}\mathbb {E} (I-g(X))^{2}&=\int _{0}^{1/3}(1-g(3y))^{2}\,\mathrm {d} y+\int _{1/3}^{2/3}g^{2}(1.5(1-y))\,\mathrm {d} y+\int _{2/3}^{1}g^{2}(0.5)\,\mathrm {d} y\\&=\int _{0}^{1}(1-g(x))^{2}{\frac {\mathrm {d} x}{3}}+\int _{0.5}^{1}g^{2}(x){\frac {\mathrm {d} x}{1.5}}+{\frac {1}{3}}g^{2}(0.5)\\&={\frac {1}{3}}\int _{0}^{0.5}(1-g(x))^{2}\,\mathrm {d} x+{\frac {1}{3}}g^{2}(0.5)+{\frac {1}{3}}\int _{0.5}^{1}((1-g(x))^{2}+2g^{2}(x))\,\mathrm {d} x\,;\end{aligned}}$
it remains to note that (1−a )² + 2a² is minimal at a = 1/3.
^ Proof:
${\begin{aligned}\mathbb {E} (Y-h_{1}(X))^{2}&=\int _{0}^{1}\left(y-h_{1}(f_{1}(x))\right)^{2}\,\mathrm {d} y\\&=\int _{0}^{\frac {1}{3}}(y-h_{1}(3y))^{2}\,\mathrm {d} y+\int _{\frac {1}{3}}^{\frac {2}{3}}\left(y-h_{1}(1.5(1-y))\right)^{2}\,\mathrm {d} y+\int _{\frac {2}{3}}^{1}\left(y-h_{1}({\tfrac {1}{2}})\right)^{2}\,\mathrm {d} y\\&=\int _{0}^{1}\left({\frac {x}{3}}-h_{1}(x)\right)^{2}{\frac {\mathrm {d} x}{3}}+\int _{\frac {1}{2}}^{1}\left(1-{\frac {x}{1.5}}-h_{1}(x)\right)^{2}{\frac {\mathrm {d} x}{1.5}}+{\frac {1}{3}}h_{1}^{2}({\tfrac {1}{2}})-{\frac {5}{9}}h_{1}({\tfrac {1}{2}})+{\frac {19}{81}}\\&={\frac {1}{3}}\int _{0}^{\frac {1}{2}}\left(h_{1}(x)-{\frac {x}{3}}\right)^{2}\,\mathrm {d} x+{\tfrac {1}{3}}h_{1}^{2}({\tfrac {1}{2}})-{\tfrac {5}{9}}h_{1}({\tfrac {1}{2}})+{\tfrac {19}{81}}+{\tfrac {1}{3}}\int _{\frac {1}{2}}^{1}\left(\left(h_{1}(x)-{\frac {x}{3}}\right)^{2}+2\left(h_{1}(x)-1+{\frac {2x}{3}}\right)^{2}\right)\,\mathrm {d} x;\end{aligned}}$
it remains to note that
$\left(a-{\frac {x}{3}}\right)^{2}+2\left(a-1+{\frac {2x}{3}}\right)^{2}$
is minimal at $a={\tfrac {2-x}{3}},$ and ${\tfrac {1}{3}}a^{2}-{\tfrac {5}{9}}a$ is minimal at $a={\tfrac {5}{6}}.$

Notes

^ Buchanan, K.; Huff, G. H. (July 2011). "A comparison of geometrically bound random arrays in euclidean space". 2011 IEEE International Symposium on Antennas and Propagation (APSURSI): 2008–2011. doi:10.1109/APS.2011.5996900. ISBN 978-1-4244-9563-4.
^ Buchanan, K.; Flores, C.; Wheeland, S.; Jensen, J.; Grayson, D.; Huff, G. (May 2017). "Transmit beamforming for radar applications using circularly tapered random arrays". 2017 IEEE Radar Conference: 0112–0117. doi:10.1109/RADAR.2017.7944181. ISBN 978-1-4673-8823-8.
^ Pollard 2002, Sect. 5.5, Example 17 on page 122.
^ Durrett 1996, Sect. 4.1(a), Example 1.6 on page 224.
^ ^a ^b ^c ^d Pollard 2002, Sect. 5.5, page 122.

References

Durrett, Richard (1996), Probability: theory and examples (Second ed.)
Pollard, David (2002), A user's guide to measure theoretic probability, Cambridge University Press
Draheim, Dirk (2017) Generalized Jeffrey Conditionalization (A Frequentist Semantics of Partial Conditionalization), Springer

[6] Proof:
${\begin{aligned}\mathbb {E} (I-g(X))^{2}&=\int _{0}^{1/3}(1-g(3y))^{2}\,\mathrm {d} y+\int _{1/3}^{2/3}g^{2}(1.5(1-y))\,\mathrm {d} y+\int _{2/3}^{1}g^{2}(0.5)\,\mathrm {d} y\\&=\int _{0}^{1}(1-g(x))^{2}{\frac {\mathrm {d} x}{3}}+\int _{0.5}^{1}g^{2}(x){\frac {\mathrm {d} x}{1.5}}+{\frac {1}{3}}g^{2}(0.5)\\&={\frac {1}{3}}\int _{0}^{0.5}(1-g(x))^{2}\,\mathrm {d} x+{\frac {1}{3}}g^{2}(0.5)+{\frac {1}{3}}\int _{0.5}^{1}((1-g(x))^{2}+2g^{2}(x))\,\mathrm {d} x\,;\end{aligned}}$
it remains to note that (1−a )² + 2a² is minimal at a = 1/3.

[7] Proof:
${\begin{aligned}\mathbb {E} (Y-h_{1}(X))^{2}&=\int _{0}^{1}\left(y-h_{1}(f_{1}(x))\right)^{2}\,\mathrm {d} y\\&=\int _{0}^{\frac {1}{3}}(y-h_{1}(3y))^{2}\,\mathrm {d} y+\int _{\frac {1}{3}}^{\frac {2}{3}}\left(y-h_{1}(1.5(1-y))\right)^{2}\,\mathrm {d} y+\int _{\frac {2}{3}}^{1}\left(y-h_{1}({\tfrac {1}{2}})\right)^{2}\,\mathrm {d} y\\&=\int _{0}^{1}\left({\frac {x}{3}}-h_{1}(x)\right)^{2}{\frac {\mathrm {d} x}{3}}+\int _{\frac {1}{2}}^{1}\left(1-{\frac {x}{1.5}}-h_{1}(x)\right)^{2}{\frac {\mathrm {d} x}{1.5}}+{\frac {1}{3}}h_{1}^{2}({\tfrac {1}{2}})-{\frac {5}{9}}h_{1}({\tfrac {1}{2}})+{\frac {19}{81}}\\&={\frac {1}{3}}\int _{0}^{\frac {1}{2}}\left(h_{1}(x)-{\frac {x}{3}}\right)^{2}\,\mathrm {d} x+{\tfrac {1}{3}}h_{1}^{2}({\tfrac {1}{2}})-{\tfrac {5}{9}}h_{1}({\tfrac {1}{2}})+{\tfrac {19}{81}}+{\tfrac {1}{3}}\int _{\frac {1}{2}}^{1}\left(\left(h_{1}(x)-{\frac {x}{3}}\right)^{2}+2\left(h_{1}(x)-1+{\frac {2x}{3}}\right)^{2}\right)\,\mathrm {d} x;\end{aligned}}$
it remains to note that
$\left(a-{\frac {x}{3}}\right)^{2}+2\left(a-1+{\frac {2x}{3}}\right)^{2}$
is minimal at $a={\tfrac {2-x}{3}},$ and ${\tfrac {1}{3}}a^{2}-{\tfrac {5}{9}}a$ is minimal at $a={\tfrac {5}{6}}.$

[1] Buchanan, K.; Huff, G. H. (July 2011). "A comparison of geometrically bound random arrays in euclidean space". 2011 IEEE International Symposium on Antennas and Propagation (APSURSI): 2008–2011. doi:10.1109/APS.2011.5996900. ISBN 978-1-4244-9563-4.

[2] Buchanan, K.; Flores, C.; Wheeland, S.; Jensen, J.; Grayson, D.; Huff, G. (May 2017). "Transmit beamforming for radar applications using circularly tapered random arrays". 2017 IEEE Radar Conference: 0112–0117. doi:10.1109/RADAR.2017.7944181. ISBN 978-1-4673-8823-8.

[FOOTNOTEPollard2002Sect._5.5,_Example_17_on_page_122-3] Pollard 2002, Sect. 5.5, Example 17 on page 122.

[FOOTNOTEDurrett1996Sect._4.1(a),_Example_1.6_on_page_224-4] Durrett 1996, Sect. 4.1(a), Example 1.6 on page 224.

[FOOTNOTEPollard2002Sect._5.5,_page_122-5] Pollard 2002, Sect. 5.5, page 122.

[1]

[2]

[3]

[4]

[5]

[details 1]

[details 2]

Conditioning on the discrete level

Conditional probability

Conditional expectation

Conditional distribution

Conditioning on the level of densities

Conditional probability

Calculation

Interpretation

Conditional expectation

Conditional distribution

What conditioning is not

Geometric intuition: caution

The limiting procedure

Conditioning on the level of measure theory

Geometric intuition: caution

Conditional probability

Conditional expectation

Conditional distribution

Technical details

See also

Notes

References