Jump to content

Joint probability distribution

This is a fully translated article. Click here for more information.
From DawoumWiki, the free Mathematics self-learning
Many sample observations (black) are shown from a joint probability distribution. The marginal densities are shown as well.

확률 공간(probability space) 위에 정의되는, 확률 변수(random variable) 가 주어지면, 에 대해 결합 확률 분포(joint probability distribution)는 의 각각이 해당 변수에 대해 지정된 값의 임의의 특정 범위 또는 이산 집합에 떨어질 확률을 제공하는 확률 분포(probability distribution)입니다. 임의의 두 확률 변수의 경우에서, 이것은 이변수 분포(bivariate distribution)로 불리지만, 개념은 확률 변수의 임의의 숫자로 일반화되며, 다변수 분포(multivariate distribution)를 제공합니다.

결합 확률 분포는 결합 누적 분포 함수(cumulative distribution function)의 관점 또는 (연속 변수(continuous variable)의 경우에서) 결합 확률 밀도 함수(probability density function) 또는 (이산(discrete) 변수의 경우에서) 결합 확률 질량 함수(probability mass function)의 관점에서 표현될 수 있습니다. 이것들은 차례로 분포의 두 다른 유형을 찾기 위해서 사용될 수 있습니다: 다른 변수에 대해 값의 임의의 특정 범위에 대한 참조가 없는 변수 중 임의의 하나에 대해 확률을 제공하는 주변 분포(marginal distribution), 그리고 남아있는 변수의 특정 값을 조건으로 하는 변수의 임의의 부분-집합에 대해 확률을 제공하는 조건부 확률 분포(conditional probability distribution).

Examples

Draws from an urn

두 항아리의 각각은 파란 공보다 두 배나 많은 빨간 공이 있고, 다른 공은 없다고 가정하고, 하나의 공이 각 항아리로부터 무작위로 선택되고, 두 뽑기는 서로 독립적이라고 가정합니다. 를 각각 첫 번째 항아리와 두 번째 항아리로부터 뽑기의 결과와 관련된 이산 확률 변수로 놓습니다. 항아리 중 하나에서 빨간 공을 뽑을 확률은 2/3이고, 파란 공을 뽑을 확률은 1/3입니다. 우리는 결합 확률 분포를 다음 테이블과 같이 나타낼 수 있습니다:

A=빨간공 A=파란공 P(B)
B=빨간공 (2/3)(2/3)=4/9 (1/3)(2/3)=2/9 4/9+2/9=2/3
B=파란공 (2/3)(1/3)=2/9 (1/3)(1/3)=1/9 2/9+1/9=1/3
P(A) 4/9+2/9=2/3 2/9+1/9=1/3

네 개의 내부 셀의 각각은 두 뽑기로부터 결과의 특정 조합의 확률을 보여줍니다; 이들 확률은 결합 분포입니다. 임의의 하나의 셀에서, 발생하는 특정 조합의 확률은 (뽑기가 독립이기 때문에) A에 대해 지정된 결과의 확률과 B에 대해 지정된 결과의 확률의 곱입니다. 이들 네 개의 셀의 확률은 합해서 1인데, 왜냐하면 그것은 확률 분포에 대해 항상 참이기 때문입니다.

게다가, 마지막 행과 마지막 열은 각각 A에 대해 주변 확률 분포와 B에 대해 주변 확률 분포(marginal probability distribution)를 제공합니다. 예를 들어, A에 대해, 이들 셀의 첫 번째는, 셀 위의 열에서 B에 대해 확률이 발생하는 것과 관계없이, 빨강이 되는 A에 대해 확률의 합을 2/3로 제공합니다. 따라서 에 대해 주변 확률 분포는, 테이블의 주변에서, 에 대한 의 확률을 무조건적으로 제공합니다.

Coin flips

공정한 동전(fair coin)의 던지기를 생가해 보십시오. 를 각각 첫 번째와 두 번째 동전 던지기의 결과와 결합된 이산 확률 변수로 놓습니다. 각 동전 던지기는 베르누이 시행(Bernoulli trial)이고 베르누이 분포(Bernoulli distribution)를 가집니다. 만약 동전이 "앞면"을 표시하면, 결합된 확률 변수는 값 1을 취하고, 그렇지 않으면 값 0을 취합니다. 이들 결과의 각각의 확률은 1/2이므로, 주변 (무조건적) 밀도 함수는 다음입니다:

의 결합 확률 밀도 함수는 결과의 각 쌍에 대해 확률을 정의합니다. 모든 가능한 결과는 다음입니다:

각 결과는 같은 가능성을 가지므로, 결합 확률 밀도 함수는 다음이 됩니다:

동전 던지기는 독립이므로, 결합 확률 밀도 함수는 주변의 곱입니다:

Rolling a die

공정한 주사위의 굴림을 고려하고, 만약 숫자가 짝수 (즉, 2, 4, 또는 6)이면 로 놓고 그렇지 않으면 으로 놓습니다. 게다가, 만약 숫자가 소수 (즉, 2, 3, 또는 5)이면 이고 그렇지 않으면 으로 놓습니다.

1 2 3 4 5 6
A 0 1 0 1 0 1
B 0 1 1 0 1 0

그런-다음, 확률 질량 함수로 표현되는, 의 결합 분포는 다음입니다:

이들 확률은 필연적으로 합해서 1인데, 왜냐하면 발생하는 어떤 조합의 확률은 1이기 때문입니다.

Real life example:

플라스틱 병에 세탁 세제를 채우는 생산 시설을 생각해 보십시오. 각 병의 무게 (Y) 및 그것이 포함하는 세탁 세제의 부피 (X)가 측정됩니다.

Marginal probability distribution

만약 하나보다 많은 확률 변수가 확률 실험에서 정의되면, X와 Y의 결합 확률 분포와 개별적으로 각 변수의 확률 분포 사이를 구별하는 것이 중요합니다. 확률 변수의 개별적인 확률 분포는 그의 주변 확률 분포로 참조됩니다. 일반적으로, X의 주변 확률 분포는 X와 다른 확률 변수의 결합 확률 분포로부터 결정될 수 있습니다.

만약 확률 변수 X와 Y의 결합 확률 밀도 함수가 이면, X와 Y의 주변 확률 밀도 함수는 다음입니다:

,

여기서 첫 번째 적분은 X=x에 대해 (X,Y)의 범위에서 모든 점에 걸쳐 있고 두 번째 적분은 Y=y에 대해 (X,Y)의 범위에서 모든 점에 걸쳐 있습니다.[1]

Joint cumulative distribution function

확률 변수 의 쌍에 대해, 결합 누적 분포 함수 (CDF) 는 다음에 의해 제공됩니다:[2]: p. 89 

 

 

 

 

(Eq.1)

여기서 오른쪽 변은 확률 변수 보다 작거나 같은 값을 취하는 것 그리고 보다 작거나 같은 값을 취하는 것의 확률(probability)을 나타냅니다.

확률 변수 에 대해, 결합 CDF 는 다음에 의해 제공됩니다:

 

 

 

 

(Eq.2)

학률 변수를 확률 벡터(random vector) 로 해석하는 것은 더 짧은 표기법을 산출합니다:

Joint density function or mass function

Discrete case

이산 확률 변수(discrete random variable) 의 결합 확률 질량 함수(probability mass function)는 다음입니다:

 

 

 

 

(Eq.3)

또는 조건부 분포의 관점에서 다음으로 쓰입니다:

여기서 로 주어졌을 때 확률(probability)입니다.

이전 두-변수 경우의 일반화는 이산 확률 변수 의 결합 확률 분포이며, 이것은 다음입니다:

 

 

 

 

(Eq.4)

또는 동등하게

.

이 항등식은 확률의 체인 규칙(chain rule of probability)으로 알려져 있습니다.

이들은 확률이므로, 우리는 두-변수 경우에서 다음을 가집니다:

이것은 이산 확률 변수 에 대해 다음으로 일반화됩니다:

Continuous case

연속 확률 변수(continuous random variable)에 대해 결합 확률 밀도 함수(probability density function) 는 결합 누적 분포 함수의 도함수로 정의됩니다 (Eq.1을 참조하십시오):

 

 

 

 

(Eq.5)

이것은 다음과 같습니다:

여기서 는, 각각, 가 주어졌을 때 가 주어졌을 때 조건부 확률(conditional distribution)이고, 는, 각각, 에 대해 주변 분포(marginal distribution)입니다.

정의는 자연스럽게 두 확률 변수보다 많은 것으로 확장됩니다:

 

 

 

 

(Eq.6)

다시 한번, 이것들은 확률 분포이므로, 우리는 다음을 가집니다:

각각

Mixed case

"혼합된 결합 밀도"는 하나 이상의 확률 변수가 연속이고 나머지 다른 확률 변수가 이산인 것에서 정의될 수 있습니다. 각 유형의 하나의 변수와 함께 우리는 다음을 가집니다:

우리가 연속인 하나의 확률 변수와 이산인 또 다른 확률 변수의 누적 분포를 찾기를 원하는 상황의 예제는 우리가 연속적으로 분포된 결과 의 값에 대한 이진 결과 Y의 확률을 예측하는 것에서 로지스틱 회귀(logistic regression)를 사용하기를 원할 때 발생합니다. 우리는 이 이진 결과의 누적 분포를 찾을 때 반드시 "혼합된" 결합 밀도를 사용해야 하는데, 왜냐하면 입력 변수 가, 우리가 확률 밀도 함수 또는 확률 질량 함수를 집합적으로 그것에 할당할 수 없는 그러한 방법에서 초기에 정의되었기 때문입니다. 공식적으로 의 각각의 지원(supports)에 대한 곱 측정(product measure)에 관한 의 확률 밀도 함수입니다. 이들 두 분해 중 하나는 그런-다음 결합 누적 분포 함수를 복구하기 위해 사용될 수 있습니다:

정의는 이산의 임의의 숫자 및 연속 확률 변수의 혼합으로 일반화됩니다.

Additional properties

Joint distribution for independent variables

일반적으로 두 확률 변수 독립(independent)인 것과 결합 누적 분포 함수가 다음을 만족시키는 것은 필요충분 조건입니다:

두 이산 확률 변수 가 독립인 것과 결합 확률 질량 함수가 모든 에 대해 다음을 만족시키는 것은 필요충분 조건입니다:

.

독립 확률 사건의 숫자가 증가하는 동안, 관련된 결합 확률 값은 음의 지수 법칙에 따라 영으로 급격히 감소합니다.

비슷하게, 두 절대적으로 연속 확률 변수가 독립인 것과 모든 에 대해 다음인 것은 필요충분 조건입니다:

.

이것은 확률 변수의 하나 이상의 값에 대한 임의의 정보를 획득하는 것은 그의 무조건적 (주변) 분포와 동일한 임의의 다른 변수의 조건부 분포로 이어집니다; 따라서 어떤 변수도 임의의 다른 변수에 대한 임의의 정보를 제공하지 않습니다.

Joint distribution for conditionally dependent variables

만약 변수 의 부분-집합 가 이들 변수의 또 다른 부분-집합 가 주어졌을 때 조건적으로 종속(conditionally dependent)이면, 결합 분포의 확률 질량 함수는 입니다. 와 같습니다. 그러므로, 그것은 더-낮은-차원의 확률 분포 에 의해 효율적으로 표현될 수 있습니다. 그러한 조건부 독립 관계는 베이즈 네트워크(Bayesian network) 또는 연결사 함수(copula functions)로 표현될 수 있습니다.

Covariance

둘 이상의 확률 변수가 확률 공간 위에 정의될 때, 그들이 함께 어떻게 변하는지 설명하는 것이 유용합니다; 즉, 변수 사이의 관계를 측정하는 것이 유용합니다. 두 확률 변수 사이의 관계의 공통적인 측정은 공분산입니다. 공분산은 확률 변수 사이의 선형 관계의 측정입니다. 만약 확률 변수 사이의 관계가 비선형이면, 공분산은 관계에 민감하지 않을 수 있습니다.

확률 변수 X와 Y 사이의 공분산은, cov(X,Y)로 표시되면, 다음입니다:

[3]

Correlation

공분산보다 해석하기 더 쉬운 두 확률 변수 사이의 관계의 또 다른 측정이 있습니다.

상관은 각 변수의 표준 편차의 곱에 의해 공분산을 단지 스케일링합니다. 결과적으로, 상관은 서로 다른 단위에서 변수의 쌍 사이의 선형 관계를 비교하기 위해 사용될 수 있는 무-차원 양입니다. 만약 양의 확률을 받는 X와 Y의 결합 확률 분포에서 점이 양의 (또는 음의) 기울기의 직선을 따라 떨어지는 경향이면, ρXY는 +1 (또는 −1)에 가깝습니다. 만약 ρXY가 +1 또는 −1이면, 양의 확률을 받는 결합 확률 분포에서 점들이 직선을 따라 정확히 떨어지는 것을 알 수 있습니다. 비-영 상관을 갖는 두 확률 변수는 서로-관련되었다고 말합니다. 공분산과 비슷하게, 상관은 확률 변수 사이의 선형 관계의 측정입니다.

확률 X와 Y 사이의 변수 상관은 다음으로 표시됩니다:

Important named distributions

통계에서 자주 발생하는 이름-지은 결합 분포는 다변수 정규 분포(multivariate normal distribution), 다변수 안정 분포(multivariate stable distribution), 다항 분포(multinomial distribution), 음의 다항 분포(negative multinomial distribution), 다변수 초기하 분포(multivariate hypergeometric distribution), 및 타원형 분포(elliptical distribution)를 포함합니다.

See also

References

  1. ^ Montgomery, Douglas C. (19 November 2013). Applied statistics and probability for engineers. Runger, George C. (Sixth ed.). Hoboken, NJ. ISBN 978-1-118-53971-2. OCLC 861273897.{{cite book}}: CS1 maint: location missing publisher (link)
  2. ^ Park,Kun Il (2018). Fundamentals of Probability and Stochastic Processes with Applications to Communications. Springer. ISBN 978-3-319-68074-3.
  3. ^ Montgomery, Douglas C. (19 November 2013). Applied statistics and probability for engineers. Runger, George C. (Sixth ed.). Hoboken, NJ. ISBN 978-1-118-53971-2. OCLC 861273897.{{cite book}}: CS1 maint: location missing publisher (link)

External links