Jump to content

Probability mass function

This is a fully translated article. Click here for more information.
From DawoumWiki, the free Mathematics self-learning
The graph of a probability mass function. All the values of this function must be non-negative and sum up to 1.

확률(probability)통계학(statistics)에서, 확률 질량 함수(probability mass function, 줄여서 PMF)는 이산 확률 변수(discrete random variable)가 어떤 값과 정확하게 같은 확률을 제공하는 함수입니다.[1] 때때로 그것은 이산 밀도 함수로 역시 알려져 있습니다. 확률 질량 함수는 종종 이산 확률 분포(discrete probability distribution)를 정의하는 주요한 수단이고, 그러한 함수는 그의 도메인(domain)이 이산인 스칼라(scalar) 또는 다변수 확률 변수(multivariate random variable)에 대해 존재합니다.

확률 질량 함수는 확률 밀도 함수(probability density function, 줄여서 PDF)와는 다르며, 후자는 이산 확률 변수가 아닌 연속 확률 함수와 관련됩니다; PDF는 확률을 산출하기 위해 구간에 걸쳐 적분(integrated)되어야 합니다.[2]

가장 큰 확률 질량을 가지는 확률 변수의 값은 최빈값(mode)으로 불립니다.

Formal definition

확률 질량 함수는 이산 확률 변수의 확률 분포이고, 가능한 값과 관련된 확률을 제공합니다. 그것은 에 대해,[2] 다음에 의해 정의된 함수 p: [0,1]입니다:

여기서 확률 측정(probability measure)입니다. 로 역시 단순화될 수 있습니다.[3]

각 가능한 값과 결합된 확률은 양수이고 합해서 1이 되어야 합니다. 모든 다른 값에 대해, 확률은 0이 되어야 합니다.

for all other x

확률을 질량으로 생각하면 실수를 피하는 데 도움이 되는데, 왜냐하면 물리적 질량은 모든 가상의 결과 에 대해 총 확률과 같이 보존되기 때문입니다.

Measure theoretic formulation

이산 확률 변수 의 확률 질량 함수는 두 가지 보다 일반적인 측정 이론적 구성: 분포(distribution)와 셈 측정에 관한 확률 밀도 함수(probability density function)의 특별한 경우로 보일 수 있습니다. 우리는 이것을 아래에서 보다 정확하게 만듭니다.

확률 공간(probability space)이고 는 그의 놓여-있는 σ-대수(σ-algebra)가 이산인 측정-가능 공간이므로, 특히 의 한원소 집합을 포함하는 것임을 가정합니다. 이 설정에서, 확률 변수 는 그의 이미지가 셀-수-있는 것으로 조건으로 이산입니다. 밂 측정(pushforward measure) —이 문맥에서 의 분포로 불림—은 한원소 집합에 대한 그의 제한이 확률 질량 함수 를 추론하는 위의 확률 측정인데 왜냐하면 각 에 대해 이기 때문입니다.

이제 은 셈 측정 μ를 갖춘 측정 공간(measure space)임을 가정합니다. 셈 측정에 관한 의 확률 밀도 함수 는, 만약 존재한다면, (셈 측정에 관한) 의 밂 측정의 라돈–니코딤 도함수(Radon–Nikodym derivative)이므로, 이고 에서 비-음의 실수로의 함수입니다. 결론적으로, 임의의 에 대해 우리는 다음을 가집니다:

가 사실 확률 질량 함수임을 시연합니다.

잠재적 결과 사이의 자연스러운 순서가 있을 때, 숫치적 값을 그들 (또는 이산 다변수 확률 변수(multivariate random variable)의 경우에서 n-튜플)에게 할당하고 이미지(image)에서 값이 아닌 것을 역시 고려하는 것이 편리할 수 있습니다. 즉, 는 모든 실수(real number)에 대해 정의될 수 있고, 그림에서 보이는 것처럼, 모든 에 대해 입니다.

의 이미지는 확률 질량 함수가 일인 셀-수-있는 부분-집합(countable)을 가집니다. 결과적으로, 확률 질량 함수는 의 값의 셀-수-있는 숫자를 제외한 모든 값에 대해 영입니다.

확률 질량 함수의 불연속성은 이산 확률 변수의 누적 분포 함수(cumulative distribution function)가 역시 불연속이라는 사실과 관련됩니다. 만약 가 이산 확률 변수이면, 그때의 사건 는 확실함을 의미합니다 (그것은 발생의 100%에서 참입니다); 반대로 은 그때의 사건 가 항상 불가능함을 의미합니다. 이 명제는 임의의 가능한 에 대해 연속 확률 변수(continuous random variable) 에 대해 참이 아닙니다: 사실, 정의에 의해, 연속 확률 변수는 가능한 값의 무한 가질 수 있고 따라서 단일 특정 값 x가 갖는 확률은 과 같습니다. 이산화(Discretization)는 연속 확률 변수를 이산 변수로 변환하는 과정입니다.

Examples

Finite

세 주요 관련된 분포, 베르누이 분포(Bernoulli distribution), 이항 분포(Binomial distribution)기하 분포(geometric distribution)가 있습니다.

베르누이 분포의 예제는 동전을 던지는 것입니다. 는 공정한 동전의 단일 던짐의 모든 결과의 표본 공간이고, 는 카테고리 "뒷면"에 0 및 카테고리 "앞면"에 1을 할당하는 위에 정의된 확률 변수로 가정합니다. 동전이 공정하므로, 확률 밀도 함수는 다음입니다:
  • 이항 분포(binomial distribution), Bin(n,p)는 누군가가 복원과 함께 n 번 추첨할 때 성공의 횟수를 모델링합니다. 각 추첨 또는 실험은 독립적이며, 두 가지 가능한 결과가 있습니다. 관련된 확률 질량 함수는 입니다.
The probability mass function of a fair die. All the numbers on the die have an equal chance of appearing on top when the die stops rolling.
이항 분포의 예제는 누군가가 공정한 주사위를 세 번 굴릴 때 정확히 하나의 6을 얻을 확률입니다.
  • 기하 분포는 하나의 성공을 얻기 위해 필요한 시행 횟수를 묘사하며, Geo(p)로 표시됩니다. 그것의 확률 질량 함수는 입니다.
예제는 첫 번째 앞면이 나타날 때까지 동전을 던지는 것입니다.

확률 질량 함수를 사용하여 모델링될 수 있는 다른 분포는 (일반화된 베르누이 분포로 역시 알려진) 카테고리 분포(Categorical distribution)다항 분포(multinomial distribution)입니다.

  • 만약 이산 분포는 그것의 하나가 발생할 수 있는 둘 이상의 카테고리를 가지며, 이들 카테고리가 자연스러운 순서를 가지고 있는지 여부와 상관없이, 오직 단일 시행 (추첨)이 있을 때 이것은 카테고리 분포입니다.
  • 다변수 이산 분포(multivariate discrete distribution), 및 그것의 확률 밀도 함수의 예제는 다항 분포(multinomial distribution)에 의해 제공됩니다. 여기서 여러 확률 변수는 주어진 시행의 숫자 후에 카테고리의 각각에서 성공의 숫자이고, 각 비-영 확률 밀도는 다양한 카테고리에서 성공의 숫자의 어떤 조합의 확률을 제공합니다.

Infinite

  • 다음 지수적으로 감소하는 분포는 가능한 결과의 무한 숫자–모든 양의 정수를 갖는 분포의 예제입니다:
양의 결과의 무한 숫자에도 불구하고, 총 확률 질량은 1/2 + 1/4 + 1/8 + ... = 1이며, 확률 분포에 대해 단위 총 확률 요구-조건을 만족시킵니다.

Multivariate case

둘 이상의 이산 확률 변수는 결합 확률 질량 함수를 가지며, 이것은 확률 변수에 대해 실현의 각 가능한 조합의 확률을 제공합니다.

References

  1. ^ Stewart, William J. (2011). Probability, Markov Chains, Queues, and Simulation: The Mathematical Basis of Performance Modeling. Princeton University Press. p. 105. ISBN 978-1-4008-3281-1.
  2. ^ a b A modern introduction to probability and statistics : understanding why and how. Dekking, Michel, 1946-. London: Springer. 2005. ISBN 978-1-85233-896-1. OCLC 262680588.{{cite book}}: CS1 maint: others (link)
  3. ^ Rao, Singiresu S., 1944- (1996). Engineering optimization : theory and practice (3rd ed.). New York: Wiley. ISBN 0-471-55034-5. OCLC 62080932.{{cite book}}: CS1 maint: multiple names: authors list (link) CS1 maint: numeric names: authors list (link)

Further reading

  • Johnson, N. L.; Kotz, S.; Kemp, A. (1993). Univariate Discrete Distributions (2nd ed.). Wiley. p. 36. ISBN 0-471-54897-9.