Jump to content

Probability distribution

This is a fully translated article. Click here for more information.
From DawoumWiki, the free Mathematics self-learning

확률 이론(probability theory)통계학(statistics)에서, 확률 분포(probability distribution)는 실험(experiment)에서 다른 가능한 결과의 발생의 확률을 제공하는 수학적 함수(function)입니다.[1][2] 보다 기술적 측면에서, 확률 분포는 사건(events)확률(probabilities)의 관점에서 무작위(random) 현상의 묘사입니다.[3] 예를 들어, 만약 확률 변수(random variable) X가 동전 던지기 ("실험")의 결과를 나타내기 위해 사용되면, X의 확률 분포는 X = 앞면에 대해 0.5, X = 뒷면에 대해 0.5의 값을 취합니다 (동전은 공정한 것이라고 가정합니다). 무작위 현상의 예제는 실험(experiment) 또는 조사(survey)의 결과를 포함할 수 있습니다.

확률 분포는 놓여-있는 표본 공간(sample space)의 관점에서 지정되며, 이것은 관찰되는 무작위 현상의 모든 가능한 결과(outcomes)집합(set)입니다. 표본 공간은 실수(real numbers)의 집합 또는 벡터(vectors)의 집합이 될 수 있거나, 비-수치적 값의 목록일 수 있습니다; 예를 들어, 동전 던지기의 표본 공간은 {앞면, 뒷면}일 것입니다.

확률 분포는 일반적으로 두 클래스로 나뉩니다. (동전 던지기 또는 주사위 굴리기와 같은, 가능한 결과의 집합이 이산(discrete)인 시나리오에 적용-가능한) 이산 확률 분포(discrete probability distribution)는, 확률 질량 함수(probability mass function)라고 알려진, 결과의 확률의 이산(discrete) 목록에 의해 인코딩될 수 있습니다. 다른 한편으로, (주어진 날의 온도와 같은, 연속 범위 (예를 들어, 실수)에서 값을 취할 수 있는 시나리오에 적용-가능한) 연속 확률 분포(continuous probability distribution)는 (임의의 개별적 결과가 실제로 0일 확률을 갖는) 확률 밀도 함수(probability density function)에 의해 전형적으로 묘사됩니다. 정규 분포(normal distribution)는 공통적으로 발생하는 연속 확률 분포입니다. 연속 시간(continuous time)에 정의된 확률적 프로세스(stochastic processes)를 포함한 그들과 같은, 보다 복잡한 실험은 보다 일반적인 확률 측정(probability measure)의 사용을 요구할 수 있습니다.

그의 표본 공간이 일-차원적 (예를 들어 실수, 테이블의 목록, 순서화된 레이블 또는 이진) 확률 분포는 일변수(univariate)라고 불리지만, 그의 표본 공간이 2 차원 이상의 벡터 공간(vector space)인 분포는 다변수(multivariate)라고 불립니다. 일변수 분포는 변하는 대안적인 값을 취하는 단일 확률 변수(random variable)의 확률을 제공합니다; 다변수 분포 (결합 확률 분포(joint probability distribution))는 값의 다양한 조합을 취하는 확률 벡터(random vector) – 두 개 이상의 확률 변수의 목록 – 의 확률을 제공합니다. 중요하고 공통적으로 발생하는 일변수 확률 분포는 이항 분포(binomial distribution), 초기하 분포(hypergeometric distribution)정규 분포(normal distribution)를 포함합니다. 다변수 정규 분포(multivariate normal distribution)는 공통적으로 발생하는 다변수 분포입니다.

Introduction

The probability mass function (pmf) p(S) specifies the probability distribution for the sum S of counts from two dice. For example, the figure shows that p(11) = 2/36 = 1/18. The pmf allows the computation of probabilities of events such as P(S > 9) = 1/12 + 1/18 + 1/36 = 1/6, and all other probabilities in the distribution.

가장 간단한 경우에 대해 확률 분포를 정의하기 위해, 이산연속 확률 변수(random variable)를 구별하는 것이 필요합니다. 이산 경우에서, 각 가능한 결과에 확률을 할당하는 확률 질량 함수(probability mass function) 를 지정하는 것으로 충분합니다:예를 들어, 공정한 주사위(die)를 던질 때, 1에서 6까지 여섯 값의 각각은 확률 1/6을 가집니다. 사건(event)의 확률은 사건을 만족시키는 결과의 확률의 합으로 정의됩니다; 예를 들어, 사건 "주사위가 짝수 값을 굴림"의 확률은 다음입니다:

대조적으로, 확률 변수가 연속체에서 값을 취할 때 그때에 전형적으로, 임의의 개별 결과는 확률 0을 가지고 구간과 같은 오직 무한하게 많은 결과를 포함하는 사건이 양의 확률을 가질 수 있습니다. 예를 들어, 주어진 물체의 무게가 정확히 500g일 확률은 0인데, 왜냐하면 정확히 500g을 측정할 확률은 우리의 측정 장비의 정확도가 증가함에 따라 영으로 경향이기 때문입니다. 그럼에도 불구하고, 품질 관리에서 우리는 490g과 510g 사이의 "500g" 꾸러미의 확률은 98%보다 작아서는 절대 안된다고 요구할 수 있고, 이 요구는 측정 장비의 정확도에 덜 민감합니다.

연속 확률 분포는 여러 방법에서 설명될 수 있습니다. 확률 밀도 함수(probability density function)는 임의의 주어진 값의 무한소(infinitesimal) 확률을 설명하고, 결과가 주어진 간격에 놓일 확률은 해당 구간에 걸쳐 확률 밀도 함수를 적분함(integrating)으로써 계산될 수 있습니다. 가능한 값이 어떤 고정된 구간에 놓일 확률은 합이 적분에 수렴하는 방법과 관련될 수 있습니다; 그러므로 연속 확률은 적분의 정의를 기반으로 합니다.

On the left is the probability density function. On the right is the cumulative distribution function, which is the area under the probability density curve.

누적 분포 함수(cumulative distribution function)는 확률 변수가 주어진 값보다 크지 않을 확률을 설명합니다; 주어진 구간에 결과가 놓일 확률은 구간의 끝점에서 누적 분포 함수 값 사이의 차이를 취함으로써 계산될 수 있습니다. 누적 분포 함수는 후자의 함수가 존재하는 것으로 제공되는 확률 밀도 함수의 역도함수(antiderivative)입니다. 누적 분포 함수는 오른쪽 그림에 의해 묘사된 것처럼 음의 무한대 에서 까지 확률 밀도 함수(probability density function) 아래의 넓이입니다.[4]

The probability density function (pdf) of the normal distribution, also called Gaussian or "bell curve", the most important continuous random distribution. As notated on the figure, the probabilities of intervals of values correspond to the area under the curve.

Terminology[1]

Functions for discrete variables

Functions for continuous variables

Basic terms

Cumulative distribution function

실수 직선에 대한 확률 분포 P스칼라(scalar) 확률 변수 X가 반-열린 구간 (−∞, x]에 있을 확률에 의해 결정되기 때문에, 확률 분포는 그의 누적 분포 함수(cumulative distribution function)에 의해 완전히 특성화됩니다:

Discrete probability distribution

The probability mass function of a discrete probability distribution. The probabilities of the singletons {1}, {3}, and {7} are respectively 0.2, 0.5, 0.3. A set not containing any of these points has probability zero.
The cdf of a discrete probability distribution, ...
... of a continuous probability distribution, ...
... of a distribution which has both a continuous part and a discrete part.

이산 확률 분포(discrete probability distribution)는 값의 셀-수-있는 숫자를 취할 수 있는 확률 분포입니다.[5] 1까지 합해지기 위한 확률에 대해, 그들은 충분히 빨리 영으로 감소해야 합니다. 예를 들어, 만약 n = 1, 2, ...에 대해 이면, 확률의 합은 1/2 + 1/4 + 1/8 + ... = 1이 됩니다.

통계적 모델링에서 사용되는 잘-알려진 이산 확률 분포는 푸아송 분포(Poisson distribution), 베르누이 분포(Bernoulli distribution), 이항 분포(binomial distribution), 기하 분포(geometric distribution), 및 음의 이항 분포(negative binomial distribution)가 포함됩니다.[3] 추가적으로, 이산 균등 분포(discrete uniform distribution)는 여러 선택 사이에 같은-확률 확률 선택을 만드는 컴퓨터 프로그램에서 공통적으로 사용됩니다.

표본(sample) (관측의 집합)이 더 많은 모집단에서 추출될 때, 표본 점은 이산적이고 모집단 분포에 대한 정보를 제공하는 경험적 분포(empirical distribution)를 가집니다.

Measure theoretic formulation

확률 공간(probability space) 측정-가능 공간(measurable space) 사이의 측정-가능 함수(measurable function) 는 그의 이미지가 셀-수-있는 집합이라는 조건으로 이산 확률 변수라고 불립니다. 이 경우에서 의 측정-가능성은 한원소 집합의 이전-이미지는 측정-가능, 즉, 모든 에 대해 임을 의미합니다. 후자 요구-조건은 를 통해 확률 질량 함수(probability mass function) 을 포함합니다. 서로소 집합의 이전-이미지가 서로소이므로,

이것은 위에서 주어진 정의를 다시-덮습니다.

Cumulative distribution function

위와 동등하게, 이산 연속 변수는 누적 분포 함수(cumulative distribution function) (cdf)가 점프 불연속(jump discontinuities)에 의해 오직 증가하는 확률 변수로 정의될 수 있습니다–즉, cdf는 그것이 더 높은 값으로 "점프"하는 곳에서 오직 증가하고, 그들의 점프 사이에 상수입니다. 어쨌든 cdf가 점프하는 점은 실수의 조밀 집합을 형성할 수 있습니다. 점프가 발생하는 점은 임의 변수가 취할 수 있는 정확하게 그 값입니다.

Delta-function representation

결과적으로, 이산 확률 분포는 디렉 델타 함수(Dirac delta function)를 포함하는 일반화된 확률 밀도 함수(probability density function)로 종종 표현되면, 이것은 연속 및 이산 분포의 처리를 실질적으로 통합합니다. 이것은 연속 및 이산 부분 둘 다를 포함하는 확률 분포를 다룰 때 특히 유용합니다.[6]

Indicator-function representation

이산 확률 변수 X에 대해, u0, u1, ...를 비-영 확률로 취할 수 있는 값으로 놓습니다. 다음으로 표시합니다:

이들은 서로소 집합(disjoint set)이고, 그러한 집합에 대해

Xu0, u1, ...를 제외한 임의의 값을 취할 확률은 영임을 따르고, 우리는 X를 확률 영의 집합을 제외하고 다음으로 쓸 수 있습니다:

여기서 A지시 함수(indicator function)입니다. 이것은 이산 확률 변수의 대안적인 정의로 역할을 할 수 있습니다.

Continuous probability distribution

연속 확률 분포절대적으로 연속(absolutely continuous)인 누적 분포 함수를 가진 확률 분포입니다. 동등하게, 르베그 측정(Lebesgue measure)에 관한 절대적으로 연속(absolutely continuous)실수(real numbers)에 대한 확률 분포입니다. 그러한 분포는 확률 밀도 함수(probability density function)로 나타낼 수 있습니다. 만약 X의 분포가 연속이면, X연속 확률 변수라고 불립니다. 연속 확률 분포: 정규(normal), 균등(uniform), 카이-제곱(chi-squared), 및 다른(others) 많은 예제가 있습니다.

공식적으로, 만약 X가 연속 확률 변수이면, 그것은 확률 밀도 함수(probability density function) ƒ(x)를 가지고, 따라서 주어진 구간으로 떨어지는 그것의 확률, 말하자면 [a, b]는 다음 구간에 의해 제공됩니다:

특히, 임의의 단일 값 a에 대한 X에 대해 확률 (즉 aXa)이 영인데, 왜냐하면 위쪽 및 아래 극한이 일치하는 적분(integral)은 항상 영과 같기 때문입니다.

용어에 대한 참고사항: 일부 저자는 그의 누적 분포 함수가, 절대적으로 연속(absolutely continuous)이 아닌, 연속(continuous)인 분포를 나타내기 위한 용어 "연속 분포"를 사용합니다. 이들 분포는 모든 에 대해 임을 만족하는 입니다. 이 정의는 위에서 정의한 (절대적으로) 연속 분포가 포함되지만, 그것은 특이 분포(singular distribution)를 역시 포함하며, 이것은 절대 분포도 아니고 이산도 아니고 그들의 혼합도 아니고, 밀도가 가지지 않습니다. 예제는 칸토어 분포(Cantor distribution)에 의해 제공됩니다.

Some properties

Kolmogorov definition

확률 이론(probability theory)측정-이론적(measure-theoretic) 공식화에서, 확률 변수(random variable)확률 공간(probability space) 에서 측정-가능 공간(measurable space) 으로의 측정-가능 함수(measurable function) 로 정의됩니다. 형식 의 사건의 확률이 콜모고로프의 확률 공리(Kolmogorov's probability axioms)를 만족시키는 것으로 주어지면, X의 확률 분포밂 측정(pushforward measure) 이며, 이것은 를 만족시키는 에 대한 확률 측정(probability measure)입니다.[7][8][9]

Random number generation

대부분의 알고리듬은 반-열린 구간(half-open interval) [0,1)에 균등하게 분포된 숫자 X를 생성하는 유사-무작위 숫자 생성기(pseudorandom number generator)를 기반으로 합니다. 이들 확률 변이(random variate) X는 그런-다음 필요한 확률 분포를 가지는 새로운 확률 변이를 생성하기 위해 일부 알고리듬을 통해 변환됩니다. 균등 유사-무작위의 이 원천과 함께, 임의의 확률 변수의 실현은 생성될 수 있습니다.[10]

예를 들어, 가 0과 1 사이의 균등 분포를 가짐을 가정합니다. 일부 에 대해 무작위 베르누이 변수를 구성하기 위해, 우리는 다음

이 되도록

을 정의합니다.

이 확률 변수 X는 매개-변수 를 갖는 베르누이 분포를 가집니다.[10] 이것은 이산 확률 변수의 변환임을 주목하십시오.

연속 확률 변수의 분포 함수 에 대해, 연속 확률 변수가 반드시 구성되어야 합니다. , 의 역함수는 균등 변수 와 관련됩니다:

예를 들어, 지수 분포 를 가지는 확률 변수는 반드시 구성되어야 한다고 가정합니다.

따라서 이고 만약 분포를 가지면, 확률 변수 에 의해 정의됩니다. 이것은 의 지수 분포를 가집니다.[10]

통계 시뮬레이션 (몬테 카를로 방법(Monte Carlo method))에서 자주 발생하는 문제는 주어진 방법에서 분포된 유사-무작위 숫자(pseudo-random numbers)의 생성입니다.

Common probability distributions and their applications

확률 분포의 개념과 그것들이 설명하는 확률 변수는 확률 이론의 수학적 학문, 및 통계학의 과학의 기초가 됩니다. 모집단 (예를 들어, 사람의 키, 금속의 내구성, 매출 성장, 교통 흐름, 등)에서 측정될 수 있는 거의 임의의 값에서 확산 또는 변동가능성이 있습니다; 거의 임의의 측정은 어떤 본질적인 오차로 이루어집니다; 물리학에서 많은 과정이, 가스의 운동학적 속성에서 기본 입자(fundamental particles)양자 역학적(quantum mechanical) 설명에 이르기까지, 확률적으로 설명됩니다. 이들 이유와 다른 많은 이유에 대해, 단순한 숫자(number)는 양을 설명하는 것에 종종 부적합하지만, 확률 분포는 종종 보다 적절합니다.

다음은 가장 공통적인 확률 분포 중 일부를, 관련된 과정의 유형에 의해 그룹화한 목록입니다. 보다 완전한 목록에 대해, 고려되는 결과의 본성 (이산, 연속, 다변수, 등)에 의해 그룹화되는 확률 분포의 목록(list of probability distributions)을 참조하십시오.

아래의 모든 일변수 분포는 단일 돌출부에 도달됩니다; 즉, 값이 단일 점을 중심으로 모여있다고 가정합니다. 사실, 실제로 관측된 양은 여러 값 주위에 모일 수 있습니다. 그러한 양은 혼합 분포(mixture distribution)를 사용하여 모델링될 수 있습니다.

Linear growth (e.g. errors, offsets)

Exponential growth (e.g. prices, incomes, populations)

Uniformly distributed quantities

Bernoulli trials (yes/no events, with a given probability)

Categorical outcomes (events with K possible outcomes, with a given probability for each outcome)

Poisson process (events that occur independently with a given rate)

Absolute values of vectors with normally distributed components

Normally distributed quantities operated with sum of squares (for hypothesis testing)

As a conjugate prior distributions in Bayesian inference

Some specialized applications of probability distributions

See also

References

Citations

  1. ^ a b Everitt, Brian. (2006). The Cambridge dictionary of statistics (3rd ed.). Cambridge, UK: Cambridge University Press. ISBN 978-0-511-24688-3. OCLC 161828328.
  2. ^ Ash, Robert B. (2008). Basic probability theory (Dover ed.). Mineola, N.Y.: Dover Publications. pp. 66–69. ISBN 978-0-486-46628-6. OCLC 190785258.
  3. ^ a b Evans, Michael (Michael John) (2010). Probability and statistics : the science of uncertainty. Rosenthal, Jeffrey S. (Jeffrey Seth) (2nd ed.). New York: W.H. Freeman and Co. p. 38. ISBN 978-1-4292-2462-8. OCLC 473463742.
  4. ^ A modern introduction to probability and statistics : understanding why and how. Dekking, Michel, 1946-. London: Springer. 2005. ISBN 978-1-85233-896-1. OCLC 262680588.{{cite book}}: CS1 maint: others (link)
  5. ^ 1941-, Çınlar, E. (Erhan) (2011). Probability and stochastics. New York: Springer. p. 51. ISBN 9780387878591. OCLC 710149819. {{cite book}}: |last= has numeric name (help)CS1 maint: multiple names: authors list (link)
  6. ^ Khuri, André I. (March 2004). "Applications of Dirac's delta function in statistics". International Journal of Mathematical Education in Science and Technology. 35 (2): 185–195. doi:10.1080/00207390310001638313. ISSN 0020-739X.
  7. ^ W., Stroock, Daniel (1999). Probability theory : an analytic view (Rev. ed.). Cambridge [England]: Cambridge University Press. p. 11. ISBN 978-0521663496. OCLC 43953136.{{cite book}}: CS1 maint: multiple names: authors list (link)
  8. ^ Kolmogorov, Andrey (1950) [1933]. Foundations of the theory of probability. New York, USA: Chelsea Publishing Company. pp. 21–24.
  9. ^ Joyce, David (2014). "Axioms of Probability" (PDF). Clark University. Retrieved December 5, 2019.{{cite web}}: CS1 maint: url-status (link)
  10. ^ a b c Dekking, Frederik Michel; Kraaikamp, Cornelis; Lopuhaä, Hendrik Paul; Meester, Ludolf Erwin (2005), "Why probability and statistics?", A Modern Introduction to Probability and Statistics, Springer London, pp. 1–11, doi:10.1007/1-84628-168-7_1, ISBN 978-1-85233-896-1
  11. ^ Bishop, Christopher M. (2006). Pattern recognition and machine learning. New York: Springer. ISBN 0-387-31073-8. OCLC 71008143.
  12. ^ Chang, Raymond. Physical chemistry for the chemical sciences. Thoman, John W., Jr., 1960-. [Mill Valley, California]. pp. 403–406. ISBN 978-1-68015-835-9. OCLC 927509011.
  13. ^ Chen, P.; Chen, Z.; Bak-Jensen, B. (April 2008). "Probabilistic load flow: A review". 2008 Third International Conference on Electric Utility Deregulation and Restructuring and Power Technologies. pp. 1586–1591. doi:10.1109/drpt.2008.4523658. ISBN 978-7-900714-13-8.
  14. ^ Maity, Rajib (2018-04-30). Statistical methods in hydrology and hydroclimatology. Singapore. ISBN 978-981-10-8779-0. OCLC 1038418263.{{cite book}}: CS1 maint: location missing publisher (link)

Sources

External links