Jump to content

Independent and identically distributed random variables

This is a fully translated article. Click here for more information.
From DawoumWiki, the free Mathematics self-learning
(Redirected from I.i.d.)

확률 이론(probability theory)통계학(statistics)에서, 확률 변수(random variables)의 모음은 만약 각 확률 변수가 다른 확률 변수와 같은 확률 분포(probability distribution)를 가지고 모두가 서로 독립적(independent)이면 독립적이고 동일하게 분포된(independent and identically distributed) 것입니다.[1] 이 속성은 보통 i.i.d., iid, 또는 IID로 축약됩니다. IID는 통계에서 처음 정의되었고 데이터 마이닝(data mining)과 신호 처리와 같은 다양한 분야에서 응용을 찾습니다.

Introduction

통계학에서, 우리는 공통적으로 무작위 표본을 다룹니다. 무작위 표본은 무작위로 선택된 대상의 집합으로 생각될 수 있습니다. 보다 형식적으로, 그것은 "독립적이고, 동일하게 분포된 (IID) 무작위 데이터 점의 수열"입니다.

다시 말해서, 무작위 표본IID라는 용어는 기본적으로 하나이고 같습니다. 통계학에서, 우리는 보통 "무작위 표본"이라고 말하지만, 확률에서 그것은 "IID"라고 말하는 것이 더 공통적입니다.

  • 동일하게 분포된(Identically distributed)은 전체적인 추세가 없음을 의미합니다—분포가 파동치지 않고 표본에서 모든 항목이 같은 확률 분포에서 가져옵니다.
  • 독립적(Independent)은 표본 항목이 모두 독립적 사건임을 의미합니다. 다시 말해서, 그것들은 어떤 식으로든 서로 연결되어 있지 않습니다.[2] 다시 말해서, 한 변수의 값에 대한 지식은 다른 변수의 값에 대한 정보를 제공하지 않고 그 반대의 경우도 마찬가지입니다.

Application

독립적이고 동일하게 분포된 확률 변수는 종종 놓여있는 수학을 단순화하기 위한 경향이 있는 가정으로 사용됩니다. 통계적 모델링(statistical modeling)의 실제 적용에서, 어쨌든, 가정은 현실적일 수도 있고 그렇지 않을 수도 있습니다.[3]

i.i.d. 가정은 역시 유한 분산(variance)을 갖는 i.i.d. 변수의 합 (또는 평균)의 확률 분포가 정규 분포(normal distribution)에 접근함을 말하는 중심 극한 정리(central limit theorem)에서 사용됩니다.[4]

종종 i.i.d. 가정이 확률 변수의 수열의 맥락에서 발생합니다. 그런-다음 "독립적이고 동일하게 분포된"은 수열에서 원소가 그 앞에 오는 확률 변수와 독립적임을 의미합니다. 이러한 방법에서, i.i.d. 수열은 마르코프 수열(Markov sequence)과 다르며, 여기서 n번째 확률 변수에 대한 확률 분포는 (일-차 마르코프 수열에 대해) 수열에서 이전 확률 변수의 함수입니다. i.i.d. 수열은 표본 공간(sample space) 또는 사건 공간의 모든 원소에 대한 확률이 같아야 함을 의미하지 않습니다.[5] 예를 들어, 치우친 주사위를 반복해서 던지면 결과가 편향되어 있음에도 불구하고 i.i.d.인 수열을 생성할 것입니다.

Definition

Definition for two random variables

확률 변수 의 값을 가정하도록 정의되었다고 가정합니다. 를 각각 의 누적 분포 함수라고 놓고, 에 의해 그것들의 결합 누적 분포 함수를 나타낸다고 놓습니다.

두 확률 변수 동일하게 분포된(identically distributed) 것과 인 것은 필요충분 조건입니다.[6]

두 확률 변수 독립적(independent)인 것과 인 것은 필요충분 조건입니다. (자세한 내용에 대해 Independence (probability theory) § Two random variables를 참조하십시오).

두 확률 변수 는 만약 그것들이 독립적이고 동일하게 분포된 것이면 i.i.d.이며, 다음과 필요충분 조건입니다:

 

 

 

 

(Eq.1)

Definition for more than two random variables

정의는 자연스럽게 두 개보다 많은 확률 변수로 확장됩니다. 우리는 확률 변수 이 만약 그것들이 독립적이고 (자세한 독립성에 대해 Independence (probability theory) § More than two random variables를 참조) 동일하게 분포된 것이면 i.i.d.라고 말하며, 즉, 다음과 필요충분 조건입니다:

 

 

 

 

(Eq.2)

여기서 의 결합 누적 분포 함수를 나타냅니다.

Definition for independence

확률 이론에서, 두 사건 A, B가 독립적이라고 불리는 것과 P(A and B) = P(A)P(B)인 것은 필요충분 조건입니다. 다음에서 P(AB)는 P(A and B)에 대한 줄임말입니다.

실험 A, B의 두 사건이 있다고 가정하여, P(A) > 0이면 가능성 P(B|A)가 있습니다. 일반적으로, A의 발생은 B의 확률에 영향을 미치며, 이는 조건부 확률이라고 불리고, A의 발생이 B의 발생에 영향을 미치지 않는 때에만, P(B|A) = P(B)가 됩니다.

주목: If P(A) > 0, P(B) > 0이면, A, B는 서로 양립-불가능한 동시에 성립될 수 없는 서로 독립적이며, 즉, 독립성은 양립 가능해야 하고 서로 배제는 관련되어야 합니다.

A, B, C가 세 개의 사건이라고 가정합니다. 만약 P(AB) = P(A)P(B), P(BC) = P(B)P(C), P(AC) = P(A)P(C), P(ABC) = P( A)P(B)P(C)가 만족되면, 사건 A, B, C는 서로 독립적입니다.

보다 일반적인 정의는 n개의 사건, A1, A2,...,An이 있다는 것입니다. 만약 임의의 2, 3, ..., n개의 사건에 대한 곱 사건의 확률이 각 사건의 확률의 곱과 같으면, 사건 A1, A2, ..., An은 서로 독립적입니다.

Examples

Example 1

공정하거나 불공정한 룰렛 바퀴의 회전의 결과의 수열은 i.i.d.입니다. 이것의 한 가지 의미는 만약 룰렛 공이 예를 들어 연속 20번 "빨간색"에 떨어지면, 다음 회전이 다른 회전보다 "검은색"일 가능성이 더 높거나 낮지 않다는 것입니다 (도박꾼의 오류(Gambler's fallacy)를 참조하십시오).

공정하거나 치우진 주사위의 굴리기의 수열은 i.i.d.입니다.

공정하거나 불공정한 동전 던지기의 수열은 i.i.d.입니다.

신호 처리(signal processing)이미지 처리(image processing)에서, i.i.d.로의 변환의 개념 "i.d." 부분과 "i." 부분이라는 두 가지 사양을 의미합니다:

(i.d.) 신호 수준은 시간 축에서 균형을 이루어야 합니다;

(i.) 신호 스펙트럼은 평탄화되어야 합니다. 즉, 필터링 (예를 들어, 디컨볼루션)에 의해 백색 잡음 신호 (즉, 모든 주파수가 같게 존재하는 신호)로 변환되어야 합니다.

Example 2

동전을 10번 던지고 동전이 앞면으로 몇 번 떨어졌는지 기록합니다.

  1. 독립적 - 던지기의 각 결과는 다른 결과에 영향을 미치지 않습니다. 즉, 10개의 결과가 서로 독립적입니다.
  2. 동일하게 분포된 – 만약 동전이 동질의 재료이면, 매번 앞면이 나올 확률은 0.5입니다. 이는 확률이 매번 동일함을 의미합니다.

Example 3

주사위를 10번 굴려 결과가 1인 횟수를 기록합니다.

  1. 독립적 – 주사위의 각 결과는 다음 주사위에 영향을 미치지 않습니다. 즉, 10개의 결과는 서로 독립적입니다.
  2. 동일하게 분포된 – 만약 주사위가 동질의 재료이면, 매번 숫자 1의 확률은 1/6이며, 이는 매번 확률이 동일하다는 것을 의미합니다.

Example 4

52장의 카드가 포함된 표준 카드 덱에서 카드를 선택한 다음 카드를 다시 덱에 넣습니다. 이를 52회 반복합니다. 킹 등장 횟수 기록합니다:

  1. 독립적 – 카드의 각 결과는 다음 결과에 영향을 미치지 않습니다. 즉, 52개의 결과는 서로 독립적입니다.
  2. 동일하게 분포된 – 카드 한 장을 뽑은 후 매번 킹의 확률은 4/52이므로 확률은 매번 동일합니다.

Generalizations

확률 변수가 i.i.d.라는 가정 아래에서 처음 입증된 많은 결과는 더 약한 분포적 가정 아래에서도 사실인 것으로 나타났습니다.

Exchangeable random variables

i.i.d. 변수의 주요 속성을 공유하는 가장 일반적인 개념은 브루노 데 피네티(Bruno de Finetti)에 의해 도입한 교환-가능한 확률 변수(exchangeable random variables)입니다. 교환-가능성은 변수가 독립적이지 않을 수 있지만, 미래의 변수는 과거 변수처럼 작동한다는 것을 의미합니다 – 형식적으로, 유한 수열의 임의의 값은 해당 값의 임의의 순열(permutation)만큼 가능성이 높습니다 – 결합 확률 분포(joint probability distribution)대칭 그룹(symmetric group) 아래에서 불변입니다.

이것은 유용한 일반화를 제공합니다 – 예를 들어, 복원없이 표본화(sampling without replacement)는 독립적이지 않지만, 교환-가능합니다.

Lévy process

확률적 미적분(stochastic calculus)에서, i.i.d. 변수는 이산 시간(discrete time) 리비 과정(Lévy process)으로 생각됩니다: 각 변수는 한 시간에서 또 다른 시간으로 변경되는 정도를 제공합니다. 예를 들어, 베르누이 시행의 수열은 베르누이 과정(Bernoulli process)으로 해석됩니다. 이것을 연속 시간 리비 과정을 포함하도록 일반화할 수 있고, 많은 리비 과정은 i.i.d. 변수의 극한으로 볼 수 있습니다—예를 들어, 위너 과정(Wiener process)은 베르누이 과정의 극한입니다.

In machine learning

기계 학습은 현재 획득한 방대한 양의 데이터를 사용하여 더 빠르고 정확한 결과를 제공합니다.[7] 그러므로, 우리는 전반적인 대표성과 함께 과거 데이터를 사용할 필요가 있습니다. 얻은 데이터가 전체 상황을 대표하지 않으면 규칙이 잘못 요약됩니다.

i.i.d. 가설을 통해, 훈련 표본의 개별 사례의 숫자가 크게 줄어들 수 있습니다.

이 가정은 최대화를 수학적으로 계산하기 매우 쉽게 만듭니다. 수학에서 독립적이고 동일한 분포의 가정을 관찰하면, 최적화 문제에서 우도 함수의 계산이 단순화됩니다. 독립성을 가정하기 때문에 가능도 함수는 다음과 같이 작성될 수 있습니다.

관찰된 사건의 확률을 최대화하기 위해, 로그 함수를 취하고 매개변수 θ를 최대화하십시오. 즉, 다음을 계산하기 위해:

여기서

컴퓨터는 다중 덧셈을 계산하는 데 매우 효율적이지만, 곱셈을 계산하는 것은 효율적이지 않습니다. 이러한 단순화는 계산 효율성을 높이는 핵심 이유입니다. 그리고 이 로그 변환은 역시 많은 지수 함수를 선형 함수로 변환하여 최대화하는 과정에 있습니다.

두 가지 이유로, 이 가설은 실제 응용에서 중심 극한 정리를 사용하기 쉽습니다.

  1. 심지어 표본이 더 복잡한 비-가우스 분포에서 나온 경우에도, 그것은 역시 잘 근사화될 수 있습니다. 왜냐하면 그것이 중심 극한 정리에서 가우스 분포로 단순화될 수 있기 때문입니다. 많은 숫자의 관찰-가능한 표본에 대해, "많은 확률 변수의 합은 근사적으로 정규 분포를 가질 것입니다".
  2. 두 번째 이유는 모델의 정확도가 데이터 품질뿐만 아니라 모델 단위의 단순성과 대표력에 달려 있기 때문입니다. 단위의 단순성으로 인해 해석과 확장이 용이하고 단위의 대표력 + 축소가 모델 정확도를 향상시키기 때문입니다. 심층 신경망에서와 같이, 각 뉴런은 매우 단순하지만 모델 정확도를 향상시키기 위해 더 복잡한 특질을 나타내기 위해 계층별로 강력한 대표력을 가지고 있습니다.[8]

See also

References

  1. ^ Clauset, Aaron (2011). "A brief primer on probability distributions" (PDF). Santa Fe Institute. Archived from the original (PDF) on 2012-01-20. Retrieved 2011-11-29.
  2. ^ Stephanie (2016-05-11). "IID Statistics: Independent and Identically Distributed Definition and Examples". Statistics How To. Retrieved 2021-12-09.
  3. ^ Hampel, Frank (1998), "Is statistics too difficult?", Canadian Journal of Statistics, 26 (3): 497–513, doi:10.2307/3315772, hdl:20.500.11850/145503, JSTOR 3315772, S2CID 53117661 (§8).
  4. ^ Blum, J. R.; Chernoff, H.; Rosenblatt, M.; Teicher, H. (1958). "Central Limit Theorems for Interchangeable Processes". Canadian Journal of Mathematics. 10: 222–229. doi:10.4153/CJM-1958-026-0. S2CID 124843240.
  5. ^ Cover, T. M.; Thomas, J. A. (2006). Elements Of Information Theory. Wiley-Interscience. pp. 57–58. ISBN 978-0-471-24195-9.
  6. ^ Casella & Berger 2002, Theorem 1.5.10
  7. ^ "What is Machine Learning? A Definition". Expert.ai. 2020-05-05. Retrieved 2021-12-16.
  8. ^ "为什么机器学习中, 要假设我们的数据是独立同分布的? - 知乎". www.zhihu.com. Retrieved 2021-12-16.

Further reading