Jump to content

History of statistics

This is a fully translated article. Click here for more information.
From DawoumWiki, the free Mathematics self-learning

현대 의미에서 통계학의 역사(history of statistics)는 독일에서 1749년에 만들어진, 비록 시간이 지남에 따라 단어의 해석이 변해왔을지라도, 용어 statistics로부터 유래합니다. 통계학의 발전은 한편으로는 주권 국가(sovereign state), 특히 베스트팔렌의 평화(Peace of Westphalia:베스트팔렌 조약) (1648) 이후의 유럽 국가의 발전과 한편으로 친밀하게 연결됩니다; 그리고 다른 한편으로 확고한 이론적 기초(theoretical basis) 위에서 통계학을 놓는 확률 이론(probability theory)의 발전과 연결됩니다; 확률의 역사(History of probability)를 참조하십시오.

초기에는, 그 의미가 국가에 관한 정보, 특히 인구와 같은 인구통계(demographics)에 대한 정보로 제한되었습니다. 이것은 나중에 모든 유형의 정보의 모든 모음을 포함하도록 확장되었고, 나중에는 그러한 데이터의 분석 및 해석을 포함하기 위해 여전히 확장되었습니다. 현대 용어에서, "통계"는 국민 계정(national accounts)기온 기록(temperature record)에서와 같이 수집된 정보의 집합, 그리고 통계적 추론(statistical inference)을 요구하는 해석적 연구 둘 다를 의미합니다. 통계적 활동은 확률(probabilities)을 사용하여 표현된 모델과 종종 결합되고, 따라서 확률 이론과 함께 연결됩니다. 데이터 프로세싱의 큰 요구 사항은 통계를 컴퓨팅의 핵심 응용으로 만들어 왔습니다; 컴퓨팅 하드웨어의 역사(history of computing hardware)를 참조하십시오. 많은 통계적 개념이 과학의 광범위한 분야에 중요한 영향을 미칩니다. 이들은 실험의 디자인(design of experiments)베이즈 추론(Bayesian inference)과 같은 통계적 추론에 대한 접근법을 포함하며, 각각은 현대 통계학의 근원이 되는 아이디어 개발 과정에서 자신의 순서를 갖는 것으로 여길 수 있습니다.

Introduction

18세기까지, 용어 "통계(statistics)"는 국가에 의해 인구통계(demographic)경제(economic) 데이터의 시스템적 수집(systematic collection)을 가리켰습니다. 적어도 2천년에 대해, 이들 데이터는 주로 세금이 부과되거나 군대에 투입될 수 있는 인적 및 물적 자원에 대한 도표였습니다. 19세기 초에서, 수집이 강화되었고, "통계"의 의미가 데이터의 수집, 요약 및 분석과 관련된 분야를 포함하도록 확대되었습니다. 오늘날, 데이터는 수집되고 통계는 정부, 비즈니스, 대부분의 과학 및 스포츠, 심지어 많은 오락에 대해 계산되고 널리 배포됩니다. 전자 컴퓨터(computer)는, 마침 그것이 데이터 수집 및 집계를 용이하게 할 때에, 보다 정교한 통계적 계산(statistical computation)을 신속하게 처리했습니다. 단일 데이터 분석기는 수백만 개의, 각각이 수십 또는 수백 개의 개별 측정과 함께, 레코드를 가진 데이터-파일 집합을 이용할 수 있습니다. 이들은 컴퓨터 활동 (예를 들어, 증권 거래소) 또는 컴퓨터화된 센서, 판매-시점 레지스터, 등으로부터 시간에 걸쳐 수집됩니다. 컴퓨터는 그런 다음 간단하고, 정확한 요약을 생성하고, 큰 행렬을 역을 취하거나 수 백 번의 반복 작업을 수행을 요구하는 것, 손으로 절대 시도할 수 없는 것과 같은, 보다 지루한 분석을 허용합니다. 보다 빠른 컴퓨팅은 통계학자에게 모든 순열을 들여다볼 수 있는, 또는 문제의 10,000 순열을 보는 것에서 무작위를 사용하는 "컴퓨터-집약적인" 방법을 개발하는 것, 이론 단독으로는 정량화하기 쉽지 않은 답을 추정하는 것을 허용합니다.

용어 "수학적 통계(mathematical statistics)"는 통계적 실습(statistical practice)에 사용되는 확률(probability)통계적 추론(statistical inference)의 수학적 이론을 가리킵니다. 통계와 확률 이론 사이의 관계는, 어쨌든, 꽤 늦게 개발되었습니다. 19세기에서, 통계는 확률 이론(probability theory)을 점점 더 많이 사용했는데, 그의 초기 결과는 17세기와 18세기, 특히 우연의 게임(games of chance) (겜블링)의 분석에서 나타났습니다. 1800년까지, 천문학은 확률 모델과 통계적 이론, 특히 최소 제곱의 방법(method of least squares)을 사용했습니다. 초기 확률 이론과 통계는 19세기에 시스템화되었고 통계적 추론과 확률 모델은 사회 과학자에 의해 실험 심리학(experimental psychology)사회학(sociology)의 새로운 과학을 향상시키는 것, 물리 과학자에 의해 열역학(thermodynamics)통계적 역학(statistical mechanics)에서 사용되었습니다. 통계적 추론의 발전은 귀납적 논리(inductive logic)과학적 방법(scientific method)의 개발과 밀접한 관련되었는데, 이것은 통계학자들을 수학적 통계의 보다 좁은 영역에서 벗어나게 하는 관심사입니다. 이론적 작업의 대부분은, 컴퓨터가 그들을 이용하기 위해 유용할 때 손쉽게 유용될 수 있었습니다. 1970년대까지, 존슨과 코츠(Johnson and Kotz)는 4-권 Compendium on Statistical Distributions (초판, 1969-1972)을 제작했는데, 이것은 여전히 매우 귀중한 자료입니다.

응용 통계학은 수학(mathematics)의 분야가 아니라 컴퓨터 과학(computer science)운용 연구(operations research)와 같은, 자발적인 수학적 과학(mathematical science)으로 여길 수 있습니다. 수학과 달리, 통계학은 공공 관리(public administration:행정)에서 그의 기원을 가집니다. 응용은 인구통계(demography)경제(economics)에서 초기에 나타났습니다; 오늘날 마이크로- 및 매크로-경제의 넓은 영역은 시간-계열 분석에 중점을 둔 "통계"입니다. 데이터로부터 학습 및 최선의 예측을 만드는 것에 중점을 둔, 통계는 심리적 테스트, 의학 및 전염병학(epidemiology:역학)을 비롯한 학술 연구의 분야별로 형성되어 왔습니다. 통계적 테스트의 아이디어는 의사결정 과학(decision science)과 상당한 중복을 가집니다. 데이터(data)를 검색 및 효과적인 표현에 관련된 그것과 함께, 통계는 정보 과학(information science)컴퓨터 과학(computer science)과 중복을 가집니다.

Etymology

Look up statistics in Wiktionary, the free dictionary.

용어 통계는 궁극적으로 새 라틴어(New Latin) statisticum collegium ("국가의 회의")와 이탈리아(Italian) 단어 statista (정치가("statesman" or "politician"))에서 파생됩니다. 고트프리트 아흔바일(Gottfried Achenwall) (1749)에 의해 처음 소개된 독일(German) Statistik은 원래 국가(state)에 관한 데이터(data)의 분석을 가리키고, "국가의 과학"을 의미합니다 (영어에서 정치적 산술(political arithmetic)이라고 부릅니다). 그것은 일반적으로 19세기 초반에 데이터의 수집 및 분류의 의미를 획득했습니다. 그것은 1791년 Statistical Account of Scotland이라는 제목의 21권 가운데 첫 번째를 출판했을 때 존 싱클레어 경(Sir John Sinclair)에 의해 영어로 소개되었습니다.[1]

따라서, Statistik의 원래 주요 목적은 정부 및 (종종 중앙 집중화된) 행정 기관에 의해 사용되는 데이터입니다. 국가 및 지역에 대한 데이터 수집은 주로 국내 및 국제 통계적 서비스(national and international statistical services)를 통해 계속됩니다. 특히, 인구조사(censuses)인구(population)에 대한 자주 업데이트된 정보를 제공합니다.

그의 제목에 '통계'를 가진 첫 번째 책은, 의료 무효 및 일반 생활 사무소의 보험계, Francis GP Neison에 의한 "중요한 통계에 대한 기고" (1845)였습니다.[citation needed]

Origins in probability theory

문명의 시작 이래로 통계의 기본 형태가 사용되어 왔습니다. 초기 제국은 종종 인구의 인구조사를 대조하거나 다양한 상품에 무역을 기록했습니다. 한 왕조(Han Dynasty)로마 제국(Roman Empire)은 제국의 인구, 지리적 영역 및 부의 크기에 관한 데이터를 광범위하게 수집한 최초의 국가들 중 일부입니다.

통계적 방법의 사용은 최소한 기원전 5세기로 거슬러 올라갑니다. 역사학자 투키디데스(Thucydides)펠로폰네소스 전쟁의 역사(History of the Peloponnesian War)[2]에서 아테네 사람은 그들을 셀 수 있는 그들에게 충분히 가까운 벽의 회반죽을 입히지 않는 부분에서 벽돌의 숫자를 계산함으로써 플리티아(Platea)의 벽 높이를 계산하는 방법을 설명합니다. 셈은 여러 군인에 의해 여러 번 반복되었습니다. 그렇게 결정된 가장 빈번한 값 (현대 용어에서 - 모드(mode:최빈값))은 벽돌의 숫자의 가장 가능성 있는 값으로 여겨졌습니다. 이 값에 벽에 사용된 벽돌의 높이를 곱하면 아테네 사람들에게 벽을 확장하기 위해 필요한 사다리의 높이를 결정하는 것을 허용합니다.

확률과 통계(probability and statistics) 형태는 암호학(cryptology)을 연구하는 아랍 수학자(Arab mathematician), 알-칼릴(Al-Khalil) (717–786 CE)에 의해 개발되었습니다. 그는 모음있는 또는 모음없는 모든 가능한 아랍어(Arabic) 단어를 나열하기 위해 순열과 조합(permutations and combinations)의 첫 번째 사용을 포함하는 Book of Cryptographic Messages을 썼습니다.[3]

통계(statistics)에 대한 가장 초기의 글은, 알-킨디(Al-Kindi) (801–873)에 의해 쓰인, 9세기 아랍어 책 제목 Manuscript on Deciphering Cryptographic Messages에서 찾아볼 수 있습니다. 그의 책에서, 알-칸디는 암호화된(encrypted) 메시지를 풀기 위해 통계 및 빈도 분석(frequency analysis)을 사용하는 방법의 자세히 설명을 제공했습니다. 이 텍스트는 틀림없이 통계 및 암호해독(cryptanalysis) 둘 다의 탄생을 초래했습니다.[4][5] 알-킨디는 통계적 추론(statistical inference)에 대한 최초의 알려진 사용을 역시 만들었고, 그와 다른 아랍 암호학자는 암호화된 메시지를 디코딩(decoding)하는 초기 통계적 방법을 개발했습니다. 이븐 아들란(Ibn Adlan) (1187–1268)의 중요한 공헌은 빈도 분석의 사용에 대해 표본 크기(sample size:표본 크기)에 대한 것입니다.[3]

픽스의 시행(Trial of the Pyx)은 12세기 이래로 정규적 기초에 대해 개최된 왕실 조폐국(Royal Mint)의 주화의 순도를 시험입니다. 시행 자체는 통계적 표본화 방법을 기반으로 합니다. 일련의 동전을 주조한 후에 - 은의 10 파운드로부터 원래 - 하나의 동전은 픽스 - 웨스트민스트 사원(Westminster Abbey)에 있는 상자 - 에 놓였습니다. 주어진 기간 후에 - 지금은 일 년에 한 번 - 동전은 제거되고 무게를 달아봅니다. 박스로부터 제거된 동전의 표본은 그런 다음 순도에 대해 테스트됩니다.

피렌체 은행가이자 관료 조반니 빌라니(Giovanni Villani)에 의한 14세기 플로렌스의 역사(history of Florence), 누오바 크로니카(Nuova Cronica:신간 연대기)는 인구, 법령, 무역, 교육 및 종교 시설에 관한 많은 통계적 정보를 포함하고, 비록 특정 분야의 용어 또는 개념이 아직 존재하지 않았을지라도, 역사에서 긍정적인 요소로 통계의 첫 번째 도입으로 묘사되어 왔습니다.[6] 그러나 이것은 빈도 분석(frequency analysis)에 대한 알-친디(Al-Kindi)의 책의 재발견 후에 잘못된 것으로 판명되었습니다.[4][5]

산술 평균(mean)은, 비록 그리스인들에게 알려진 개념이지만, 16세기까지 2개 값보다 많은 것에 대해 일반화되지 못했습니다. 1585년에 시몬 스테빈(Simon Stevin)에 의한 십진 시스템의 발명은 이들 계산을 용이하게 하는 것처럼 보입니다. 이 방법은 다양한 천체의 위치 추정에서 오차를 줄이기 위한 시도했던 튀코 브라헤(Tycho Brahe)에 의해 천문학에서 처음으로 채택했습니다.

중앙값(median)의 아이디어는 1599년에 에드워드 라이트(Edward Wright)의 항해에 관한 책 (Certaine Errors in Navigation)에서 나침반과 함께 위치를 결정하는 것과 관련된 섹션에서 시작되었습니다. 라이트는 이 값은 일련의 관찰에서 가장 올바른 값인 것이라고 느꼈었습니다.

Sir William Petty, a 17th-century economist who used early statistical methods to analyse demographic data.

통계의 탄생은 종종 1662년으로 거슬러 올라가는데, 존 그란트(John Graunt)는, 윌리엄 페티(William Petty)와 함께, 현대 인구통계(demography)에 대해 프레임워크를 제공하는, 초기 인적 통계 및 인구조사(census) 방법을 개발했습니다. 그는 각 나이에 대한 생존의 확률을 제공하는 최초의 생명 테이블(life table)을 만들었습니다. 그의 책 Natural and Political Observations Made upon the Bills of Mortality런던(London)의 인구의 첫 번째 기반 추정을 만들기 위해 사망(mortality) 명부의 분석을 사용했습니다. 그는 런던에서 1년에 약 13,000 장례식이 있었고 1년에 11가족 당 사망한 3명이 있음을 알았습니다. 그는 교구 기록으로부터 평균 가족 크기가 8이고 런던 인구가 약 384,000인 것으로 추정했습니다; 이것이 비율 추정량(ratio estimator)의 첫 번째 알려진 사용입니다. 라플라스(Laplace)는 1802년 비슷한 방법으로 프랑스 인구를 추정했습니다; 자세한 것은 Ratio estimator § History를 참조하십시오.

통계의 원래 범위는 통치에 대해 유용한 데이터로 제한되었을지라도, 그 접근은 19세기 동안 과학적 또는 상업적 본성의 많은 분야로 확장되었습니다. 주제에 대해 수학적 기초는 제롤라모 카르다노(Gerolamo Cardano), 피에르 드 페르마(Pierre de Fermat)블레즈 파스칼(Blaise Pascal)에 의해 16세기에 개척된 새로운 확률 이론(probability theory)에 크게 의존했습니다. 크리스티안 하위헌스(Christiaan Huygens) (1657)는 그 주제의 최초로 알려진 과학적 처리를 제공했습니다. 야코프 베르누이(Jakob Bernoulli)Ars Conjectandi (사후, 1713)와 아브라암 드 무아브르(Abraham de Moivre)The Doctrine of Chances (1718)는 주제를 수학의 가지로 취급했습니다. 그의 책에서 베르누이는 완전한 확실성을 일, 확률을 영과 일 사이의 숫자로 표현하는 아이디어를 도입했습니다.

18세기에서 통계의 핵심 초기 응용은 출생에서 인간의 성비(human sex ratio)에 대한 것이었습니다.[7] 존 아버스넛(John Arbuthnot)은 이 질문을 1710년에 연구했습니다.[8][9][10][11] 아버스넛은 1629년에서 1710년까지 82년 각 년에 대해 런던에서 출생 기록을 조사했습니다. 모든 각 년에서, 런던에서 태어난 남성의 숫자는 여성의 숫자를 초과했습니다. 보다 많은 남성 또는 여성 출생을 동등하게 고려할 때, 관찰된 결과의 확률은 , 또는 4,8360,0000,0000,0000,0000,0000에서 1입니다; 현대 용어에서, p-값(p-value)입니다. 이것은 영이 될 정도로 작아서, 이것은 우연에 기인하는 것이 아니라, 섭리를 발견하는 것이라고 아버스넛을 이끕니다: "그것이 어디서부터 오는가, 그것은 예술이지, 우연은 아니고, 지배합니다." 이것과 아버스넛에 의한 다른 연구는 통계적 중요성(statistical significance)과 도덕적 확실성에 대한 추론의 첫 번째 예제 "중요성 테스트(significance test)의 첫 번째 사용"[12] [13] 그리고 "… 아마도 비-매개변수 테스트(nonparametric test)의 첫 번째 출판된 보고서 …",[9] 특히 부호 테스트(sign test)로 기록됩니다. 자세한 것은 Sign test § History에서 참조하십시오.

오차의 이론(theory of errors)의 공식적인 연구는 로저 코츠(Roger Cotes)Opera Miscellanea (사후, 1722)로 거슬러 올라갈 수 있지만, 1755 년 토머스 심프슨(Thomas Simpson)에 의해 준비된 회고록 (1756에 출판)은 관찰의 오차의 논의에 대한 그 이론을 처음으로 적용했습니다. 이 회고록의 재출판 (1757)은 양의 그리고 음의 오차가 동등하게 있음직한, 그리고 모든 오차가 빠질 수 있는 특정한 지정할 수 있는 한계가 있는 공리(axiom)를 세웠습니다; 연속 오차가 논의되고 확률 곡선은 주어집니다. 심프슨은 몇 가지 가능한 오차의 분포를 논의했습니다. 그는 처음에는 균등 분포(uniform distribution)를 고려하고 그런 다음 이산 대칭 삼각형 분포(triangular distribution) 뒤이어 연속 대칭 삼각형 분포를 고려했습니다. 토비아스 마이어(Tobias Mayer)는, 달(moon)진동(libration)에 관한 그의 연구 (Kosmographische Nachrichten, Nuremberg, 1750)에서, 비슷한 방정식의 그룹의 평균화에 대한 동일한 환경 아래에서 관측의 평균화의 일반화함으로써 미지의 양을 추정하기 위한 최초의 공식적인 방법을 발명했습니다.

1755년 지구의 모양에 대한 그의 연구를 바탕으로 로저 요셉 보스코비치(Roger Joseph Boscovich)는 그의 책 De Litteraria expeditione per pontificiam ditionem ad dimetiendos duos meridiani gradus a PP. Maire et Boscovicli에서 일련의 관측의 참 값은 절대 오차의 합을 최소화하는 것이라고 제안했습니다. 현대 용어에서 이 값은 중앙값입니다. 나중에 정규 곡선으로 알려지게 된 첫 번째 예제는 1733년 11월 12일에 이 곡선을 그렸던 아브라암 드 무아브르(Abraham de Moivre)에 의해 연구되었습니다.[14] 드 무아브르는 '공정한' 동전이 던져졌을 때 발생하는 앞면의 숫자를 연구했었습니다.

1761년 토머스 베이즈(Thomas Bayes)베이즈의 정리(Bayes' theorem)를 증명했고 1765년 조지프 프리스틀리(Joseph Priestley)는 최초의 타임라인(timeline) 차트를 발명했습니다.

요한 하인리히 램버트(Johann Heinrich Lambert)는 1765년 그의 책 Anlage zur Architectonic에서 반원(semicircle)을 오차의 분포로 제안했습니다.

여기서 -1 < x < 1.

Probability density plots for the Laplace distribution.

피에르-시몽 라플라스(Pierre-Simon Laplace) (1774)는 확률 이론의 원리로부터 관측의 조합에 대해 규칙을 추론하려는 최초의 시도를 했습니다. 그는 오차 확률의 법칙을 곡선으로 표현하고 세 가지 관찰의 평균에 대해 공식을 추론했습니다.

라플라스는 1774년 오차의 빈도는 일단 부호가 무시되면 그의 크기의 지수 함수로 표현될 수 있음을 주목했습니다.[15][16] 이 분포는 지금 라플라스 분포(Laplace distribution)로 알려져 있습니다. 라그랑주는 1776년에 오차의 포물선 분포(parabolic distribution)를 제안했습니다.

라플라스는 1778년에 오차의 빈도가 그 크기의 제곱의 지수에 비례한다는 것을 주목하면서 오차의 그의 두 번째 법칙을 발표했습니다. 이것은 나중에 (아마도 1795년에) 가우스(Gauss)에 의해 재발견되었고 통계학에서 중심적으로 중요한 정규 분포(normal distribution)로 지금 잘 알려져 있습니다.[17] 이 분포는 1873년 찰스 샌더스 퍼스(Charles Sanders Peirce)에 의해 정규(normal) 분포로 최초로 언급되었는데, 그는 물체가 나무 바닥에 떨어질 때 측정 오차를 연구했었습니다.[18] 그는 자연적으로 발생하는 변수에서 그의 빈번한 발생때문에 용어 정규(normal)를 선택했습니다.

라그랑주는 1781년에 오차에 대한 두 가지 다른 분포, 들어올린 코사인 분포(raised cosine distribution)로그 분포(logarithmic distribution)를 제안했습니다.

라플라스는 (1781) 오류의 용이성의 법칙 (조제프-루이 라그랑주(Joseph-Louis Lagrange) (1774)에 기인하는 용어)에 대한 공식을 제시하였지만, 다루기 힘든 방정식으로 이끌어 냈습니다. 다니엘 베르누이(Daniel Bernoulli) (1778)는 동시 오류의 시스템의 확률의 최대 곱의 원리를 소개했습니다.

1786년 윌리엄 플레이페어(William Playfair) (1759–1823)는 통계에 그래픽 표현이라는 개념을 도입했습니다. 그는 꺾은 라인 차트(line chart:선 도표), 바 차트(bar chart:막대 차트)히스토그램(histogram)을 발명했고 그들을 경제학(economics)에 대한 그의 연구, Commercial and Political Atlas에서 통합했습니다. 이것은 파이 차트(pie chart)와 원형 차트의 그의 발명에 의해 1795년에 뒤따랐는데, 그는 영국의 수입 및 수출의 진화를 보여주기 위해 그것을 사용했습니다. 이들 후자의 차트는 그가 1801년에 그의 Statistical Breviary에서 예제를 발표했을 때 일반적인 관심을 끌었습니다.

라플라스는, 1787년 토성(Saturn)목성(Jupiter)의 운동에 대한 조사에서, 방정식의 하나의 그룹의 다른 선형 조합을 사용함으로써 메이어의 방법을 일반화했습니다.

1791년 존 싱클레어 경(Sir John Sinclair)은 그의 Statistical Accounts of Scotland에서 용어 '통계'('statistics')를 영어로 도입했습니다.

1802년 라플라스는 프랑스의 인구를 28,328,612명일 것이라고 추정했습니다.[19] 그는 전년도의 출생의 숫자와 세 지역 사회의 인구조사 데이터를 사용하여 이 숫자를 계산했습니다. 이들 지역 사회의 인구조사 자료는 그들이 2,037,615명의 사람들이 있었고 출생의 숫자는 71,866명이었음을 보여주었습니다. 이들 표본이 프랑스를 대표한다고 가정하면, 라플라스는 전체 인구에 대해 그의 추정을 산출했습니다.

Carl Friedrich Gauss, mathematician who developed the method of least squares in 1809.

데이터 측정(measurement)에서 오류를 최소화하기 위해 사용된, 최소 제곱의 방법(method of least squares)아드리앵-마리 르장드르(Adrien-Marie Legendre) (1805), 로버트 아드레인(Robert Adrain) (1808) 및 카를 프리드리히 가우스(Carl Friedrich Gauss) (1809)에 의해 독자적으로 발간되었습니다. 가우스는 그의 유명한 1801년 왜소한 행성(dwarf planet:왜행성) 세레스(Ceres)의 위치의 예측에서 이 방법을 사용했었습니다. 가우스의 계산에 근거한 관측은 이탈리아의 수도사 피아치(Piazzi)에 의해 만들어졌습니다.

최소 제곱 방법은 중앙 회귀 기울기를 사용 전에 수행되었습니다. 이 방법은 절대적인 편차의 합을 최소화합니다. 이 기울기를 추정하는 방법은 1760년에 로저 요셉 보스코비치(Roger Joseph Boscovich)에 의해 발명되었으며 그는 이것을 천문학에 적용했습니다.

용어 가능한 오류(probable error:확률 오류) (der wahrscheinliche Fehler) - 평균으로부터 중앙값 변이 - 는 1815년 독일의 천문학자 프레데릭 빌헬름 베셀(Frederik Wilhelm Bessel)에 의해 도입되었습니다. 1843년 안토니 어거스틴 쿠르노(Antoine Augustin Cournot)는 확률 분포를 두 개의 같은 절반으로 나누는 값에 대해 용어 중앙값(median) (valeur médiane)을 처음으로 사용했습니다.

오차의 이론에 대한 다른 공헌자는 엘리스(Ellis) (1844), 드 모르간(De Morgan) (1864), 글레이셔(Glaisher) (1872), 조반니 스키아파렐리(Giovanni Schiaparelli) (1875)였습니다.[citation needed] 에 대해 피터 (1856)의 공식, 하나의 관측의 "가능한 오류"는 널리 사용되었고 일찍 건장한 통계(robust statistics)에 영감을 주었습니다 (이상치(outlier)에 저항: 퍼스의 기준(Peirce's criterion)을 참조하십시오).

19세기에 통계적 이론(statistical theory)에 대한 저자는 라플라스, 실베스트르 라크루아(S. Lacroix) (1816), 리트로(Littrow) (1833), 데데킨트(Dedekind) (1860), 헬마트(Helmert) (1872), 루훠(Laurent) (1873), Liagre, Didion, 드 모르간(De Morgan)부울(Boole)을 포함했습니다.

구스타프 테오도어 페히너(Gustav Theodor Fechner)는 사회학적 및 심리적 현상에서 중앙값 (Centralwerth)을 사용했습니다.[20] 그것은 일찍이 천문학 및 관련 분야에서 오직 사용되었습니다. 프랜시스 골턴(Francis Galton)은 1881년에 처음으로 영어 용어 중앙값(median)을 사용했는데 일찍이 1869년에 용어 middle-most value 및 1880년에 medium을 사용했습니다.[21]

통계의 또 다른 중요한 창시자, 어돌프 케틀레(Adolphe Quetelet) (1796–1874)는 범죄 비율(crime rates), 결혼 비율(marriage rates), 자살 비율(suicide rates)과 같은 복잡한 사회 현상을 이해하는 수단으로 "평균 사람(average man)" (l'homme moyen)의 개념을 도입했습니다.[22]

정규 분포의 첫 번째 테스트는 1870년대 독일의 통계학자 빌헬름 렉시스(Wilhelm Lexis)에 의해 고안되었습니다. 그가 보여줄 수 있었던 유일한 데이터 집합은 출생 비율이었습니다.

Development of modern statistics

통계 이론의 기원은 확률에서 18세기 진보에 놓여있을지라도, 통계의 현대 필드는 19세기 말과 20세기 초반에 3단계로 오직 나타났습니다. 첫 번째 물결은, 세기의 전환기에서, 과학뿐만 아니라 산업 및 정치 분야에서도 해석학에 사용되는 엄격한 수학 분야로 통계를 변형시킨, 프랜시스 골턴(Francis Galton)칼 피어슨(Karl Pearson)의 연구에 의해 주도되었습니다. 1910년대와 20년대의 두 번째 물결은 윌리엄 실리 고셋(William Sealy Gosset)에 의해 시작되었고, 로널드 피셔(Ronald Fisher)의 통찰력에서 절정에 이르렀습니다. 이것은 실험 모델의 더 나은 디자인(design of experiments), 가설 테스팅 및 작은 데이터 표본을 사용하는 기술 개발을 포함합니다. 이전 개발의 개선과 확장을 주로 보였던, 마지막 물결은 1930년대 이건 피어슨(Egon Pearson)예르지 네이만(Jerzy Neyman) 사이의 공동 연구에서 나타났습니다.[23] 오늘날, 통계적 방법은 의사결정 만드는 것, 데이터의 조합된 덩어리로부터 정확한 추론을 만드는 것 그리고 통계적 방법론을 기반으로 불확실성에 직면하여 의사결정을 만드는 것을 포함하는 모든 분야에 적용됩니다.

The original logo of the Royal Statistical Society, founded in 1834.

최초의 통계적 주력은 19세기 초에 설립되었습니다. 왕립 통계 학회(Royal Statistical Society)는 1834년에 설립되었고 그의 최초의 여성 회원, 플로렌스 나이팅게일(Florence Nightingale)은 전염병학적 이해와 공중 보건 실습의 향상에 대해 건강 문제에 대한 통계적 분석의 응용을 개척했습니다. 어쨌든, 당시에 사용된 방법은 오늘날 현대 통계로 여겨지지 않습니다.

옥스포드(Oxford) 학자 프란시스 이시드로 에지워스(Francis Ysidro Edgeworth)의 책, Metretike: or The Method of Measuring Probability and Utility (1887)은 귀납적 추론의 기초로 확률을 다루었고, 그의 나중의 연구는 '우연의 철학'에 중점을 두었습니다.[24] 통계에 관한 그의 첫 번째 논문 (1883)은 오차의 법칙 (정규 분포(normal distribution))을 탐구하였고, 그의 Methods of Statistics (1885)은 t 분포(t distribution)의 새로운 버전, 에지워스 확장(Edgeworth expansion), 에지워스 급수(Edgeworth series), 변량 변환 방법 및 최대 우도 추정의 점근 이론을 소개했습니다.

노르웨이의 아너스 니콜라이 키아(Anders Nicolai Kiær)는 1895년 계층화된 표본화(stratified sampling:층화 표본화)의 개념을 도입했습니다.[25] 아서 리옹 볼리(Arthur Lyon Bowley)는 사회 통계에 대해 연구할 때 1906년에 데이터 표본화의 새로운 방법을 도입했습니다. 비록 사회 조건의 통계적 조사가 찰스 부스(Charles Booth)의 "Life and Labour of the People in London" (1889–1903)과 시봄 라운트리(Seebohm Rowntree)의 "Poverty, A Study of Town Life" (1901), 볼리의 것과 함께 시작되었을지라도, 핵심 혁신은 무작위 표본화(random sampling) 기술의 사용으로 구성됩니다. 그의 노력은 그의 New Survey of London Life and Labour에서 절정을 이루었습니다.[26]

프랜시스 골턴(Francis Galton)은 통계 이론의 주요 창시자 중 한 명으로 인정됩니다. 그 분야에 대한 그의 공헌은 표준 편차(standard deviation), 상호관계(correlation:상관관계), 회귀(regression)의 개념을 도입한 것 그리고 다양한 인간 특성 - 다른 것 사이의 키높이, 몸무게, 속눈썹 길이 - 연구에 이들 방법을 응용을 포함합니다. 그는 이들 중 많은 것들이 정규 곡선 분포에 적합할 것임을 발견했습니다.[27]

골턴은 중앙값의 유용성에 대해 1907년 네이처(Nature)에 논문을 제출했습니다.[28] 그는 국가 박람회에서 황소의 무게의 787건의 추측의 정확성을 조사했습니다. 실제 무게는 1208 파운드였습니다: 중앙값 추측은 1198였습니다. 추측은 크게 비-정규적으로 분포되었습니다.

Karl Pearson, the founder of mathematical statistics.

1889년 Natural Inheritance의 골턴의 발표는, 그 당시에 런던 대학교(University College London)에서 연구하던, 뛰어난 수학자, 칼 피어슨(Karl Pearson)의 관심을 촉발시켰고,[29] 피어슨은 수학적 통계의 분야를 발견해 나갔습니다.[30] 그는 과학적 법칙의 통계적 기초를 강조했고 그의 연구를 촉진했고 그의 실험실은 우드니 율(Udny Yule)을 비롯한, 분석의 그의 새로운 방법에 매료된 전 세계로부터 학생들을 끌어들였습니다. 그의 연구는 생물학(biology), 전염병학(epidemiology), 인체측정법, 의학(medicine) 및 사회 역사(history)의 필드를 포함해서 성장했습니다. 1901년에서, 생체측정법(biometry)의 설립자, 월터 웰던(Walter Weldon)과 함께 골턴은 Biometrika 저널을 수학적 통계 및 생체측정법의 첫 번째 저널로 설립했습니다.

그의 연구, 및 골턴의 그것은 곱-모멘트(product-moment)로 정의되는 상호관계 계수(Correlation coefficient)[31]; 표본에 대한 분포의 피팅에 대해 모멘트의 방법(method of moments); 현재의 전통적인 연속 확률 분포의 기초를 형성하는 연속 곡선의 피어슨의 시스템(Pearson's system of continuous curves); 카이 거리(Chi distance) 마할라노비스 거리(Mahalanobis distance)의 전조와 특별한 경우[32] 그리고 중심으로 가정된 값과 반지름으로 치 거리와 함께 볼(ball)의 여(complement)의 확률 측정으로 정의되는 P-값(P-value)을 포함하여, 오늘날 공통적으로 사용되는 '고전적' 통계적 방법의 다수를 뒷받침합니다.[32] 그는 용어 '표준 편차'를 역시 도입했습니다.

그는 통계적 가설 테스팅 이론(statistical hypothesis testing theory),[32] 퍼어슨의 카이-제곱 테스트(Pearson's chi-squared test)주요 성분 분석(principal component analysis:주성분 분석)을 역시 창안했습니다.[33][34] 1911년에 그는 런던 대학교(University College London)에서 세계 최초의 대학 통계학과를 설립했습니다.

수학적 통계의 두 번째 물결은 로널드 피셔(Ronald Fisher)에 의해 개척되었는데, 그는 두 교과서, 1925년에 출판된, Statistical Methods for Research Workers과 1935년에 The Design of Experiments을 썼으며, 그것은 세계에 걸쳐 대학교에서 학문 분야를 정의하는 것이었습니다. 그는 이전 결과를 역시 시스템화했으며, 그들을 확고한 수학적 기반 위에 놓았습니다. 그의 1918년 발달 가능성이 있는 논문 The Correlation between Relatives on the Supposition of Mendelian Inheritance에서, 통계적 용어, 분산(variance)을 최초로 사용했습니다. 1919년, 로담스테드 실험 역(Rothamsted Experimental Station)에서, 그는 수년에 걸쳐 기록된 광범위한 데이터 수집의 주요 연구를 시작했습니다. 이것은 일반적인 제목 Studies in Crop Variation 아래에서 일련의 보고서를 결과로써 생성합니다. 1930년 그는 The Genetical Theory of Natural Selection를 출판하는데 여기서 그는 진화(evolution)에 통계를 적용했습니다.

다음 7년에 걸쳐, 그는 실험의 디자인(design of experiments)의 원칙을 개척했고 (아래를 참조하십시오) 분산의 분석의 그의 연구를 갈고 닦습니다. 그는 작은 표본의 통계의 그의 연구를 진행시켰습니다. 아마도 보다 더 중요하게, 그는 새로운 통계적 방법 개발에 대해 도약으로서 실제 데이터의 분석의 그의 시스템적인 접근을 시작했습니다. 그는 그의 균형 잡힌 실험 디자인으로부터 데이터를 분석하는 것에 대해 계산적인 알고리듬을 개발했습니다. 1925년에, 이 연구는 그의 첫 번째 책, Statistical Methods for Research Workers의 출판을 가져왔습니다.[35] 이 책은 몇 년 후에 여러 판과 번역을 거쳤고, 그것은 여러 분야에서 과학자들에 대해 표준 참고 연구가 되었습니다. 1935년, 이 책은 The Design of Experiments에 의해 뒤따라지고, 그것 역시 널리 사용되었습니다.

분산의 분석 외에도, 피셔는 최대 가능도(maximum likelihood:최대 우도) 추정의 방법을 명명하고 홍보했습니다. 피셔는 충분성(sufficiency), 보조적 통계(ancillary statistic), 피셔의 선형 판별기(Fisher's linear discriminator)피셔 정보(Fisher information)의 개념을 역시 시작했습니다. 그의 기사 On a distribution yielding the error functions of several well known statistics (1924)는 피어슨의 카이-제곱 테스트(Pearson's chi-squared test)가우시안 분포(Gaussian distribution)로 같은 프레임워크에서 윌리엄 실리 고셋(William Sealy Gosset)t, 그리고 분산의 분석에서 그의 매개 변수 피셔의 z-분포(Fisher's z-distribution) (더 일반적으로 F 분포(F distribution)의 형태에서 수십 년 후 사용되는)를 소개했습니다.[36] 중요성의 5% 수준은 1925년 피셔에 의해 도입된 것으로 보입니다.[37] 피셔는 표준 편차의 두 배를 초과하는 편차가 중요한 것으로 여겼습니다. 이 편차가 3배를 초과하기 전에 가능한 오차가 중요하게 고려되었습니다. 대칭 분포에 대해, 가능한 오차는 이너쿼타일(분포의 1분위와 3분위 사이) 범위 절반입니다. 정규 분포에 대해, 가능한 오차는 대략 2/3 표준 편차입니다. 그것은 피셔의 5% 기준이 이전 실시에서 뿌리를 둔 것으로 나타났습니다.

이 시기에서 다른 중요한 공헌은, 피어슨 상관관계의 유용한 확장이었던, 찰스 스피어먼(Charles Spearman)랭크 상관관계 계수(rank correlation coefficient)를 포함합니다. Student라는 필명으로 더 잘 알려진 영국 통계 학자, 윌리엄 실리 고셋(William Sealy Gosset)학생의 t-분포(Student's t-distribution)를 도입했는데, 그것은 표본 크기가 작고 모집단 표준 편차가 알려지지 않은 상황에서 유용한 연속 확률 분포입니다.

이건 피어슨(Egon Pearson) (칼의 아들)과 예르지 네이만(Jerzy Neyman)은 "유형 II(Type II)" 오류, 테스트의 거듭제곱 및 신뢰 구간(confidence interval)의 개념을 도입했습니다. 예르지 네이만(Jerzy Neyman)은 1934년에 계층화된 무작위 표본화이 일반적으로 목적이 있는 (할당량) 표본화보다 더 나은 평가 방법임을 보여주었습니다.[38]

Design of experiments

James Lind carried out the first ever clinical trial in 1747, in an effort to find a treatment for scurvy.

1747년에서, HM Bark Salisbury에서 외과의사로 일하면서, 제임스 린드(James Lind)괴혈병(scurvy)에 대한 치료법을 개발하기 위해 통제된 실험을 수행했습니다.[39] 이 연구에서 그의 피실험자의 경우는 "내가 그들을 가질 수 있는 만큼 비슷했습니다", 즉 그는 외적인 변화를 줄이기 위해 엄격한 입학 엔트리 요구를 제공했습니다. 남자들은 짝을 지어 블로킹(blocking)을 제공했습니다. 현대적인 관점에서, 있어야 할 것 중에 없었던 가장 중요한 것은 치료에 대한 피실험자의 무작위 배정입니다.

린드는 오늘날 종종 한-번에-한-인자 실험자로 묘사됩니다.[40] 비슷한 한-번에-한-인자 (OFAT) 실험은 밀에 사용할 최적의 무기의 비료를 결정하기 위해 존 로스(John Lawes) 경이 1840년대 로담스테드 연구소 역(Rothamsted Research Station)에서 수행되었습니다.[40]

통계적 추론의 이론은 찰스 샌더스 퍼스(Charles S. Peirce)에 의해 개발되었으며, 그는 "Illustrations of the Logic of Science" (1877–1878) and "A Theory of Probable Inference" (1883)에서, 통계학에서 무작위-기반 추론의 중요성을 강조했습니다. 또 다른 연구에서, 퍼스는 무게를 식별하는 그의 능력을 평가하기 위해 자원 봉사자를 눈-멀게-된(blinded), 반복된-측정 디자인(repeated-measures design)에 무작위로 배정했습니다.[41][42][43][44]

퍼스의 실험은 1800년대에 실험실과 특수한 교과서에서 무작위화 실험의 연구 전통을 발전시킨 심리학 및 교육에서 다른 연구원에게 영감을 주었습니다.[41][42][43][44] 퍼스는 1876년에 회귀(regression)-모델(models)에 대한 최적의 디자인(optimal design)에 대한 최초의 영어 간행물을 역시 공헌했습니다.[45] 다항식 회귀(polynomial regression)에 대한 선구적인 최적 디자인(optimal design)은 1815년 제르곤(Gergonne)에 의해 제안되었습니다.[citation needed] 1918년 키어스틴 스미스(Kirstine Smith)는 6 (그리고 작은)차 다항식에 대해 최적 디자인을 발표했습니다.[46]

실험하는 것을 중단할 가능성이 있는 결정을 포함하여, 각각의 디자인이 이전 실험의 결과에 의존할 수 있는, 일련의 실험을 사용하는 것은 통계적 가설의 순차적 테스트의 맥락에서 아브라함 왈드(Avraham Wald)에 의해 개척되었습니다.[47][48] 측량은 최적의 순차적 디자인(sequential designs),[49] 그리고 적응형 디자인(adaptive designs)으로 제공됩니다.[50] 순차적 디지인의 하나의 특정 유형은, 초기 연구가 1952년 허버트 로빈스(Herbert Robbins)에 의해 행해졌던, 여러-팔 강도(multi-armed bandit)로 일반화된 "두-팔 강도(two-armed bandit)"입니다.[51]

용어 "실험의 디자인" (DOE)은 로널드 피셔(Ronald Fisher) 경에 의해 수행된 초기 통계적 연구에서 유래합니다. 그는 아너스 헬(Anders Hald)에 의해 "현대 통계적 과학에 대해 기초를 거의 한-손으로 만든 천재"라고 묘사됩니다.[52] 피셔는 실험의 디자인(design of experiments)의 원칙을 시작했고 "분산의 분석(analysis of variance)"의 그의 연구를 갈고 닦았습니다. 아마도 보다 더 중요하게, 피셔는 새로운 통계적 방법 개발에 대해 도약으로서 실제 데이터의 분석에 대한 그의 시스템적 접근을 시작했습니다. 그는 손으로 수행되는 필요한 계산에 포함된 노동에 특별한 주의를 기울이기 시작했고, 그들은 엄격함에서 설립될 때 실용적으로 되는 방법을 개발했습니다. 1925년에, 이 연구는 그의 첫 번째 책, Statistical Methods for Research Workers의 출판에서 절정에 달했습니다.[53] 이것은 여러 해에 걸쳐 여러 판과 번역을 하게 되고, 여러 분야에서 과학자들에 대해 표준 참고 연구가 되었습니다.[54]

실험을 디자인하는 것에 대해 방법론은 로널드 피셔(Ronald A. Fisher)에 의해 그의 혁신적인 책 The Design of Experiments (1935)에서 제안되었는데 이것 역시 표준이 되었습니다.[55][56][57][58] 예제에서 처럼, 그는 특정 여성이 우유 또는 차가 컵에 처음으로 넣었는지 여부를 오직 향기에 의해 구별될 수 있다는 가설(hypothesis)을 테스트하는 방법을 설명했습니다. 이것이 천박한 응용처럼 들리지만, 그것은 실험 디자인의 가장 중요한 아이디어를 설명하는 것을 그에게 허용했습니다; 차를 시음하는 여자(Lady tasting tea)를 참조하십시오.

농업의 과학(Agricultural science) 발전은 더 큰 도시 인구와 수가 적은 농장의 조합을 충족시키는 역할을 했습니다. 그러나 작물 과학자에 대해 광범위하게 다른 지리적으로 성장하는 기후와 필요를 적당함을 고려하기 위해서, 지역의 성장하는 조건을 구별하는 것이 중요했습니다. 지방 작물에 대한 실험을 전국적인 규모로 외삽하기 위해, 그들은 작물 표본 테스팅을 경제적으로 전체 인구로 확대해야 했습니다. 통계적 방법이 진보함에 따라 (주로 한-번에-한-인자 실험 대신에 디자인의 실험의 효용성), 실험의 대표적 인자와 관련되는 디자인은 실험적 표본화 결과를 전체 인구에, 추론에 의해, 의미있는 확장을 가능하게 했습니다.[citation needed] 그러나 선택된 작물 표본이 얼마나 대표적인 것인지를 결정하는 것이 어려웠습니다.[citation needed] 인자와 관련되는 디자인 방법론은 표본 및 역시 데이터 수집 프로시저에서 임의의 무작위 변동에 대해 추정하고 수정하는 방법을 보여주었습니다.

Bayesian statistics

Pierre-Simon, marquis de Laplace, one of the main early developers of Bayesian statistics.

용어 베이즈(Bayesian)는 토머스 베이즈(Thomas Bayes) (1702–1761)를 지칭하는데, 그는 지금 베이즈의 정리(Bayes' theorem)라고 불리는 것의 특별한 경우를 증명했습니다. 어쨌든, 피에르-시몽 라플라스(Pierre-Simon Laplace) (1749–1827)는 정리의 일반적인 버전을 소개했고 그것을 천체 역학(celestial mechanics), 의학 통계, 신뢰성(reliability)법학(jurisprudence)에 적용했습니다.[59] 불충분한 지식이 정보를 얻을 이전(prior)을 지정하는 것이 유용했을 때, 라플라스는, 그의 "불충분한 이유의 원리(principle of insufficient reason)"에 따라, 균등(uniform) 이전을 사용했습니다.[59][60] 라플라스는 철학적 이유보다는 수학적으로 단순성에 대해 이전을 균등으로 가정했습니다.[59] 라플라스는 켤레 이전(conjugate priors)의 원시 버전과 폰 미제스(Bon Mains)베른슈타인(Bernstein)정리(theorem)를 소개했는데,[citation needed] 정리는 관측의 숫자가 증가함에 따라, 처음에는 다른 이전에 해당하는 이후가 궁극적으로 일치한다는 것입니다.[61] 라플라스의 불충분한 이유의 원리(principle of insufficient reason)를 따르는 균등 이전을 사용했던, 이 초기 베이즈 추론은 "역 확률(inverse probability)"이라고 불렸습니다 (왜냐하면 그것은 관측으로부터 매개 변수, 또는 효과로부터 원인으로 거꾸로 추론하기(infer) 때문입니다[62]).

1920년대 이후, 역 확률(inverse probability)로널드 피셔(Ronald A. Fisher), 예르지 네이만(Jerzy Neyman)이건 피어슨(Egon Pearson)에 의해 개발된 방법의 모음에 의해 크게 대체되었습니다.[citation needed] 그들의 방법은 빈도주의 통계(frequentist statistics)라고 불리게 되었습니다.[62] 피셔는 베이즈 관점을 거부하면서, "역 확률 이론은 오류에 근거하고 있고, 완전히 거부되어야 합니다"라고 썼습니다.[63] 그의 생애의 끝에서, 어쨌든, 피셔는 베이즈의 에세이에 대해 큰 존경심을 표했는데, 에세이는 피셔가 그 자신의 확률에 대한 자신의, 기준의(fiducial) 접근을 예상해 왔다는 것을 믿었다는 것입니다; 피셔는 여전히 확률에 대한 라플라스의 견해는 "그릇된 쓰레기"라는 견해를 유지합니다.[63] 네이만은 "준-베이즈(quasi-Bayesian)"로 시작했었지만, 이후에 신뢰 구간(confidence interval)을 개발했는데 (빈도주의 통계에서 주요 방법) 왜냐하면 "전체적인 이론은 만약 그것이 베이즈주의와 이전에 대한 참조없이 처음부터 구축된 것이라면 더 멋지게 보일 것"이기 때문입니다.[64] 단어 베이즈(Bayesian)는 약 1950년에 나타났고, 1960년대까지 그것은 빈도주의 통계의 한계에 불만족하는 사람들에 의해 선호하는 용어가 되었습니다.[62][65]

20세기에서, 라플라스의 아이디어는 베이즈 응용에서 객관적(objective) 및 주관적(subjective) 흐름을 일으키는 두 가지 다른 방향으로 보다 발전되었습니다. 객관주의자 흐름에서, 통계적 분석은 오직 가정된 모델과 분석된 데이터에 의존합니다.[66] 주관적 결정이 아닌 것은 포함되는 것이 필요합니다. 대조적으로, "주관주의자" 통계학자들은 일반적인 경우에 대해 완전히 객관적 분석의 가능성을 부정합니다.

라플라스의 아이디어의 보다 더 발전에서, 주관적 아이디어는 객관주의 위치에 앞서 발생합니다. '확률'은 '명제에서 믿음의 주관적 정도'로 해석되어야 한다는 아이디어는, 예를 들어, 1920년대 초 존 메이너드 케인스(John Maynard Keynes)에 의해 제안되었습니다.[citation needed] 이 아이디어는 이탈리아에서 브루노 데 피네티(Bruno de Finetti) (Fondamenti Logici del Ragionamento Probabilistico, 1930) 및 케임브리지에서 프랭크 램지(Frank Ramsey) (The Foundations of Mathematics, 1931)에 의해 추가로 채택되었습니다.[67] 이 접근법은 확률의 빈도주의 정의(frequentist definition of probability)입니다. 그러나 역시 라플라스의 초기의, 객관주의 접근법과 함께 문제를 해결하기 위해 고안되었습니다.[66] 주관적인 베이즈 방법은 레널드 쌔비지(Leonard J. Savage)에 의해 1950년대에 더 개발되고 보급되었습니다.[citation needed]

객관적 베이즈 추론은 케임브리지 대학(University of Cambridge)에서 해럴드 제프리스(Harold Jeffreys)에 의해 더 발전되었습니다. 그의 영향력이 많은 책 "확률의 이론"은 1939년 최초로 나타났고 확률의 베이즈 관점(Bayesian view of probability)의 부활에 중요한 역할을 했습니다.[68][69] 1957년에서, 에드윈 제인스(Edwin Jaynes)는, 주로 이산 문제에 대해, 객관적 방법의 공식화에서 중요한 원리인, 이전을 건설하는 것에 대해 최대 엔트로피(maximum entropy)의 개념을 촉진했습니다. 1965년에서, 데니스 린들리(Dennis Lindley)의 2-권 연구 "Introduction to Probability and Statistics from a Bayesian Viewpoint"는 베이즈 방법을 폭넓은 독자층으로 끌어들였습니다. 1979년에서, 호세-미구엘 베르나르도(José-Miguel Bernardo)는 객관적 분석에 대해 일반적인 적용가능한 프레임워크를 제공하는, 참조 분석(reference analysis)[66]을 도입했습니다.[70] 베이즈 확률 이론의 다른 유명한 지지자는 어빙 존 굿(I.J. Good), 베르나드 쿠프만(B.O. Koopman), 하워드 레이퍼(Howard Raiffa), 로버트 쉴레이퍼(Robert Schlaifer)앨런 튜링(Alan Turing)을 포함합니다.

1980년대에서, 마르코프 체인 몬테 카를로(Markov chain Monte Carlo) 방법의 발견에 주로 기인한, 베이즈 방법의 연구와 응용에서 극적인 성장이 있었으며, 이것은 계산적 문제(computational problem)의 많은 부분을 제거했고, 비표준, 복잡한 응용에 대한 관심을 증가시켰습니다.[71] 베이즈 연구의 성장에도 불구하고, 대부분의 학부 강의는 여전히 빈도주의 통계를 기반으로 합니다.[72] 그럼에도 불구하고, 베이즈 방법은, 예를 들어 기계 학습(machine learning)의 분야에서 처럼, 널리 수용되고 사용됩니다.[73]

Important contributors to statistics

References

  1. ^ Ball, Philip (2004). Critical Mass. Farrar, Straus and Giroux. p. 53. ISBN 978-0-374-53041-9.
  2. ^ Thucydides (1985). History of the Peloponnesian War. New York: Penguin Books, Ltd. p. 204.
  3. ^ a b Broemeling, Lyle D. (1 November 2011). "An Account of Early Statistical Inference in Arab Cryptology". The American Statistician. 65 (4): 255–257. doi:10.1198/tas.2011.10191.
  4. ^ a b Singh, Simon (2000). The code book : the science of secrecy from ancient Egypt to quantum cryptography (1st Anchor Books ed.). New York: Anchor Books. ISBN 978-0-385-49532-5.
  5. ^ a b Ibrahim A. Al-Kadi "The origins of cryptology: The Arab contributions", Cryptologia, 16(2) (April 1992) pp. 97–126.
  6. ^ Villani, Giovanni. Encyclopædia Britannica. Encyclopædia Britannica 2006 Ultimate Reference Suite DVD. Retrieved on 2008-03-04.
  7. ^ Brian, Éric; Jaisson, Marie (2007). "Physico-Theology and Mathematics (1710–1794)". The Descent of Human Sex Ratio at Birth. Springer Science & Business Media. pp. 1–25. ISBN 978-1-4020-6036-6.
  8. ^ John Arbuthnot (1710). "An argument for Divine Providence, taken from the constant regularity observed in the births of both sexes" (PDF). Philosophical Transactions of the Royal Society of London. 27 (325–336): 186–190. doi:10.1098/rstl.1710.0011.
  9. ^ a b Conover, W.J. (1999), "Chapter 3.4: The Sign Test", Practical Nonparametric Statistics (Third ed.), Wiley, pp. 157–176, ISBN 978-0-471-16068-7
  10. ^ Sprent, P. (1989), Applied Nonparametric Statistical Methods (Second ed.), Chapman & Hall, ISBN 978-0-412-44980-2
  11. ^ Stigler, Stephen M. (1986). The History of Statistics: The Measurement of Uncertainty Before 1900. Harvard University Press. pp. 225–226. ISBN 978-0-67440341-3.
  12. ^ Bellhouse, P. (2001), "John Arbuthnot", in Statisticians of the Centuries by C.C. Heyde and E. Seneta, Springer, pp. 39–42, ISBN 978-0-387-95329-8
  13. ^ Hald, Anders (1998), "Chapter 4. Chance or Design: Tests of Significance", A History of Mathematical Statistics from 1750 to 1930, Wiley, p. 65
  14. ^ de Moivre, A. (1738) The doctrine of chances. Woodfall
  15. ^ Laplace, P-S. (1774). "Mémoire sur la probabilité des causes par les évènements". Mémoires de l'Académie Royale des Sciences Présentés par Divers Savants, 6, 621–656
  16. ^ Wilson, Edwin Bidwell (1923) "First and second laws of error", Journal of the American Statistical Association, 18 (143), 841-851 JSTOR 2965467
  17. ^ Havil J (2003) Gamma: Exploring Euler's Constant. Princeton, NJ: Princeton University Press, p. 157
  18. ^ C. S. Peirce (1873) Theory of errors of observations. Report of the Superintendent US Coast Survey, Washington, Government Printing Office. Appendix no. 21: 200-224
  19. ^ Cochran W.G. (1978) "Laplace's ratio estimators". pp 3-10. In David H.A., (ed). Contributions to Survey Sampling and Applied Statistics: papers in honor of H. O. Hartley. Academic Press, New York ISBN 978-1483237930
  20. ^ Keynes, JM (1921) A treatise on probability. Pt II Ch XVII §5 (p 201)
  21. ^ Galton F (1881) Report of the Anthropometric Committee pp 245-260. Report of the 51st Meeting of the British Association for the Advancement of Science
  22. ^ Stigler (1986, Chapter 5: Quetelet's Two Attempts)
  23. ^ Helen Mary Walker (1975). Studies in the history of statistical method. Arno Press.
  24. ^ (Stigler 1986, Chapter 9: The Next Generation: Edgeworth)
  25. ^ Bellhouse DR (1988) A brief history of random sampling methods. Handbook of statistics. Vol 6 pp 1-14 Elsevier
  26. ^ Bowley AL (1906) Address to the Economic Science and Statistics Section of the British Association for the Advancement of Science. J Roy Stat Soc 69: 548-557
  27. ^ Galton F (1877) Typical laws of heredity. Nature 15: 492-553
  28. ^ Galton F (1907) One Vote, One Value. Nature 75: 414
  29. ^ Stigler (1986, Chapter 10: Pearson and Yule)
  30. ^ Varberg, Dale E. (1963). "The development of modern statistics". The Mathematics Teacher. 56 (4): 252–257. JSTOR 27956805.
  31. ^ Stigler, S. M. (1989). "Francis Galton's Account of the Invention of Correlation". Statistical Science. 4 (2): 73–79. doi:10.1214/ss/1177012580.
  32. ^ a b c Pearson, K. (1900). "On the Criterion that a given System of Deviations from the Probable in the Case of a Correlated System of Variables is such that it can be reasonably supposed to have arisen from Random Sampling". Philosophical Magazine. Series 5. 50 (302): 157–175. doi:10.1080/14786440009463897.
  33. ^ Pearson, K. (1901). "On Lines and Planes of Closest Fit to Systems of Points is Space". Philosophical Magazine. Series 6. 2 (11): 559–572. doi:10.1080/14786440109462720.
  34. ^ Jolliffe, I. T. (2002). Principal Component Analysis, 2nd ed. New York: Springer-Verlag.
  35. ^ Box, R. A. Fisher, pp 93–166
  36. ^ Agresti, Alan; David B. Hichcock (2005). "Bayesian Inference for Categorical Data Analysis" (PDF). Statistical Methods & Applications. 14 (14): 298. doi:10.1007/s10260-005-0121-y.
  37. ^ Fisher RA (1925) Statistical methods for research workers, Edinburgh: Oliver & Boyd
  38. ^ Neyman, J (1934) On the two different aspects of the representative method: The method of stratified sampling and the method of purposive selection. Journal of the Royal Statistical Society 97 (4) 557-625 JSTOR 2342192
  39. ^ Dunn, Peter (January 1997). "James Lind (1716-94) of Edinburgh and the treatment of scurvy". Archives of Disease in Childhood: Fetal and Neonatal Edition. 76 (1): 64–65. doi:10.1136/fn.76.1.F64. PMC 1720613. PMID 9059193. Retrieved 2009-01-17.
  40. ^ a b Klaus Hinkelmann (2012). Design and Analysis of Experiments, Special Designs and Applications. John Wiley & Sons. p. xvii. ISBN 9780470530689.
  41. ^ a b Charles Sanders Peirce and Joseph Jastrow (1885). "On Small Differences in Sensation". Memoirs of the National Academy of Sciences. 3: 73–83.
  42. ^ a b Hacking, Ian (September 1988). "Telepathy: Origins of Randomization in Experimental Design". Isis. 79 (A Special Issue on Artifact and Experiment, number 3): 427–451. doi:10.1086/354775. JSTOR 234674. MR 1013489.
  43. ^ a b Stephen M. Stigler (November 1992). "A Historical View of Statistical Concepts in Psychology and Educational Research". American Journal of Education. 101 (1): 60–70. doi:10.1086/444032.
  44. ^ a b Trudy Dehue (December 1997). "Deception, Efficiency, and Random Groups: Psychology and the Gradual Origination of the Random Group Design". Isis. 88 (4): 653–673. doi:10.1086/383850. PMID 9519574.
  45. ^ Peirce, C. S. (1876). "Note on the Theory of the Economy of Research". Coast Survey Report: 197–201., actually published 1879, NOAA PDF Eprint.
    Reprinted in Collected Papers 7, paragraphs 139–157, also in Writings 4, pp. 72–78, and in Peirce, C.S. (July–August 1967). "Note on the Theory of the Economy of Research". Operations Research. 15 (4): 643–648. doi:10.1287/opre.15.4.643. JSTOR 168276.
  46. ^ Smith, Kirstine (1918). "On the Standard Deviations of Adjusted and Interpolated Values of an Observed Polynomial Function and its Constants and the Guidance they give Towards a Proper Choice of the Distribution of Observations". Biometrika. 12 (1/2): 1–85. doi:10.2307/2331929. JSTOR 2331929.
  47. ^ Johnson, N.L. (1961). "Sequential analysis: a survey." Journal of the Royal Statistical Society, Series A. Vol. 124 (3), 372–411. (pages 375–376)
  48. ^ Wald, A. (1945) "Sequential Tests of Statistical Hypotheses", Annals of Mathematical Statistics, 16 (2), 117–186.
  49. ^ Chernoff, H. (1972) Sequential Analysis and Optimal Design, SIAM Monograph. ISBN 978-0898710069
  50. ^ Zacks, S. (1996) "Adaptive Designs for Parametric Models". In: Ghosh, S. and Rao, C. R., (Eds) (1996). "Design and Analysis of Experiments," Handbook of Statistics, Volume 13. North-Holland. ISBN 0-444-82061-2. (pages 151–180)
  51. ^ Robbins, H. (1952). "Some Aspects of the Sequential Design of Experiments". Bulletin of the American Mathematical Society. 58 (5): 527–535. doi:10.1090/S0002-9904-1952-09620-8.
  52. ^ Hald, Anders (1998) A History of Mathematical Statistics. New York: Wiley. [page needed]
  53. ^ Box, Joan Fisher (1978) R. A. Fisher: The Life of a Scientist, Wiley. ISBN 0-471-09300-9 (pp 93–166)
  54. ^ Edwards, A.W.F. (2005). "R. A. Fisher, Statistical Methods for Research Workers, 1925". In Grattan-Guinness, Ivor (ed.). Landmark writings in Western mathematics 1640-1940. Amsterdam Boston: Elsevier. ISBN 9780444508713.
  55. ^ Stanley, J. C. (1966). "The Influence of Fisher's "The Design of Experiments" on Educational Research Thirty Years Later". American Educational Research Journal. 3 (3): 223–229. doi:10.3102/00028312003003223.
  56. ^ Box, JF (February 1980). "R. A. Fisher and the Design of Experiments, 1922-1926". The American Statistician. 34 (1): 1–7. doi:10.2307/2682986. JSTOR 2682986.
  57. ^ Yates, Frank (June 1964). "Sir Ronald Fisher and the Design of Experiments". Biometrics. 20 (2): 307–321. doi:10.2307/2528399. JSTOR 2528399.
  58. ^ Stanley, Julian C. (1966). "The Influence of Fisher's "The Design of Experiments" on Educational Research Thirty Years Later". American Educational Research Journal. 3 (3): 223–229. doi:10.3102/00028312003003223. JSTOR 1161806.
  59. ^ a b c Stigler (1986, Chapter 3: Inverse Probability)
  60. ^ Hald (1998)[page needed]
  61. ^ Lucien Le Cam (1986) Asymptotic Methods in Statistical Decision Theory: Pages 336 and 618–621 (von Mises and Bernstein).
  62. ^ a b c Stephen. E. Fienberg, (2006) When did Bayesian Inference become "Bayesian"? Archived 2014-09-10 at the Wayback Machine Bayesian Analysis, 1 (1), 1–40. See page 5.
  63. ^ a b Aldrich, A. (2008) "R. A. Fisher on Bayes and Bayes' Theorem" Archived 2014-09-06 at the Wayback Machine, Bayesian analysis, 3 (1),161–170
  64. ^ Neyman, J. (1977). "Frequentist probability and frequentist statistics". Synthese. 36 (1): 97–131. doi:10.1007/BF00485695.
  65. ^ Jeff Miller, "Earliest Known Uses of Some of the Words of Mathematics (B)" "The term Bayesian entered circulation around 1950. R. A. Fisher used it in the notes he wrote to accompany the papers in his Contributions to Mathematical Statistics (1950). Fisher thought Bayes's argument was all but extinct for the only recent work to take it seriously was Harold Jeffreys's Theory of Probability (1939). In 1951 L. J. Savage, reviewing Wald's Statistical Decisions Functions, referred to "modern, or unBayesian, statistical theory" ("The Theory of Statistical Decision," Journal of the American Statistical Association, 46, p. 58.). Soon after, however, Savage changed from being an unBayesian to being a Bayesian."
  66. ^ a b c Bernardo, JM. (2005). Reference analysis. Handbook of Statistics. Vol. 25. pp. 17–90. doi:10.1016/S0169-7161(05)25002-2. ISBN 9780444515391. {{cite book}}: Unknown parameter |name-list-format= ignored (|name-list-style= suggested) (help)
  67. ^ Gillies, D. (2000), Philosophical Theories of Probability. Routledge. ISBN 0-415-18276-X pp 50–1
  68. ^ E. T. Jaynes. Probability Theory: The Logic of Science Cambridge University Press, (2003). ISBN 0-521-59271-2
  69. ^ O'Connor, John J.; Robertson, Edmund F., "History of statistics", MacTutor History of Mathematics archive, University of St Andrews.
  70. ^ Bernardo, J. M. and Smith, A. F. M. (1994). "Bayesian Theory". Chichester: Wiley.
  71. ^ Wolpert, RL. (2004) "A conversation with James O. Berger", Statistical Science, 9, 205–218 doi:10.1214/088342304000000053 MR2082155
  72. ^ Bernardo, J. M. (2006). "A Bayesian Mathematical Statistics Primer" (PDF). Proceedings of the Seventh International Conference on Teaching Statistics [CDROM]. Salvador (Bahia), Brazil: International Association for Statistical Education. {{cite conference}}: Unknown parameter |booktitle= ignored (|book-title= suggested) (help)
  73. ^ Bishop, C.M. (2007) Pattern Recognition and Machine Learning. Springer ISBN 978-0387310732

Bibliography

External links