Jump to content

Misuse of statistics

This is a fully translated article. Click here for more information.
From DawoumWiki, the free Mathematics self-learning

통계(Statistics)는, 오해의 소지가 있는 방식으로 사용될 때, 우연한 관찰자가 데이터가 보여주는 것과 다른 것을 믿도록 속일 수 있습니다. 즉, 통계적 논증이 허위(falsehood)를 주장할 때 통계의 오용(misuse of statistics)이 발생합니다. 어떤 경우에는 오용이 우발적일 수 있습니다. 다른 경우에서, 그것은 목적이 있고 가해자의 이익을 위한 것입니다. 관련된 통계적 이유가 거짓이거나 잘못 적용될 때, 이것은 통계적 오류(fallacy)를 구성합니다.

거짓 통계 함정은 지식 탐구에 상당한 피해를 줄 수 있습니다. 예를 들어, 의학에서 거짓을 수정하는 데 수십 년이 걸리고 생명을 대가로 치를 수 있습니다.

오용에 빠지기 쉽습니다. 전문 과학자, 수학자, 전문 통계학자라도 심지어 그들이 모든 것을 주의 깊게 확인하더라도 몇 가지 간단한 방법으로 속일 수 있습니다. 과학자들은 확률 이론(probability theory)에 대한 지식이 부족과 테스트(tests)표준화(standardization)의 결핍 때문에 통계로 스스로를 속이는 것으로 알려져 있습니다.

Definition, limitations and context

사용 가능한 정의 중 하나는 "통계의 오용: 의도에 의해 또는 무지 또는 부주의로 인해 결론이 정당화되지 않거나 부정확한 방식으로 숫자를 사용하는 것"입니다.[1] "숫자"에는 다른 곳에서 논의된 오해의 소지가 있는 그래픽(misleading graphics)을 포함합니다. 그 용어는 통계 텍스트에서 공통적으로 접하지 않고 권위 있는 정의도 알려져 있지 않습니다. 그것은 60년 전 통계학자들의 사례를 통해 풍부하게 기술된 통계를 갖는 거짓말(lying with statistics)을 일반화한 것이다.

정의는 몇 가지 문제에 직면합니다 (일부는 출처에서 해결됩니다):[2]

  1. 통계는 보통 확률을 생성합니다; 결론은 잠정적입니다.
  2. 잠정적 결론은 오류와 오류 율을 가집니다. 공통적으로 중요성 테스트의 잠정적 결론의 5%가 틀립니다.
  3. 통계학자들은 이상적인 방법에 완전하게 동의하지 않습니다.
  4. 통계적 방법은 거의 완전하게 충족되지 않는 가정을 기반으로 합니다.
  5. 데이터 수집은 보통 윤리적, 실용적, 및 재정적 제약으로 인해 제한됩니다.

통계로 거짓말하는 방법(How to Lie with Statistics)은 통계가 합법적으로(legitimately) 다양한 형식을 취할 수 있음을 인정합니다. 통계에 따르면 제품이 "가볍고 경제적"인지 또는 "하찮고 싼" 것인지 여부는 숫자에 관계없이 논쟁의 여지가 있습니다. 어떤 사람들은 (예를 들어) 도덕적 리더십을 목표로 통계적 정확성으로 대체하는 것에 반대합니다. 오용에 대한 책임을 묻는 것이 종종 어려운데 왜냐하면 과학자, 여론 조사원, 통계학자, 및 기자가 종종 직원이나 컨설턴트이기 때문입니다.

통계의 교활한 오용(?)은 청취자/관찰자/관객/배심원에 의해 완성됩니다. 공급자는 "통계"를 숫자 또는 그래픽 (또는 전/후 사진)으로 제공하여 소비자가 (아마도 부당하거나 부정확한) 결론을 도출할 수 있도록 합니다. 공공 통계 소양(statistical literacy)의 열악한 상태와 인간 직관의 비-통계적 특성은 명백하게 잘못된 결론을 내리지 않고도 오도를 허용합니다. 통계 소비자의 책임에 대한 정의가 약합니다.

한 역사가가 일반화와 인과관계 오류를 포함하여 12개 카테고리에서 100개 이상의 오류를 나열했습니다.[3] 일부 오류는 표본화, 통계적 넌센스, 통계적 확률, 잘못된 외삽, 잘못된 보간, 및 교활한 일반화를 포함하여 명시적으로 또는 잠재적으로 통계적입니다. 적용된 확률의 모든 기술적/수학적 문제는 단일 나열된 통계적 확률의 오류에 맞을 것입니다. 많은 오류가 통계 분석과 연결될 수 있으며, 이는 나무랄 데 없는 통계 분석에서 잘못된 결론이 나올 가능성을 허용합니다.

통계의 사용 예는 의학 연구 분석입니다. 그 과정은 실험 계획, 실험 수행, 데이터 분석, 논리적 결론 도출, 및 프레젠테이션/보고를 포함합니다.[4][5] 보고서는 인기있는 언론과 광고주에 의해 요약됩니다. 통계의 오용은 과정의 모든 단계에서 문제로 인해 발생할 수 있습니다. 과학 보고서에 이상적으로 부과되는 통계적 기준은 대중 언론과 광고주에게 부과되는 기준과 많이 다릅니다; 어쨌든 과학을 가장한 광고의 경우가 있습니다. 통계의 오용에 대한 정의는 요구되는 통계적 보고의 요구된 완전성에 취약합니다. 신문은 최소한 보고된 통계에 대해 출처를 제공해야 한다는 의견이 표명됩니다.

Simple causes

많은 통계의 오용은 다음과 같은 이유로 발생합니다:

  • 출처는 통계 전문가가 아니라 주제 관련 전문가입니다.[6] 출처가 방법을 잘못 사용하거나 결과를 잘못 해석할 수 있습니다.
  • 출처는 주제 관련 전문가가 아닌 통계 전문가입니다.[7] 전문가는 비교되는 숫자가 서로 다른 것을 설명할 때 알아야만 합니다. 법적 정의나 정치적 경계가 바뀔 때, 숫자도 바뀌지만 현실은 그렇지 않습니다.
  • 연구될 주제가 잘 정의되지 않았거나,[8] 일부 측면은 정량화하기 쉬운 반면 다른 측면은 정량화하기 어렵거나 알려진 정량화 방법이 없습니다 (McNamara fallacy를 참조). 예를 들어:
    • IQ 테스트(IQ tests)가 이용될 수 있고 수치적이지만, 지능은 파악하기 어려운 개념이기 때문에 측정 대상을 정의하기가 어렵습니다.
    • "영향"을 게시하는 것도 같은 문제를 가집니다.[9] 과학 논문과 학술 저널은 종종 "영향"에 의해 평가되며, 이후 출판물의 인용 횟수로 정량화됩니다. 수학자와 통계학자들은 영향이 (상대적으로 객관적이기는 하지만) 그다지 의미 있는 측정이 아니라는 결론을 내립니다. "인용 데이터에만 의존하는 것은 기껏해야 연구에 대한 불완전하고 종종 얕은 이해를 제공합니다 — 이는 다른 판단에 의해 강화될 때만 유효한 이해입니다. 숫자는 본질적으로 건전한 판단보다 우월하지 않습니다."
    • 영어의 단어 개수에 대한 단순해 보이는 질문은 고대 형식, 접두사 및 접미사 설명, 단어의 다중 정의, 변형 철자법, 방언, (외형질과 통계의 외성형술과 같은) 기발한 창조물,[10] 기술 어휘, 등에 대한 질문에 즉시 직면합니다.
  • 데이터 품질이 볼품없습니다.[11] 의류는 예를 제공합니다. 사람들은 다양한 크기와 체형을 가지고 있습니다. 의류 크기 조정은 다차원적이어야 함은 분명합니다. 대신, 그것은 예상치 못한 방법에서 복잡합니다. 일부 의류는 크기로만 판매되며 (신체형을 명시적으로 고려하지 않음), 크기는 국가와 제조업체에 따라 다르고 일부 크기는 의도적으로 오해의 소지가 있습니다. 크기는 숫자이지만, 주의해서 크기 숫자를 사용하여 가장 조잡한 통계 분석만 가능합니다.
  • 대중 언론은 제한된 전문 지식과 혼합된 동기를 가지고 있습니다.[12] 만약 사실이 "뉴스 가치"가 아니면 (과장해야 할 수도 있음), 그것들은 게시되지 않을 수 있습니다. 광고주의 동기는 훨씬 더 복잡합니다.
  • "정치인은 술 취한 사람이 가로등 기둥을 조명보다는 지지를 위해 사용하는 것과 같은 방법으로 통계를 사용합니다" – Andrew Lang (WikiQuote) "우리는 같은 숫자를 보는 이들 두 가지 방법에서 무엇을 배울 수 있습니까? 우리는 영리한 선전가, 오른쪽이든 왼쪽이든, 거의 항상 그녀의 주장을 뒷받침하는 경제 성장에 대한 데이터를 제시하는 방법을 찾을 수 있습니다. 그리고 우리는 따라서 역시 소수의 소금으로 강력한 정치적 출처에서 통계 분석을 취하는 방법을 배웁니다."[13] 통계라는 용어는 국가를 위해 생성되고 사용되는 숫자에서 유래합니다. 좋은 정부는 정확한 수치를 요구할 수 있지만, 인기 있는 정부는 지원 수치를 요구할 수 있습니다 (반드시 같지는 않습니다). "정부가 통계를 사용하고 오용하는 것은 고대의 기술입니다."[14]

Types of misuse

Discarding unfavorable observations

모든 회사가 중립적인 (쓸모없는) 제품을 홍보하기 위해 해야 할 일은, 예를 들어, 95%의 신뢰 수준으로 40개의 연구를 찾거나 수행하는 것입니다. 만약 제품이 정말 쓸모가 없다면, 이것은 평균적으로 제품이 유익하다는 연구 1건, 유해한 연구 1건, 결정적이지 않은 연구 38건 (38건은 40건의 95%)이 됩니다. 이 전술은 사용 가능한 연구가 많을수록 더 효과적입니다. 흡연과 암 사이의 연관성을 부인하는 담배 회사, 흡연과 다양한 질병 사이의 연관성을 입증하려는 언론 매체, 흡연과 암의 연관성을 부인하는 담배 회사와 같이 수행한 모든 연구를 발표하지 않는 조직은 이 전술을 사용할 가능성이 높습니다.

Ronald Fisher는 그의 1935년 저서인 The Design of Experiments에서 유명한 차를 시음하는 여자(lady tasting tea) 예제 실험에서 이 문제를 고려했습니다. 반복된 실험에 관련하여, 그는 "실패한 결과가 모두 고려되지 않는다면 명백히 불법이고 우리 계산의 근거를 앗아갈 것"이라고 말했습니다.

이 개념과 관련된 또 다른 용어는 체리 따기(cherry picking)입니다.

Ignoring important features

다-변수 데이터-집합은 두 개 이상의 특질/차원을 가집니다. 만약 분석을 위해 이러한 특질을 너무 적게 선택하면 (예를 들어, 하나의 특질만 선택하고 다중 선형 회귀(multiple linear regression) 대신 단순 선형 회귀(simple linear regression)를 수행하면), 그 결과는 오해의 소지가 있을 수 있습니다. 이로 인해 분석가는 다양한 통계적 역설(statistical paradoxes) 또는 일부 (전부는 아님)의 경우 아래와 같은 잘못된 인과 관계에 취약합니다.

Loaded questions

설문조사에 대한 답변은 응답자로부터 특정 답변에 대한 유행을 유도하는 방식으로 질문을 표현함으로써 조작될 수 있습니다. 예를 들어, 전쟁에 대한 지지를 조사할 때, 다음 질문은:

  • 당신은 대한민국이 세계의 다른 지역에 자유와 민주주의를 가져오려는 시도를 지지합니까?
  • 대한민국이 도발하지 않은 군사 행동을 지지합니까?

둘 다 전쟁에 대한 지지에 대해 여론조사를 하고 있지만 데이터가 다른 방향으로 왜곡될 가능성이 높습니다. 질문을 표현하는 더 좋은 방법은 "현재 대한민국의 해외 군사 행동을 지지합니까?"일 수 있습니다. 그 질문을 하는 훨씬 더 중립적인 방법은 "현재 대한민국의 해외 군사 행동에 대해 어떻게 생각하십니까?"입니다. 요점은 질문을 받는 사람이 질문자가 듣고 싶어하는 문구를 추측할 방법이 없다는 것입니다.

이를 수행하는 또 다른 방법은 "원하는" 답변을 지원하는 정보를 질문 앞에 두는 것입니다. 예를 들어, "재정 적자 증가와 더 많은 수입에 대한 절박한 필요성을 고려할 때 소득세 인하를 지지합니까?"라는 질문보다 "중산층 가정에 대한 세금 부담이 증가하는 상황에서 소득세 인하를 지지합니까?"라는 질문에 "예"라고 답하는 사람이 더 많을 것입니다.

질문의 적절한 공식화는 매우 미묘할 수 있습니다. 두 질문에 대한 응답은 질문의 순서에 따라 크게 달라질 수 있습니다.[15] "'주식 소유권'에 대해 질문한 설문조사에 따르면 대부분의 텍사스 목장주들이 주식을 소유하고 있지만 뉴욕 증권 거래소에서 거래되는 종류는 아닐 것입니다."[16]

Overgeneralization

지나친-일반화(Overgeneralization)는 특정 모집단에 대한 통계량이 원래 모집단이 대표 표본이 아닌 그룹의 구성원 사이에 유지된다고 주장될 때 발생하는 오류입니다.

예를 들어, 사과의 100%가 여름에 빨간색으로 관찰된다고 가정합니다. "모든 사과는 빨갛다"라는 주장은 원래 통계가 전체 사과 인구를 대표할 것으로 예상되지 않는 특정 부분-집합의 사과 (여름에 있는 것)에만 해당되기 때문에 과도한 일반화의 예가 될 것입니다.

지나친 일반화 오류의 실제 사례는 전화 정치 여론 조사를 위해 휴대 전화로 전화를 걸 수 없도록 하는 현대 여론 조사 기술의 인위-결과로 관찰될 수 있습니다. 젊은이들은 다른 인구-통계학적 그룹보다 기존의 "유선" 전화가 부족할 가능성이 더 높기 때문에 유선 전화에 응답한 사람만을 대상으로 하는 전화 설문조사는 표본화의 이러한 왜곡을 설명하기 위해 다른 조치를 취해지지 않으면 설문조사 결과가 젊은이들의 견해를 과소평가하게 만들 수 있습니다. 따라서, 이 기법을 사용하여 청소년의 투표 선호도를 조사하는 설문조사는 지나치게 일반화하지 않고는 전체 청소년의 진정한 투표 선호도를 완벽하게 정확하게 표현하지 못할 수 있는데, 왜냐하면 사용된 표본이 휴대전화만 소지하고 나머지 모집단과 다른 투표 선호도를 가질 수도 있고 가지지 않을 수도 있는 젊은이를 제외하기 때문입니다.

과도한-일반화는 정보가 비-기술적 출처, 특히 대중 매체를 통해 전달될 때 종종 발생합니다.

Biased samples

과학자들은 통계 분석을 위해 좋은 실험 데이터를 수집하는 것이 어렵다는 것을 많은 비용을 들여 배웠습니다. 예제: 위약(placebo) 효과 (몸보다 마음)는 매우 강력합니다. 100%의 피험자들이 포이즌 아이비라고 잘못 알려진 불활성 물질에 노출되었을 때 발진이 발생했지만 실제로는 포이즌 아이비였던 "무해한" 대상으로 발진이 발생하는 사람은 거의 없었습니다.[17] 연구자들은 이중-눈-가린 무작위 비교 실험(experiments)에 의해 이 효과에 맞서고 있습니다. 통계학자는 전형적으로 분석보다 데이터의 타당성에 대해 더 걱정합니다. 이것은 실험 설계(design of experiments)로 알려진 통계 내 연구 분야에 반영됩니다.

여론 조사원은 통계 분석을 위해 좋은 설문 조사 데이터를 수집하는 것이 어렵다는 것을 많은 비용을 들여 배웠습니다. 데이터 수집에 대한 핸드폰 전화의 선택적 효과 (과도한 일반화 섹션에서 논의됨)는 한 가지 잠재적인 예입니다. 전통적인 전화기를 사용하는 젊은이들이 대표성이 없다면 표본이 편향될 수 있습니다. 표본 설문조사에는 많은 함정이 있으며 실행에 세심한 주의가 필요합니다. 한 번의 노력으로 1,000개의 답변을 얻으려면 거의 3,000번의 전화 통화가 필요했습니다. 모집단의 단순 무작위 표본은 "단순하지 않고 무작위가 아닐 수도 있습니다."[18]

Misreporting or misunderstanding of estimated error

만약 연구팀이 특정 주제에 대해 3억 명의 사람들이 어떻게 느끼는지 알고 싶어한다면, 그들 모두에게 물어보는 것은 비현실적일 것입니다. 어쨌든, 만약 팀이 약 1000명의 무작위 표본을 선택하면, 그들은 이 그룹에 의해 제공된 결과가 더 큰 그룹이 모두 질문을 받았다면 무엇이라고 말했을지 상당히 확신할 수 있습니다.

이 신뢰도는 실제로 중심 극한 정리(central limit theorem)와 기타 수학적 결과에 의해 정량화될 수 있습니다. 신뢰도는 (더 큰 그룹에 대해) 실제 결과가 추정치 (더 작은 그룹에 대한 숫자)의 특정 범위 내에 있을 확률로 표현됩니다. 이것은 통계 조사에서 자주 인용되는 "더하기 또는 빼기" 숫자입니다. 신뢰 수준의 확률 부분은 보통 언급되지 않습니다: 그렇다면, 그것은 95%와 같은 표준 숫자로 가정됩니다.

두 숫자는 관련이 있습니다. 만약 설문조사가 95% 신뢰도에서 ±5%의 추정된 오차를 가지면, 그것은 역시 99% 신뢰도에서 ±6.6%의 추정된 오차를 가집니다. 95% 신뢰도에서 ±%는 정규적으로 분포된 모집단에 대해 99% 신뢰도에서 항상 ±%입니다.

추정된 오차가 작을수록 주어진 신뢰 수준에서 필요한 표본이 커집니다; 예를 들어, 95.4% 신뢰도에서:

  • ±1%는 10,000 명을 필요로 합니다.
  • ±2%는 2,500 명을 필요로 합니다.
  • ±3%는 1,111 명을 필요로 합니다.
  • ±4%는 625 명을 필요로 합니다.
  • ±5%는 400 명을 필요로 합니다.
  • ±10%는 100 명을 필요로 합니다.
  • ±20%는 25 명을 필요로 합니다.
  • ±25%는 16 명을 필요로 합니다.
  • ±50%는 4 명을 필요로 합니다.

사람들은 신뢰 수치가 생략되어 있기 때문에 실제 결과가 추정된 오차 내에 있다는 100% 확신이 있다고 가정할 수 있습니다. 이것은 수학적으로 정확하지 않습니다.

많은 사람들은 표본의 무작위성이 매우 중요하다는 것을 인식하지 못할 수 있습니다. 실제로 많은 여론조사가 전화로 실시되는데, 전화를 가지지 않은 사람의 제외, 둘 이상의 전화를 가진 사람들의 더 많이 포함되는 것, 전화 설문조사에 참여할 의사가 있는 사람들을 거부하는 사람들 보다 더 많이 포함되는 것을 비롯한 여러 가지 방법으로 표본을 왜곡합니다. 미-무작위 표본화는 추정된 오류를 신뢰할 수 없게 만듭니다.

다른 한편으로, 사람들은 모든 사람이 호출되는 것이 아니거나 스스로 투표를 한 적이 없기 때문에 통계가 본질적으로 신뢰할 수 없다고 생각할 수 있습니다. 사람들은 단지 몇 천 명을 투표하는 것만으로는 수십억 명의 의견에 대한 데이터를 얻는 것이 불가능하다고 생각할 수 있습니다. 이것도 정확하지 않습니다.[a] 편향되지 않은 완벽한 표본화와 진실한 답변이 포함된 설문조사에는 수학적으로 결정된 오차의 한계(margin of error)가 있으며, 이는 설문조사에 참여한 사람들의 수에만 의존합니다.

어쨌든, 종종 한 설문조사에 대해 단 하나의 오차 한계만 보고됩니다. 모집단 부분-그룹에 대해 결과가 보고될 때, 더 큰 오차의 한계가 적용될 것이지만, 이것은 명확하지 않을 수 있습니다. 예를 들어, 1000명을 대상으로 한 설문조사에는 특정 민족 또는 경제 그룹의 100명이 포함될 수 있습니다. 해당 그룹에 초점을 맞춘 결과는 전체 모집단에 대해 결과보다 훨씬 덜 신뢰할 수 있습니다. 만약 전체 표본의 오차의 한계가, 말하자면, 4%이면, 그러한 부분-그룹의 오차의 한계는 약 13%가 될 수 있습니다.

역시 모집단 설문조사에는 다른 많은 측정 문제가 있습니다.

위에서 언급한 문제는 인구 조사뿐만 아니라 모든 통계적 실험에 적용됩니다.

False causality

통계 테스트에서 A와 B 사이의 상관 관계가 보일 때, 보통 다음과 같은 6가지 가능성이 있습니다:

  1. A는 B를 유발한다.
  2. B는 A를 유발한다.
  3. A와 B 둘 다는 서로 부분적으로 유발한다.
  4. A와 B는 세 번째 요소, C에 의해 둘 다 유발된다.
  5. B는 A와 상관관계가 있는 C에 의해 유발된다.
  6. 관찰된 상관관계는 순전히 우연에 기인한 것입니다.

여섯 번째 가능성은 관측된 상관관계가 실제로 변수 사이에 관계가 없는 경우에만 우연처럼 커질 확률을 계산할 수 있는 통계적 테스트에 의해 정량화될 수 있습니다. 어쨌든, 그 가능성이 적은 확률이라 할지라도 여전히 5개의 다른 가능성이 있습니다.

만약 해변에서 아이스크림을 사는 사람들의 수가 해변에서 익사한 사람들의 수와 통계적으로 관련이 있다면, 아이스크림이 익사를 유발한다고 주장하는 사람은 아무도 없을 것인데, 왜냐하면 그렇지 않다는 것이 분명하기 때문입니다. (이 경우에서, 익사와 아이스크림 구매 둘 다는 세 번째 요인: 해변에 있는 사람들의 수와 분명히 관련이 있습니다.)

이 오류는 예를 들어 화학 물질에 대한 노출이 암을 유발한다는 것을 입증하기 위해 사용될 수 있습니다. "아이스크림을 사는 사람의 수"를 "화학물질 X에 노출된 사람의 수"로, 그리고 "익사한 사람의 수"를 "암에 걸린 사람의 수"로 바꾸면 많은 사람들이 당신을 믿을 것입니다. 그러한 상황에서, 실제 효과가 없더라도 통계적 상관관계가 있을 수 있습니다. 예를 들어, 화학 물질 터가 (실제로는 그렇지 않더라도) "위험"하다는 인식이 있으면, 해당 지역의 자산 가치가 감소하여 더 많은 저소득 가정이 해당 지역으로 이동하도록 유도할 것입니다. 만약 낮은-소득 가정이 (예를 들어, 열악한 식이 요법이나 의료 서비스에 대한 접근성 부족으로 인해) 높은-소득 가정보다 암에 걸릴 가능성이 더 높으면, 화학 물질 자체가 위험하지 않더라도 암 발병률은 올라갈 것입니다. 이것은 전력 선의 EMF (전자기 필드)와 암 사이의 연관성을 보여주는 일부 초기 연구에서 정확히 일어난 일이라고[21] 믿어집니다.[22]

잘-설계된 연구에서, 일부 사람들을 "치료 그룹"으로 일부 사람들을 "대조 그룹"에 무작위로 할당하고, 치료 그룹에 치료를 제공하고 대조 그룹에 치료를 제공하지 않음으로써 잘못된 인과 관계의 영향을 제거할 수 있습니다. 위의 예에서, 연구원은 한 그룹의 사람들을 화학 물질 X에 노출시키고 두 번째 그룹은 노출되지 않은 채로 둘 수 있습니다. 첫 번째 그룹이 암 발병률이 높았다면, 연구자는 피폭 여부를 통제했기 때문에 피폭 여부에 영향을 미치는 제3의 요인이 없다는 것을 알고 있는데 왜냐하면 노출 그룹과 비-노출 그룹에 무작위로 사람들을 할당했기 때문입니다. 어쨌든, 많은 응용에서 실제로 이러한 방식으로 실험을 수행하는 것은 엄청나게 비싸고, 실행 불가능하거나, 비윤리적이거나, 불법이거나, 완전히 불가능합니다. 예를 들어, IRB가 독성을 테스트하기 위해 위험한 물질에 의도적으로 사람들을 노출시키는 실험을 수락할 가능성은 거의 없습니다. 그러한 유형의 실험의 명백한 윤리적 의미는 인과 관계를 경험적으로 테스트하는 연구자의 능력을 제한합니다.

Proof of the null hypothesis

통계적 테스트에서, 널 가설(null hypothesis) ()은 충분한 데이터가 틀렸음을 증명할 때까지 유효한 것으로 고려됩니다. 그런-다음 가 거부되고 대체 가설 ()이 올바른 것으로 입증된 것으로 고려됩니다. 가 참이지만 로 표시되는 확률 (중요성 수준)을 갖는 경우에도 이러한 일이 발생할 수 있습니다. 이것은 피고인이 합리적인 의심 ()을 넘어 유죄 ()로 입증될 때까지 무죄 ()로 고려되는 사법 절차와 비교될 수 있습니다.

그러나 데이터가 임을 거부하기에 충분한 증명을 제공하지 않으면, 이것은 가 정확하다는 것을 자동으로 증명하지 않습니다. 만약, 예를 들어, 담배 생산자가 자사 제품이 안전하다는 것을 시연하기를 원하면, 소수의 흡연자 표본과 소수의 비흡연자 표본으로 쉽게 테스트를 수행할 수 있습니다. 그들 중 누구라도 폐암에 걸릴 가능성은 거의 없습니다 (그리고 심지어 발병하더라도 를 거부하려면 그룹 사이의 차이가 매우 커야 합니다). 그러므로, 흡연이 위험한 경우에도 테스트에서 를 거부하지 않을 가능성이 높습니다. 만약 가 받아들여지면, 자동으로 흡연이 무해한 것으로 입증되지는 않습니다. 테스트는 를 기부할 수 있는 불-충분한 힘을 가지므로, 그 테스트는 쓸모가 없고 의 "증명"의 값도 널(null)입니다.

이것은—위의 사법적 유사성을 사용하여—유죄를 선고할 증거가 충분하지 않다는 이유로 석방되는 진정으로 유죄인 피고인과 비교할 수 있습니다. 이것은 피고인의 무죄를 입증하는 것이 아니라 유죄 평결에 대한 충분한 증거가 없다는 것입니다.

"...널 가설은 결코 증명되거나 확립되지 않지만, 실험 과정에서 반증될 가능성이 있습니다. 모든 각 실험은 사실에 널 가설을 반증할 기회를 주기 위해서만 존재한다고 말할 수 있습니다." (The Design of Experiments에서 피셔) 피셔의 "중요성 테스트" (널 가설이 받아들여지지 않는 경우)와 "가설 테스트" (어떤 가설이 항상 받아들여지는 경우)의 병합으로 인한 이중 부정 논리와 용어의 사용을 포함하여 혼란에 대한 많은 이유가 존재합니다.

Confusing statistical significance with practical significance

통계적 중요성은 확률의 측정입니다; 실질적인 중요성은 효과의 측정입니다.[23] 희박한 복숭아 보풀이 보통 이전에 벗은 두피를 덮으면 대머리 치료는 통계적으로 의미가 있습니다. 추운 날씨에 모자가 더 이상 필요하지 않고 이발사가 모자를 얼마나 벗길지 묻는다면 치료는 실질적으로 중요합니다. 대머리는 통계적으로나 실질적으로 유의미한 치료법을 원합니다; 그것은 아마 효과가 있을 것이고, 만약 그렇다면, 그것은 많은 머리칼 효과를 미칠 것입니다. 과학 출판은 종종 통계적 의미만 필요합니다. 이것은 통계적 중요성 테스트가 (지난 50년 동안) 통계의 오용이라는 불만으로 이어졌습니다.[24]

Data dredging

데이터 준설(Data dredging)데이터 채광(data mining)의 남용입니다. 데이터 준설에서, 테스트될 가설(hypothesis)을 임의의 미리-정의된 선택 없이 상관 관계를 찾기 위해 대규모 데이터 편집을 검사합니다. 두 매개변수 사이의 관계를 설정하는 데 필요한 신뢰 구간(confidence interval)은 보통 95%로 선택되기 때문에 (관찰된 관계가 무작위적 우연으로 인한 것이 아닐 확률이 95%임을 의미), 따라서 완전한 무작위 변수의 두 집합 사이의 상관 관계를 찾을 확률은 5%입니다. 데이터 준설 노력은 전형적으로 많은 변수가 있는 대규모 데이터 집합을 검사하고 따라서 더 많은 수의 변수 쌍을 검사한다는 점을 감안할 때 가짜지만 분명히 통계적으로 유의한 결과는 그러한 연구에서 발견될 것이 거의 확실합니다.

데이터 준설은 가능한 가설을 찾는 유효한 방법이지만 해당 가설은 원래 준설에 사용되지 않은 데이터로 테스트해야 함에 주목하십시오. 그 가설이 추가 검증 없이 사실로 진술될 때 오용이 발생합니다.

"그 가설을 처음 제안한 같은 데이터에 대해 가설을 합법적으로 테스트할 수는 없습니다. 해결 방법은 분명합니다. 일단 가설이 설정되면 현재 거기에 있다고 생각하는 효과를 구체적으로 검색하도록 연구를 설계하십시오. 이 테스트의 결과가 통계적으로 유의미하면, 마침내 실제 증거가 있는 것입니다."[25]

Data manipulation

비공식적으로 "데이터 위조"라고 하는 이 관행에는 선택적 보고 (출판 편향 참조)와 단순히 잘못된 데이터 작성이 포함됩니다.

선택적 보고의 예는 많습니다. 가장 쉽고 일반적인 예는 가설과 모순되는 다른 결과 또는 "데이터 실행"을 무시하면서 선호되는 가설(hypothesis)일치하는(consistent) 패턴을 따르는 결과 그룹을 선택하는 것입니다.

과학자들은, 일반적으로, 다른 연구자가 재현할 수 없는 연구 결과의 유효성에 의문을 제기합니다. 어쨌든, 일부 과학자들은 데이터와 방법을 공개하는 것을 거부합니다.[26]

데이터 조작은 가장 정직한 통계 분석에서 심각한 문제/고려 사항입니다. 이상값, 누락된 데이터와 비-정규성은 모두 통계 분석의 타당성에 부정적인 영향을 미칠 수 있습니다. 분석을 시작하기 전에 데이터를 연구하고 실제 문제를 해결하는 것이 적절합니다. "임의의 산포도에서, 구름의 주요 부분에서 다소간 떨어져 있는 점이 있을 것입니다: 이들 점은 이유가 있을 때만 거부되어야 합니다."[27]

Other fallacies

유사-복제(Pseudoreplication)분산의 분석(analysis of variance)과 결합된 기술적 오류입니다. 복잡성은 통계 분석이 단일 표본 (N=1)에 대해 시도되고 있다는 사실을 숨깁니다. 이 퇴화의 경우에 대해, 그 분산은 계산될 수 없습니다 (영으로 나누기). An (N=1)은 항상 연구자에게 의도 편향과 실제 결과 사이의 가장 높은 통계적 상관 관계를 제공합니다.

도박꾼의 오류(gambler's fallacy)는 미래의 가능성이 측정될 수 있는 사건이 이미 발생했으면 같은 가능성이 있다고 가정합니다. 따라서, 누군가가 이미 9개의 동전을 던졌고 각각이 앞면이 나왔다면, 사람들은 실제로 10번째 던지기의 확률이 50% (동전이 불-편향된 것으로 가정)인데도 10번째 토스가 앞면이 될 가능성이 1023 대 1 (첫 번째 동전이 던져지기 전에서의 확률)이라고 가정하는 경향이 있습니다.

검사의 오류(prosecutor's fallacy)는 명백한 범죄 사건이 우연한 기회일 확률이 용의자가 무죄일 확률과 같다고 가정합니다.[28] 영국에서 저명한 예는 영아 돌연사 증후군(Sudden Infant Death Syndrome, SIDS)으로 사망한 것으로 보이는 두 아들을 살해한 샐리 클라크의 잘못된 유죄 판결입니다. 그의 전문가 증언에서, 지금은 불신자였던 로이 메도우 경은 SIDS의 희귀성으로 인해 클락이 무고할 확률은 7300만 분의 1이라고 주장했습니다. 이것은 나중에 Royal Statistical Society에 의해 질문되었습니다;[29] Meadows 수치가 정확하다고 가정하면, 두 자녀의 설명할 수 없는 죽음을 초래했을 가능성이 가장 큰 결론을 내리기 위해 가능한 모든 설명을 서로 비교해야 합니다. 사용 가능한 데이터에 따르면 이중 살인에 비해 이중 SIDS가 유리할 확률은 9배입니다.[30] 7,300만 분의 1이라는 숫자는 부유한 비흡연 가정의 아기가 SIDS로 사망할 확률을 구하고 이를 제곱하여 얻은 값이므로 오해의 소지가 있습니다: 이는 두 형제가 SIDS로 사망할 가능성을 높이는 유전적 요인이 없다고 가정하고 각 사망을 통계적으로 독립적인 것으로 잘못 취급합니다.[31][32] 이것은 역시 Clark의 가족에서 SIDS의 확률이 모든 부유한 비흡연 가족의 평균과 같다고 가정하기 때문에 생태학적 오류의 한 예입니다; 사회 계급은 교육, 직업 등과 같은 수많은 다른 변수와 함께 매우 복잡하고 다면적인 개념입니다. 개인이 주어진 그룹의 나머지 부분과 같은 속성을 가질 것이라고 가정하는 것은 다른 변수의 영향을 설명하는 데 실패하여 결국 오도할 수 있습니다.[32] Sally Clark의 유죄 판결은 결국 뒤집혔고 Meadow는 의료 기록에서 제외되었습니다.[33]

어리석은 오류. 확률은 실제 (먼 경우) 가능성을 무시하는 간단한 모델을 기반으로 합니다. 포커 선수는 상대방이 카드가 아닌 총을 뽑을 수 있다고 생각하지 않습니다. 피보험자 (및 정부)는 보험사가 계속해서 지불 능력을 유지할 것이라고 가정하지만, AIG시스템 위험을 참조하십시오.

Other types of misuse

다른 오용에는 사과와 오렌지 비교, 잘못된 평균 사용,[34] 평균으로 향한 회귀,[35]쓰레기 입력, 쓰레기 출력이라는 우산 문구를 포함합니다.[36] 일부 통계는 단순히 문제와 관련이 없습니다.[37]

Anscombe의 4중주는 단순 기술 통계 (및 수치 분석 전에 데이터 그리기(data plotting)의 가치)의 단점을 예시하는 구성된 데이터-집합입니다.

See also

References

Notes

  1. ^ Some data on accuracy of polls is available. Regarding one important poll by the U.S. government, "Relatively speaking, both sampling error and non-sampling [bias] error are tiny."[19] The difference between the votes predicted by one private poll and the actually tally for American presidential elections is available for comparison at "Election Year Presidential Preferences: Gallup Poll Accuracy Record: 1936–2012". The predictions were typically calculated on the basis of less than 5000 opinions by likely voters.[20]

Sources

  1. ^ Spirer, Spirer & Jaffe 1998, p. 1.
  2. ^ Gardenier, John; Resnik, David (2002). "The misuse of statistics: concepts, tools, and a research agenda". Accountability in Research: Policies and Quality Assurance. 9 (2): 65–74. doi:10.1080/08989620212968. PMID 12625352. S2CID 24167609.
  3. ^ Fischer, David (1979). Historians' fallacies: toward a logic of historical thought. New York: Harper & Row. pp. 337–338. ISBN 978-0060904982.
  4. ^ Strasak, Alexander M.; Qamruz Zaman; Karl P. Pfeiffer; Georg Göbel; Hanno Ulmer (2007). "Statistical errors in the medical research-a review of common pitfalls". Swiss Medical Weekly. 137 (3–4): 44–49. doi:10.4414/smw.2007.11587. PMID 17299669. In this article anything less than the best statistical practice is equated to the potential misuse of statistics. In a few pages 47 potential statistical errors are discussed; errors in study design, data analysis, documentation, presentation and interpretation. "[S]tatisticians should be involved early in study design, as mistakes at this point can have major repercussions, negatively affecting all subsequent stages of medical research."
  5. ^ Indrayan, Abhaya (2007). "Statistical fallacies in orthopedic research". Indian Journal of Orthopaedics. 41 (1): 37–46. doi:10.4103/0019-5413.30524. PMC 2981893. PMID 21124681.{{cite journal}}: CS1 maint: unflagged free DOI (link) Contains a rich list of medical misuses of statistics of all types.
  6. ^ Spirer, Spirer & Jaffe 1998, chapters 7 & 8.
  7. ^ Spirer, Spirer & Jaffe 1998, chapter 3.
  8. ^ Spirer, Spirer & Jaffe 1998, chapter 4.
  9. ^ Adler, Robert; John Ewing; Peter Taylor (2009). "Citation statistics". Statistical Science. 24 (1): 1–14. doi:10.1214/09-STS285.
  10. ^ Spirer, Spirer & Jaffe 1998, chapter title.
  11. ^ Spirer, Spirer & Jaffe 1998, chapter 5.
  12. ^ Weatherburn, Don (November 2011), "Uses and abuses of crime statistics" (PDF), Crime and Justice Bulletin: Contemporary Issues in Crime and Justice, 153, NSW Bureau of Crime Statistics and Research, ISBN 9781921824357, ISSN 1030-1046, archived from the original on June 21, 2014{{citation}}: CS1 maint: unfit URL (link) This Australian report on crime statistics provides numerous examples of interpreting and misinterpreting the data. "The increase in media access to information about crime has not been matched by an increase in the quality of media reporting on crime. The misuse of crime statistics by the media has impeded rational debate about law and order." Among the alleged media abuses: selective use of data, selective reporting of facts, misleading commentary, misrepresentation of facts and misleading headlines. Police and politicians also abused the statistics.
  13. ^ Krugman, Paul (1994). Peddling prosperity: economic sense and nonsense in the age of diminished expectations. New York: W.W. Norton. p. 111. ISBN 0-393-03602-2.
  14. ^ Spirer, Spirer & Jaffe 1998.
  15. ^ Kahneman 2013, p. 102.
  16. ^ Moore & Notz 2006, p. 59.
  17. ^ Moore & Notz 2006, p. 97.
  18. ^ Moore & Notz 2006, p. 53, Sample surveys in the real world.
  19. ^ Freedman, Pisani & Purves 1998, chapter 22: Measuring Employment and Unemployment, p. 405.
  20. ^ Freedman, Pisani & Purves 1998, pp. 389–390.
  21. ^ Vince, Gaia (2005-06-03). "Large study links power lines to childhood cancer". New Scientist. Archived from the original on August 16, 2014.{{cite news}}: CS1 maint: unfit URL (link) Cites: Draper, G. (2005). "Childhood cancer in relation to distance from high voltage power lines in England and Wales: a case-control study". BMJ. 330 (7503): 1290. doi:10.1136/bmj.330.7503.1290. PMC 558197. PMID 15933351.
  22. ^ Farley, John W. (2003). Barrett, Stephen (ed.). "Power Lines and Cancer: Nothing to Fear". Quackwatch.
  23. ^ Moore & McCabe 2003, pp. 463.
  24. ^ Rozeboom, William W. (1960). "The fallacy of the null-hypothesis significance test". Psychological Bulletin. 57 (5): 416–428. doi:10.1037/h0042040. PMID 13744252.
  25. ^ Moore & McCabe 2003, p. 466.
  26. ^ Neylon, C (2009). "Scientists lead the push for open data sharing". Research Information. 41. Europa Science: 22–23. ISSN 1744-8026. Archived from the original on December 3, 2013.{{cite journal}}: CS1 maint: unfit URL (link)
  27. ^ Freedman, Pisani & Purves 1998, chapter 9: More about correlations, §3: Some exceptional cases
  28. ^ Seife, Charles (2011). Proofiness: how you're being fooled by the numbers. New York: Penguin. pp. 203–205 and Appendix C. ISBN 9780143120070. Discusses the notorious British case.
  29. ^ Royal Statistical Society (23 October 2001). ""Royal Statistical Society concerned by issues raised in Sally Clark case" (PDF). Archived from the original (PDF) on 2011-08-24. (28.0 KB)"
  30. ^ Hill, R. (2004). "Multiple sudden infant deaths – coincidence or beyond coincidence?". Paediatric and Perinatal Epidemiology. 18 (5): 320–6. doi:10.1111/j.1365-3016.2004.00560.x. PMID 15367318.
  31. ^ "Beyond reasonable doubt". Plus Maths. Retrieved 2022-04-01.
  32. ^ a b Watkins, Stephen J. (2000-01-01). "Conviction by mathematical error?: Doctors and lawyers should get probability theory right". BMJ. 320 (7226): 2–3. doi:10.1136/bmj.320.7226.2. ISSN 0959-8138. PMC 1117305. PMID 10617504.
  33. ^ Dyer, Clare (2005-07-21). "Professor Roy Meadow struck off". BMJ. 331 (7510): 177. doi:10.1136/bmj.331.7510.177. ISSN 0959-8138. PMC 1179752. PMID 16037430.
  34. ^ Huff 1954, chapter 2.
  35. ^ Kahneman 2013, chapter 17.
  36. ^ Hooke 1983, §50.
  37. ^ Campbell 1974, chapter 3: Meaningless statistics.

Further reading