ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 행동과학을 위한 기초 통계학 | 제 8장. 신뢰구간, 효과크기, 그리고 통계적 검증력
    통계 공부 2022. 2. 14. 10:01

     

     

     

    신뢰구간
    점 추정치 (point eestimate), 구간 추정치 (interval estimate),
    신뢰구간 (confidence interval), 숲도표 (forest plot)

    효과크기
    효과크기 (effect size), 코헨의 d (Cohen's d)
    메타분석 (meta-analysis), 파일 서랍 분석 (file drawer analysis)

    통계적 검증력
    통계적 검증력 (statistical power)

     

    통계적으로는 유의하지만 두 성별의 분포는 거의 완벽하게 중첩된다. 
    즉, 수학적 추리능력의 성별에 따른 효과크기 차이는 작다.

     

     

    신뢰구간


    8.1. 두 평균 간에 통계적으로 유의한 차이를 보고할 때 어떤 구체적인 위험이 존재하는가? 

    집단 평균 간에 통계적으로 유의한 차이가 있더라도, 그 차이가 의미심장하거나 실생활의 함의를 가지고 있지 않을 수 있다. 

     

    8.3. 신뢰구간을 계산하는 이유는 무엇인가?

    신뢰구간은 가설검증에서 세부사항을 첨가해준다.구체적으로, 동일한 전집에서 동일한 크기의 표본을 사용하여 반복적 가설검증을 실시한다면 95%의 경우에 전집 평균이 위치할 범위를 알려준다. 

    표본 전집
    표본평균 M = 232 
    표본의 크기 N=1000
    전집 평균 μ = 247
    전집 표준편차 σ = 201
    신뢰수준 95%  z 통계치 ±1.96)
    신뢰구간 [219.54, 244.46]
    오차범위 ±12.46 
    전집평균 247 은 표본통계치에 근거한 신뢰구간 밖에 위치한다.
    즉, 이 표본은 전집에서 나올 가능성이 희박하다. (5% 미만) 

     

    8.4. z 분포의 평균에 대해서 신뢰구간을 결정하는 다섯 단계는 무엇인가?

    1) 표본통계치에 근거하여 신뢰구간을 포함하는 분포의 그림을 그린다.
    2) 그림에 신뢰구간의 경계를 나타낸다.
    3) 중앙 95% 를 나타내는 선분에 해당하는 z 통계치를 결정한다.
    4) z 통계치를 다시 원래 평균으로 변환한다.
    5) 신뢰구간이 이치에 맞는지 확인한다. 

     

     

    8.45. 분포와 부라쿠민 (도축업자 업으로 인한 멸시당하는 사회적 소수집단)

    개론서는 부라쿠민의 평균 지능지수가 다른 일본인들의 평균 지능지수보다 10 내지 15 점이 낮다고 보고하였다. 부라쿠민이 차별을 경험하지 않는 미국에서는 평균 차이가 없었다. 친구는 이렇게 말했다. "와우! 지난 여름 일본에서 영어를 가르칠 때, 부라쿠민 학생이 한 명 있었어. 똑똑해 보였는데, 내가 속았는 지도 몰라." 그 친구는 부라쿠민의 분포와 다른 일본인 분포에 관하여 어떤 것을 고려해야만 하겠는가? 

    친구는 부라쿠민의 지능지수분포가 다른 일본인의 지능지수분포가 상당히 중첩된다는 사실을 고려하고 있지 않다. 
    하나의 평균이 다른 평균보다 크다는 사실은 한 집단의 모든 구성원이 다른 집단의 모든 구성원보다 높은 지능을 가지고 있다는 사실을 함축하지 않는다. 어느 집단이든 개별 구성원은 자기 집단이나 다른 집단의 평균 이상일 수도 있고 이하일 수도 있다.

    두 분포의 중첩 정도를 알려주지 않는 연구보고는 독자들을 오도할 위험이 있다. 

     

     

    효과크기


    8.5. 효과 (effect) 라는 단어를 정의하되, 통계학자가 사용하는 방식으로 정의해보라.

    통계학자는 나타난 소산을 평가하고자 한다.
    소산은 종속변인에서의 어떠한 변화이며, 소산을 초래하는 사건은 독립변인이다.

     

    8.6. 표본크기를 늘리는 것은 표준오차와 검증통계치에서 어떤 효과를 갖는가? 

    표본크기를 늘릴 때마다, 표준오차는 줄어들고, 검증통계치는 증가하였다. 

     

    8.7. 효과크기를 분포 간의 중첩이라는 개념과 관련지어 보라. 

    만일 두 분포가 많이 중첩된다면 작은 효과크기를 얻게 될 것이며 두 분포가 필연적으로 다르다고 결론지으려 하지 않을 것이다.
    두 분포가 많이 중첩되지 않는다면, 효과가 크다거나 둘 사이에 의미있는 차이가 있다는 증거가 된다.

     

    8.8. 효과크기 통계치가 표본크기의 영향력을 무효화한다는 의미는 무엇인가?

    효과크기는 평균이 아니라 원점수의 측면에서 계산하기 때문에, 표본 크기에 의존하지 않는다.

     

    z 검증 통계치 효과크기
    평균분포에 대한 변산성 기준 점수분포에 대한 변산성 기준
    z = M - μ(M) / σ (M) d = M - μ / σ
    μ(M) = μ 
    σ (M) = σ / sqrt(N)
    즉, N의 크기가 클 수록 σ(M) 은 작아지고, z 는 커진다. 
    점수분포의 

    검증 통계치에서는 실제 N 의 크기는 전집에 영향을 주지 않음에도 검증통계치 z 에 영향을 주고 있다. 
    효과크기는 표본의 크기에 영향을 받는 표준오차가 아닌 점수분포의 표준편차를 사용하여 효과크기를 계산한다.

     

    8.9. 효과크기가 작다, 중간이다, 크다에 관한 코헨의 지침은 무엇인가?

    d 통계치를 해석하는 코헨의 지침에 따르면 작은 효과는 0.2 정도, 중간 크기 효과는 0.5 정도이며, 큰 효과는 0.8 정도가 된다.

     

    8.16. 메타분석의 네 가지 기본 단계는 무엇인가?

    1) 관심주제를 선정하고, 선행연구들을 찾아나서기에 앞서 어떻게 진행할 것인지를 엄격하게 결정한다.
    2) 기준을 만족하는 모든 선행연구를 확인한다.
    3) 모든 연구에 대해서 효과크기를 계산한다. 흔히 코헨의 d 를 사용한다.
    4) 통계치들을 계산한다. 이상적으로는 요약통계치, 가설검증, 신뢰구간, 그리고 효과크기의 시각적 제시 등을 마련한다.

     

    8.17. 메타분석의 목표는 무엇인가?

    동일한 독립변인에 처치를 가하고 동일한 종속변인을 측정한 많은 연구로부터 효과크기의 평균을 찾아보려는 것이다.
    메타분석은 여러 연구를 동시에 고려함으로써 증강된 통계적 검증력을 제공하며, 상반된 연구결과들로 점화된 논쟁거리를 해소하는 데 도움을 준다.  

     

    8.18. 메타분석을 실시하고 있는 연구자에게 있어서 발표된 연구뿐만 아니라 미발표된 연구를 찾아내는 것이 중요한 이유는 무엇인가?

    회색문헌이  발표되지 않은 까닭은 이 연구들의 유의한 차이를 발견하지 못하였기 때문이다. 이러한 연구들을 제외하면 전체적인 효과크기가 상당히 큰 것처럼 보이게 된다. 하지만 연구자들이 찾아낼 수 없었던 다른 연구들도 있었을 것이다. (파일 서랍 문제) 

     

    8.19. 파일 서랍 분석은 어떻게 메타분석 결과를 더욱 설득적인 것으로 만들어주는가?

    파일 서랍 분석은 평균 효과크기가 더 이상 통계적으로 유의하지 않기 위해서 존재해야만 하는 영가설 기각 실패 연구의 수를 계산할 수 있게 해준다. 효과를 유의하지 않게 만드는 데 많은 연구가 필요하다면, 통계적으로 유의한 메타분석 결과가 더욱 설득적이게 된다.

     

     

     

    통계적 검증력


    8.10. 통계적 검증력은 2종 오류와 어떻게 관련되는가?

    통계적 검증력이란 영가설이 거짓일 때 그 영가설을 기각하게 될 가능성의 측정치이다.
    영가설이 거짓일 때 그 영가설을 기각하는 데에 실패하는 것이 2종 오류이다. 

    따라서 통계적 검증력은 2종 오류를 범하지 않을 확률이다. 

     

    8.11. 검증력 (power) 에 대해 통계학자가 사용하는 방식으로 정의해보라. 

    통계학자는 효과가 존재한다고 전제할 때 그 효과를 탐지해내는 능력을 지칭하는 데 이 단어를 사용한다. 

     

    8.12. 통계적 검증력과 효과크기는 어떻게 다르며 어떻게 관련되는가?

     

     

    8.13. 전통적으로 실험을 수행하기 위해서 영가설을 정확하게 기각할 최소한의 백분율은 얼마라고 제안해왔는가? 

    80% 의 확률
    즉, 영가설을 기각해야만 할 때 그 영가설을 기각할 80%의 기회가 어떤 연구를 수행할 최소의 검증력이라고 간주한다. 

     

    8.15. 통계적 검증력에 영향을 미치는 다섯 가지 요인을 나열해보라. 각각에 대해서 연구자는 검증력을 높이기 위하여 어떻게 그 요인을 제어하는지를 적시하라.

    (1) 알파수준 증가시키기, (2) 양방검증 대신 일방검증 사용하기, (3) 표본크기 증가시키기,
    (4) 독립변인의 수준간 차이를 극대화하기, (5) 신뢰할만한 측정치나 동질적 표본을 사용함으로써 분포의 변산성을 감소시키기

    연구자는 자신의 연구가 높은 통계적 검증력을 갖기를 원하며, 위의 각 기법은 존재하는 효과를 찾아낼 확률을 증가시킨다.
    많은 경우에 통계적 검증력을 증가시키는 가장 현실적인 방법은 표본크기를 증가시키는 것이다. 

     

     

    8.20. 통계학에서는 개념들을 기호와 수식으로 표현한다. 
    아래 기호와 수식에서 잘못된 기호를 확인하고, 올바른 기호는 무엇인지 진술하라. 왜 잘못되었는지 이유를 설명해보라.

    M(하한) = -z*σ + M(표본)      M(하한) = -z*σ(M) + M(표본) 

    표본에 대한 평균분포로 계산하므로 표본의 표준오차를 곱해야 한다. 

     

    d = (M-μ) / σ(M)      d = (M-μ) / σ

    평균의 표준편차로 나누어야 한다. 표준오차 대신에 표준편차를 사용하는 까닭은 효과크기가 표본크기와는 독립적이기 때문이다. 

     

     

     

     

    예시로 알아보는 효과크기, 통계적 검증력 계산


    8.57. 여자 테니스에서 평균 서브 속도가 대략 118마일이며, 표준편차가 12라고 가정하라.
    26명의 아마추어 테니스 동호인을 모집하여 새로운 훈련방법을 사용하며, 6개월 후에 123마일의 집단 평균을 얻었다. 

    독립변인: 새로운 훈련방법의 실시
    종속변인: 테니스 평균 서브 속도

    전집: 테니스를 치는 여자 전체
    실험집단(표본): 새로운 훈련방법을 실시한 아마추어 테니스 동호인 26인

    영가설: 새로운 훈련방법을 실시한 실험집단은 그렇지 않은 집단과 비교했을 때 평균 서브속도가 동일하다. 
    연구가설: 새로운 훈련방법을 실시한 실험집단은 그렇지 않은 집단과 비교했을 때 평균 서브속도가 동일하지 않다. 

     

    a. 95% 의 신뢰구간을 사용하여 새로운 방법이 차이를 초래한다는 가설을 검증해보라. 

    새로운 훈련방법을 실시한 표본에 대해 95% 의 신뢰구간을 계산한다. (상한 예시/하한 동일)
    양방검증에 대한 95% 신뢰구간의 z 통계치는 1.96 이다. 

    전집 평균 118 이 실험집단의 신뢰구간 [118.39, 127.61] 내에 위치하지 않기 때문에, 프로그램은 효과가 있다고 결론지을 수 있다. 

     

    b. 효과크기를 계산하고, 그 강도를 기술해보라.

    d = 0.42 이며 대체로 중간 정도의 효과크기이다. 

     

    c. 표본크기를 100 에서 26으로 변경하는 것이 신뢰구간과 효과크기에 어떤 영향을 미쳤는가? 

    계산에서 표본크기를 고려하는 표준오차가 신뢰구간 계산의 한 부분이기 때문에, 표본크기가 커질수록 신뢰구간은 좁아진다. 
    그렇지만 효과크기 계산에서는 표본크기가 배제되기 때문에 (점수분포의 표준편차로만 계산하기 때문에) 효과크기는 변하지 않는다.

     

    8. 59. 알파수준 0.05, 0.10 과 일방검증을 사용하여 통계적 검증력을 계산해보라. 

    통계적 검증력은 영가설을 기각해야만 할 때 그 영가설을 기각할 가능성이다.

    일방검증
    영가설: 새로운 훈련방법을 실시한 실험집단은 그렇지 않은 집단과 비교했을 때 평균 서브속도가 동일하거나 낮다. 
    연구가설: 새로운 훈련방법을 실시한 실험집단은 그렇지 않은 집단과 비교했을 때 평균 서브속도가 높다. 

     

    단계 1. 통계적 검증력 계산을 위한 수치들을 정리한다. 
    전집 1이 전집 2와 동일하다고 가정할 때, 전집 1에 대해 표본크기 26에 기대되는 표준오차는 2.35 이다. 

     

    단계 2. 전집 2 에 대하 a 일방에 따른 임곗값을 계산한다. 
    전집 2 에서 표본 크기 26 인 표본을 추출하였을 때 알파수준 일방검증에 대한 임곗값을 계산한다.  
    알파수준이 0.05 일 경우 5%의 데이터가 전집 2의 꼬리 어디에 위치하는지를 알려주는 임곗값을 찾을 필요가 있다.
    표본평균이므로 표본평균, 표준오차를 활용한다. 일방검증에서 z 점수의 임곗값은 1.64 이다. 이 점수를 사용하여 원점수를 계산한다. 

     

    단계 3. 전집 1에서 해당 임곗값 이상인 평균이 얼마나 자주 나타나는지 확률을 계산할 필요가 있다. 
    표본평균 123 을 기준으로 원점수 평균 121.859 의 z 통계치를 계산하면 된다. 그리고 확률을 확인한다. 

     

     

    연구결과의 중요성을 이해하기 위해서는 효과크기를 계산해야 한다.
    통계적 검증력은 영가설을 기각해야만 할 때 그 영가설을 기각할 가능성이다.

    댓글

Designed by Tistory.