ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 행동과학을 위한 기초 통계학 | 제 6장. 정상곡선, 표준화, z점수
    통계 공부 2022. 2. 13. 12:27

     

     

     

    정상곡선
    정상곡선 (normal curve)

    표준화, z 점수, 그리고 정상곡선
    표준정상분포 (standard normal distribution)
    표준화 (standardization) 
    z 점수 (z score)
    z 분포 (z distribution)

    중심극한정리
    중심극한정리 (central limit theorem)
    평균분포 (distribution of means)
    표준오차 (standard error)

     

      개별점수의 점수분포 표본평균의 평균분포
    원점수 X M
    평균 μ μ(M)
    표준편차 σ σ(M)
    z 점수 z = (X-μ) / σ z = (M-μ(M)) / σ(M)
    명칭 표준편차, z 점수 표준오차, z 통계치

     

     

     

    정상곡선


    6.1. 정상 (normal) 이라는 단어를 통계학자가 사용하는 방식으로 설명해보라. 

    통계학자는 산 모양으로 대부분의 관찰이 몰려있는 중앙 부분이 정점을 이루고 있으며 좌우 대칭을 나타내는 분포를 지칭하는 데 사용한다. 이러한 정상곡선은 많은 상이한 유형의 사건이 출현하는 패턴을 대표한다. 정상곡선은 많은 물리적 특성과 심리적 특성이 나타내는 변산성을 기술한다. 

     

    6.2. 정상곡선의 어느 위치가 가장 보편적으로 발생하는 관찰을 나타내는가? 

    중앙 부분

     

     

     

    표준화, z 점수, 그리고 정상곡선


    6.3. 표본크기는 데이터 분포의 모양에 어떤 영향을 미치는가?

    전집이 정상분포를 이루고 있다고 전제할 때, 표본크기가 증가함에 따라 표본점수의 분포는 정상곡선에 접근한다. 

     

    6.4. 표준화 (standardization) 라는 단어를 통계학자가 사용하는 방식으로 설명해보라.

    상이한 정상분포에 들어있는 개별점수를 사전에 평균, 표준편차, 퍼센타일을 알고 있는 공통의 정상분포로 변환하는 방법이다. 

    예를 들어 신장은 인치 단위로 측정하고, 체중은 파운드 단위로 측정할 수 있다. 신장과 체중을 비교하기 위해서는 상이한 변인들을 동일한 표준척도에 올려놓는 방법이 필요하다. 다행스럽게도 평균과 표준편차를 사용하여 원점수를 z 점수로 변환함으로써 상이한 변인들을 표준화할 수 있다. 

     

    6.5. z 점수란 무엇인가?

    z 점수는 데이터를 표준화하는 방법이다. 표준점수라고도 불린다. 
    특정 점수 (데이터 포인트) 가 평균으로부터 떨어져 있는 정도를 표준편차의 수로 나타낸 값이다. 

     

    6.6. z 점수가 유용한 세 가지 이유를 제시해보라. 

    z 점수는 어떤 변인이든지 표준분포로 변환시키는 능력을 제공하여, 변인들을 비교할 수 있게 해준다.

    1. z 점수는 어떤 점수가 전집 평균과의 관계에서 (전집의 표준편차라는 측면에서) 어디에 위치하는지를 알려준다.
    2. z 점수는 상이한 분포에 속한 점수들을 비교할 수 있게 해준다.
    3. z 점수를 퍼센타일로 변환할 수 있다. 

     

     

    6.7. z 분포의 평균과 표준편차는 얼마인가? 

    평균은 0.0 이다. 표준편차는 1.0 이다. 
    z 점수의 정상분포를 표준정상분포 (standard normal distribution) 라고 부른다. 

     

     

    중심극한정리


    6.8. 정상분포를 이루고 있지 않은 전집을 다루는 데 있어서 중심극한정리가 그토록 중요한 아이디어인 까닭은 무엇인가? 

    중심극한정리는 전집이 정상분포를 나타내지 않을 때조차도 표본평균의 분포가 개별점수들의 분포보다 정상분포에 더욱 근사하게 된다는 사실을 나타낸다.

    1. 전집이 정상분포를 이루지 않을 때조차도 반복적인 표집은 정상곡선에 근접한다. 
    2. 표본평균의 분포는 개별점수의 분포보다 덜 가변적이다. 

     

    6.9. / 6.10. 다음 기호가 의미하는 것은 무엇인가? 

     평균분포의 평균을 나타낸다.
     μ 는 전집의 평균이고, 아래첨자 M 은 전집이 표본평균들로 구성되어있다는 사실을 나타낸다. 

    평균분포의 표준편차, 즉 표준오차를 나타낸다.
    σ 는 전집의 표준편차이고, 아래첨자 M 은 전집이 표본평균들로 구성되어있다는 사실을 나타낸다. 

    평균분포 (distribution of means) 는 동일한 전집에서 취한 특정 크기의 가능한 모든 표본으로부터 계산한 평균들로 구성된 분포이다. 

     

    6.11. 표준편차와 표준오차 간의 차이는 무엇인가?

    표준편차는 개별점수로 구성된 전집의 표준편차이다. 개별점수의 표준편차이다. 
    표준오차는 특정 크기의 가능한 모든 표본의 평균으로 구성된 전집의 표준편차이다. 평균분포의 표준편차이다. 

    표준오차 공식

     

     

     

     

    6.12. 표본크기를 증가시키면 표준오차가 줄어드는 까닭은 무엇인가? 

    크기가 4인 표본이 예외값의 효과를 최소화시키기 때문이다. 
    표집한 4개의 점수 중의 하나가 예외값일 때, 평균은 그 예외값만큼 극단적이지 않게 된다.

    표본크기가 커질수록 평균분포의 변산이 작아지게 된다.

     

    6.13. z 통계치, 즉 평균분포에 근거한 z 점수가 표존 평균에 대해 알려주는 것은 무엇인가? 

    z 점수는 전집에 근거하여 원점수를 표준화시킨 점수이다.
    z 통계치는 표본평균을 전집으로 하는 원점수를 표준화시킨 점수이다. 

    전체 전집을 가지고 작업하는 경우는 거의 없기 때문에, 전형적으로는 표본 평균을 계산하고 평균분포에 근거한 z 점수를 계산하게 된다.
    z 점수를 계산할 때는 점수분포 대신 평균분포를 사용한다. z 점수 공식은 다음과 같다. 

     

     

     

     

    전집, 표집 실험

    더보기

    6.37. z 통계치와 CFC 점수

    전집   μ = 3.20 / σ = 0.70 /  참가자 표본 800명을 전집으로 간주
    표집   N = 40 / 이 전집에서 무작위로 40명을 선정
    실험   μ(M) =  3.62 /  졸업 후 재정계획에 관한 일련의 비디오를 시청한 후

    a. 이 표본의 평균을 점수분포와 비교하는 것이 이치에 맞지 않는 이유는 무엇인가? 
    평균들의 표본에서는 때때로 나타나는 극단적인 점수 (예외값) 가 덜 극단적인 점수에 의해 상쇄되어 변산성이 줄어든다. 
    따라서 이 표본의 평균을 개별 점수의 평균 (점수분포) 와 비교하는 것은 이치에 맞지 않다. 

    b. 영가설이 예측하는 것은 무엇이며, 연구가설이 예측하는 것은 무엇인가?
    영가설: 표본을 뽑은 전집은 평균이 3.20 이다. 
    연구가설: 표본을 뽑은 전집의 평균은 3.20 이 아니다. 

    c. 기호 표기법과 공식을 사용하여 이 표본을 선정한 전집의 분포에 대해 적절한 집중경향치와 변산성의 척도가 무엇인지 기술해보라.
    μ(M) = μ = 3.20
    σ(M) = σ / sqrt(N) = 0.1111

    d. 기호 표기법과 공식을 사용하여 이 표본 평균에 대한 z 통계치는 무엇인지 기술해보라. 
    z = (M - μ(M)) / σ(M) = 3.78

     

    점수분포와 평균분포

    더보기

    6.49. 분포와 GSS (General Social Survey, 일반사회조사) 

    GSS 는 1972년부터 매년 2,000명 정도의 성인을 대상으로 수행하는 조사로, 지금까지 총 38,000 명 이상이 참가하였다.
    여러 해에 걸쳐 응답자들에게 몇 명의 절친을 가지고 있는지 물었다. 
    이  변인의 평균은 7.44 명이며, 표준편차는 10.98 이다. 중앙값은 5.00 이며, 최빈값은 4.00 이다. 

    a. 위 데이터는 점수분포인가? 평균분포인가?
    점수분포이다. 개별 점수를 분석에 사용하여 얻은 것이기 때문이다. 

    b. 평균과 표준편차는 분포의 모양에 관해서 무엇을 시사하는가? 
    정적 편중을 시사한다. 
    0명보다 적은 수의 친구를 가질 수는 없기 때문에, 분포가 평균보다 큰 표준편차를 가지려면 정적 방향으로 확장될 수밖에 없다.

    c. 세가지 집중경향치는 분포의 모양에 관하여 무엇을 시사하는가? 
    평균이 중앙값이나 최빈값보다 크다는 사실은 분포가 정적으로 편중되어있음을 시사한다. 
    분포의 정적 극단에 극단적인 점수들 (예외값) 이 있어서 평균이 중앙값이나 최빈값보다 더 극단적이게 만든다. 

    d. 이 데이터가 전체 전집을 나타낸다고 해보자. 이 전집에서 한 사람을 무작위로 선정하고 절친을 몇 명이나 가지고 있는지 물었다고 해보자. 이 사람을 점수분포에 비교하겠는가? 아니면 평균분포에 비교하겠는가?
    이 사람의 개별점수를 비교할 때에는 점수분포를 사용해야 한다.

    e. 이제 이 전집에서 80명의 표본을 무작위로 선정한다고 해보자. 이 표본을 점수분포에 비교하겠는가? 아니면 평균분포에 비교하겠는가?
    이 표본을 평균분포에 비교하는 것이다. 표본 평균을 수반한 비교를 할 때는 평균분포를 사용해야 한다.
    점수분포와는 상이한 변산패턴을 가지고 있기 때문이다.

    f. 기호 표기법을 사용하여 평균분포의 평균과 표준오차를 계산해보라.
    σ(M) = σ / square(N) = 1.23

    g. 평균분포의 모양은 어떨 가능성이 높은가? 여러분의 답을 해명해보라. 
    평균분포는 정상분포일 가능성이 크다.
    표본크기 80은 중심극한정리가 작동하기 위해 권장하는 수치 30을 훌쩍 뛰어넘기 때문이다. 

     

    6.51. GSS 표본이 전체 전집이라고 해보자.

    a. 이 전집에서 무작위로 80명을 선정하였는데, 절친의 수가 평균 8.7명이라고 보고하였다고 상상해보라. 
    이 평균을 점수분포에 비교하겠는가? 아니면 평균분포에 비교하겠는가?
    평균분포에 비교한다. 표본평균을 수반한 비교를 수행할 때는 평균분포를 사용할 필요가 있다. 
    평균분포가 표본 평균에서 보는 변산성을 나타내기 때문이다. 

    b. 이 평균의 z 통계치는 얼마인가? z 통계치에 근거할 때 표본의 퍼센타일은 대체로 얼마인가?
    z = (M-μ(M)) / σ(M) = 1.03 / percentile 84%  (0.5+0.34 = 0.84) 

    c. 이 표본의 퍼센타일을 계산하는 것은 이치에 맞는가? 
    이 표본의 퍼센타일을 계산하는 것은 이치에 맞는다. 중심극한정리 그리고 평균을 계산하는 데 사용한 표본의 크기 80 을 감안할 때, 표본 평균의 분포는 대체로 정상분포를 이룰 것이라고 예상하게 된다. 

     

     

    댓글

Designed by Tistory.