ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 행동과학을 위한 기초 통계학 | 제4장. 집중경향과 변산성
    통계 공부 2022. 2. 8. 00:01

     

    핵심용어

    통계치 (statistic), 모수치 (parameter)

    집중경향
    집중경향 (central tendency)
    평균 (mean), 중앙값 (median), 최빈값 (mode)
    단봉분포 (unimodal distribution), 다봉분포 (multimodal distribution), 쌍봉분포 (bimodal distribution)

    변산성 측정치
    변산성 (variability)
    범위 (range), 변량 (variance), 표준편차 (standard deviation)
    평균으로부터의 편차 (deviation from the mean), 제곱합 (sum of squares)

     

    집중경향

    4.1. 집중경향의 세 가지 측정치, 즉 평균, 중앙값, 최빈값을 정의해보라.

    집중경향은 데이터 집합의 중심을 가장 잘 나타내는 기술통계치, 즉 다른 모든 데이터가 수렴하는 것으로 보이는 특정한 값을 지칭한다.
    평균값은 점수집단의 산술 평균 점수이다. 
    중앙값은 점수집단을 순서대로 배열할 때 중간에 해당하는 점수이다.
    최빈값은 점수집단에서 가장 빈번한 점수이다. 

     

    4.2. 평균을 시각적으로, 그리고 산술적으로 평가할 수 있다. 그 방법을 기술해보라.

    평균은 산술적으로 데이터 집합의 모든 점수를 합한 다음에 점수의 전체 개수로 나누어 계산한다. 
    평균은 시각적으로 분포의 좌우 측면에 대해 완벽하게 균형을 잡는 지점이다. 

     

    4.3. 평균이 어떻게 수학적으로 분포의 균형을 유지하는지를 설명해보라. 

    평균은 데이터의 산술적 중심이다. 평균을 중심으로 좌측에 있는 값의 합과 우측에 있는 값의 합이 동일하다. 

     

    4.4. 단봉분포, 쌍봉분포, 다봉분포가 의미하는 바를 설명해보라.

    점수분푸가 하나의 최빈값을 가지고 있을 경우는 단봉, 두개의 최빈값을 가지고 있을 경우는 쌍봉, 여러 최빈값을 가지고 있을 경우는 다봉분포이다. 

     

    4.5. 쌍봉분포와 다봉분포에서 평균이 유용하지 않은 이유를 설명해보라.

    이 분포의 산술적 중심 (평균) 은 그 분포에서 전형적이거나 대표적인 수치가 아니기 때문이다. 

     

    4.6. 예외값이란 무엇인가?

    다른 점수들과 비교할 때 매우 높거나 매우 낮은 극단적인 점수이다. 

     

    4.7. 예외값은 평균과 중앙값에 어떤 영향을 미치는가?

    예외값은 평균에 영향을 준다. 평균의 계산에 그 예외값의 수치를 사용하기 때문이다. 
    예외값은 중앙값에 거의 영향을 주지 않는다. 중앙값의 계산은 분포의 중앙에 있는 데이터에 근거하나, 예외값은 분포의 극단에 위치하기 때문이다.

     

    4.8. 어떤 상황에서 최빈값을 주로 사용하는가?

    하나의 특정 점수가 분포를 주도할 때, 분포가 쌍봉이거나 다봉일 때
    그리고 명목변인 데이터일 때 

     

    변산성

    4.9. 표준편차를 여러분의 방식대로 정의해보라.

    편차제곱 평균의 평방근이다.
    각 점수가 평균으로부터 벗어난 전형적인 크기이다.

     

    4.10. 다음 변량 공식에서 사용하는 기호를 정의해보라.

     

    4.11. 전형적으로 변량보다는 표준편차를 보고하는 이유는 무엇인가?

    변량은 편차제곱의 평균인데, 제곱한 값은 직관적으로 쉽게 이해되지 않는다.
    따라서 변량의 제곱근인 표준편차는 제곱한 효과를 다시 상쇄시킴으로써 그 의미를 이해하기가 상대적으로 쉽다. 

     

    4.12. 다음 진술이나 공식에서 각각 잘못 사용한 기호들을 찾아보라. 각 진술이나 공식에서,
    (1) 어느 기호를 잘못사용하고 있는지를 진술하고, (2) 그 기호가 잘못인 까닭을 설명해보라.

    a. 반응시간 표본의 평균과 표준편차를 계산하였다.
    m=54.2,   SD²=9.87 ---> M = 54.2 , SD² = 9.87
    표본의 평균은 대문자 M 이다. 

    b. 고등학생 평균평점 표본의 평균은 μ = 3.08 이다.
     μ = 3.08   M = 3.08
    표본의 평균은 대문자 M 이다. μ 는 모수치이다. 

     

     

    더보기

    4.15. 최빈값에 대한 계산

    mode 값이 제대로 나오지 않는 경우를 주의하자!

     

    4.17. 연봉 데이터의 평균 대 중앙값: 하나의 예외값이 계산에 포함될 때 평균과 중앙값이 어떻게 변하는 지 보았다. 만일 여러분이 회사의 연봉을 보고하고 있다면, 평균과 중앙값이 잠재적인 지원자에게 어떤 상이한 인상을 주겠는가?

    평균은 극단적인 예측치 (임원진의 연봉) 를 포함하여 계산하기 때문에 지나치게 높아지게 된다. 중앙값은 예측치의 영향을 적게 받는다.
    사람들을 회사에 끌어들이고자 유도하고 있다면, 더 높은 연봉을 제시해야하므로 평균값으로 제시한다.
    연봉협상 시에 누군가에게 낮은 연봉을 제안하고자 한다면, 중앙값을 제시할 것이다. 

     

    4.19. 우울점수의 평균과 중앙값: 우울 연구팀은 최근에 대학 전집에서 무선선택한 7명의 참가자를 평가하였다. 참가자의 집중경향을 보다 잘 나타내는 지표는 평균이겠는가? 아니면 중앙값이겠는가?

    이 연구에는 소수의 참가자(7명)만 있기 때문에, 하나의 극단적인 점수가 평균에 큰 영향을 끼치게 된다. 따라서 중앙값을 선택해야한다.

     

    4.25. "개인에 따라 결과는 다를 수 있습니다." 라는 진술은 그 광고가 특정 유형의 데이터를 제시하고 있다는 사실을 함축한다.
    a. 이 광고는 어떤 유형의 데이터를 제시하고 있는가? 예외값
    b. 일반 대중에게 '개인에 따라 결과가 얼마나 다를 수 있는지' 를 알려주는 데 도움을 주려면 어떤 통계치를 제시할 수 있겠는가?
    평균과 표준편차 / 만일 분포가 편중되어있다면 중앙값을 제시한다!

     

     

    댓글

Designed by Tistory.