ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 행동과학을 위한 기초 통계학 | 제 3장. 데이터의 시각적 표현
    통계 공부 2022. 2. 7. 00:03

     

     

     

    핵심용어

    척도변인 간의 관계
    산포도 (scatterplot), 선그래프 (line grapgh)
    선형관계 (linear relation), 비선형관계 (non linear relation)
    시계열도 (time series plot)

    명목, 서열변인에 대한 척도변인 관계
    막대그래프 (bar grapgh), 파레토차트 (Pareto chart)
    그림그래프 (pictorial graph), 파이차트 (pie chart)

     

    시각적 통계법으로 속임수를 쓰는 방법

     

    3.1. 그래프를 가지고 데이터를 호도하는 다섯 가지 기법은 무엇인가?

    편파적 척도, 무선할당이 아닌 표본, 부정확한 값/그래프
    데이터의 기간을 임의로 잘라 데이터의 패턴을 왜곡시키는 것, 
    데이터의 패턴이 무한정 계속될 것이라고 가정하는 것

     

     

     

    그래프의 보편적 유형

     

    3.6. 선그래프와 시계열도 간의 차이는 무엇인가?

    선그래프는 두 개의 척도변인의 관계를 선으로 나타낸다.
    시계열도는 x 축이 시간을 의미하고 y 축은 척도변인으로, 두 개의 척도변인의 관계를 선으로 나타낸다. 

     

    3.7. 막대그래프와 파레토차트 간의 차이는 무엇인가?

    막대그래프와 파레토차트 모두 독립변인이 명목변인이거나 서열변인이고, 종속변인이 척도변인인 데이터를 시각적으로 묘사하는 그래프이다. 파레토차느는 막대그래프의 일종인데, x축을 따라 왼쪽에서 오른쪽으로 큰 막대부터 범주를 배열한다. 

     

    3.8. 막대그래프와 히스토그램은 매우 유사하게 보인다. 둘 간의 차이를 여러분 방식대로 진술해보라. 

    막대그래프는 독립변인이 명목변인 또는 서열변인이고, 종속변인이 척도변인인 데이터의 시각적 제시방법이다.
    히스토그램은 독립변인이 척도변인이고, 의미있는 순서로 배열하며, 막대들은 서로 붙어있게 된다. 종속변인이 빈도를 나타낸다. 

     

    3.9. 그림그래프와 파이차트란 무엇인가?

    그림그래프는 지극히 적은 수의 수준(범주)를 갖는 명목변인이나 서열변인인 하나의 독립변인과 척도변인인 하나의 종속변인에 대해서만 전형적으로 사용하는 시각적 표현방법이다.
    파이차트란 원형그래프이며, 각 조각은 독립변인의 각 수준(범주)에 해당한다. 조각의 크기는 각 범주의 비율(또는 백분율)을 나타낸다. 

     

    3.10. 그림그래프와 파이차트보다 막대그래프를 선호하는 이유는 무엇인가?

    그림그래프는 삽화가 데이터보다 주의를 끄는 경우가 있고, 잘못된 그림으로 인해 데이터 이해를 방해할 수 있다. 
    파이차트는 비교를 어렵게 만든다.

     

     

     

     

     

    데이터 집합과 연구물음으로 최선의 그래프유형을 선택하자. 

    더보기

    다음 데이터 집합과 연구물음 각각을 보여주는 최선의 그래프 유형은 무엇인가? 
    변인의 유형과 연구물음의 목적이 중요하다.

    a. 150 명의 대학생에게 있어서 우울의 강도와 스트레스의 양.
    우울은 스트레스 수준과 관련이 있는가?

    적절한 표집의 크기, 척도변인 2개 간의 관계 확인
    => 산포도와 선그래프

     

    b. 1890년부터 2000년까지 매 10년마다 측정한 캐나다 정신건강시설의 수.
    시설의 수가 최근에 감소해왔는가? 

    세기 (decade) 단위, 시간 경과에 따른 척도변인의 변화추세 확인
    -> 시계열도

     

    c. 100명이 보고한 형제의 수.
    어떤 가족의 규모가 가장 보편적인가?

    형제의 수 (하나의 척도변인) 에 대한 빈도
    => 히스토그램, 빈도다각형

     

    d. 미국 여섯 지역의 평균 교육 연한.
    어떤 지역은 다른 지역보다 교육 수준이 더 높은가?

    여섯 지역 명목변인에 대한 척도변인 값 비교
    => 막대그래프, 파레토차트
    만일 독립변인이 많은 수준을 가지고 있다면, 파레토차트의 사용을 고려해보라. 

     

    e. 85명이 하루에 섭취한 칼로리양과 그날 밤의 수면시간.
    먹은 음식의 양은 그날 밤의 수면시간을 예측하는가? 

    적절한 표집의 크기, 척도변인 2개 간의 관계 확인
    => 산포도와 선그래프 

     

     

     

    그래프 작성법

    그래프가 명확하고 구체적인 제목을 가지고 있는가?
    두 축 모두에 변인 이름이 붙어있는가? 
    그래프에서 사용하는 용어들이 그 그래프를 수반하는 본문에서 사용한 용어들과 동일한가? 
    측정단위 (예: 분, 퍼센트) 가 표지에 포함되어있는가?
    두 축에 표시한 값이 0부터 시작하는가, 아니면 0부터 시작하지 않음을 나타내는 절단표지를 가지고 있는가?
    색깔을 단순하고 명쾌한 방식으로 사용하고 있는가? 이상적으로는 다른 색상 대신에 회색 색조들을 사용하는 것이 좋다. 
    모든 차트정크를 배제하였는가? 
    *차트정크: 그래프를 통해 데이터를 이해하는 사람들의 능력을 와해시키는 불필요한 정보나 자질

     

    3.2. 산포도를 작성하는 단계는 무엇인가?

    1. 데이터를 참가자별로 정리한다. 두 척도변인 각각에 해당하는 두 점수를 가진다. 
    2. x축에 독립변인의 이름을 붙이고, 가능하다면 0부터 시작하여 가능한 값들을 배열한다.
    3. y축에 종속변인의 이름을 붙이고, 가능하다면 0부터 시작하여 가능한 값들을 배열한다.
    4. 각 참가자의 점수를 그래프의 x축과 y축에 맞추어 점으로 표시한다. 

     

    3.3. 산포도에서 각 점이 나타내는 것은 무엇인가?

    각 참가자가 나타낸 두 값의 교차점
    x축에서의 점수와 y축에서의 점수가 교차하는 지점

     

    3.4. 두 변인이 선형적으로 관련이 있다는 말은 무엇을 의미하는가? 

    두 변인 간의 관계를 직선으로 잘 기술할 수 있다.

     

    3.5. 두 변인 관계가 선형적인지 아니면 비선형적인지를 어떻게 알 수 있는가? 

    만일 데이터가 대체로 어떤 직선을 따라 나타나는 것으로 보이면, 변인들은 선형관계를 가지고 있는 것이다.
    만약 데이터가 진행과정에서 방향을 바꾸는 선분을 형성하면, 변인들은 비선형관계를 가지고 있는 것이다.
    데이터가 특정 관계를 보여주지 않으면, 두 변인이 관련될 가능성은 없다.

     

    3.11. 그래프를 작성하기에 앞서 독립변인과 종속변인을 확인하는 것이 중요한 이유는 무엇인가?

    독립변인, 종속변인과 함께 그 변인 각각의 유형 (명목변인, 서열변인, 척도변인) 을 확인하여
    생성할 그래프의 유형을 결정할 수 있다. 

     

    3.12. 어떤 상황에서 x축과 y축이 0에서 출발하지 않는가?

    때로는 하나 또는 두 개의 축 모두에서 범위를 조정함으로써 점수들이 군집을 이루며 데이터 패턴이 더 명확해지기도 한다.

     

    구글 스프레드시트로 그린 표와 막대그래프

    Chart Title, X / Y axis Title and Scale / Series 

     

    댓글

Designed by Tistory.