반응형

1. Visualizing Numerical Data

1. Scatterplots for paired Data

  gapminder.com의 데이터를 통해 소득과 수명 사이의 관계를 알아봅니다. 이 때 우리는 observational study를 진행하는 것이므로, 두 변수간의 상관관계만을 알 수 있습니다. 인과관계를 도출하려고 해서는 안된다는 점을 명심해야 합니다. 

  두 숫자 값을 비교할 때는 다음과 같은 항목들을 검토해야 합니다.

1) direction : 증가/감소

2) shape : 선형..

3) strength : strong/weak

4) outliers : 이상치

 

* Visualization Tecniques

 

1) Histogram측정값이 존재하는 범위를 몇 개의 구간(급)으로 나눈 경우, 각 구간을 밑변으로 하고 그 구간에 속하는 측정값의 출현 도수에 비례하는 면적을 갖는 기둥(직사각형)으로 배열한 그림(출처 : 네이버 백과사전)

1.1) skewness : 그래프는 왼쪽이나 오른쪽으로 치우쳐져있거나, 중앙 대칭형일 수 있습니다. 

1.2) bin width : 구간이 너무 넓은 경우 데이터의 변화를 포착하기 어렵고, 너무 좁은 경우 경향성을 파악하기 어려울 수 있습니다.

 

2) Dot Plot : 각각의 값에 관심이 있을 때 효과적이지만, 샘플 사이즈가 커질 때 다루기 힘들 수 있습니다. 

3) Box Plot : Outlier(이상치)를 걸러내는데 효과적입니다. 박스는 데이터의 중앙값(굵은 선)과 가운데 50%를 나타냅니다.

 

2. Measures of Center

1. mean : 평균

2. median : 중간값 (data의 갯수가 짝수인 경우 가운데 두 값의 평균 값을 취합니다.)

3. mode : 가장 많이 관측되는 값 

 

오른쪽으로 치우쳐진 분포 : 평균값 < 중앙값

왼쪽으로 치우쳐진 분포 : 평균값 > 중앙값

 

3. Measures of Spread

1. range : (max - min), 단순히 두 최대/최소값에 의지하므로 데이터의 분포를 파악하기 쉽지 않습니다.

2. variance : the average squared deviation from the mean

 

sample variance : 모분산(s)

population variacne : 표본분산(σ)

* 여기서 왜 n이 아닌 n-1로 나누는지는 나중에 이야기하도록 합니다.

* 평균 - 표본값의 제곱을 취하는 이유는 아래의 두가지 때문입니다.

1) 음수의 값과 양수의 값이 서로 상쇄되지 않게 하기 위해서

2) 더 큰 값에 가중치를 주기 위해서

 

3. Standard Deviation

  roughly the average deviation around the mean, and has the same units as the data

 

variability : 변산도

 

diversity : 다양성

 

interquartile range : range of the middle 50% of the data, distance between the first quartile and third quartile

 

4. Robust Statistics

 measures on which extreme observations have little effect

표본이 아래와 같이 두 종류가 있다고 할 때, 중간값은 동일하지만 평균값은 크게 변합니 다. 따라서 중간값은 extreme observations에 robust하다고 할 수 있습니다.

  따라서 우리는 용도에 맞게 각각의 값들을 아래와 같이 잘 활용할 필요가 있습니다.

 

5. Transforming Data

  데이터는 여러가지 이유로 인해 전처리 과정이 필요할 수 있습니다.

1) 데이터를 다른 시각으로 보기 위해

2) 데이터의 skew를 줄여 모델링을 더 쉽게 하기 위해

3) 산점도에서 비선형적인 관계를 바로잡기 위해

 

 

1. (natural) log transformation

  often applied when much of the data cluster near zero(relative to the larger values in the data set) and all observations are positive

 

6. Exploring Categorical Variables

* Frequency Table

* Bar Plot(Histogram과 비슷하지만 Histogram은 Numerical Variable을, Bar plot은 Categorical Variable을 나타내는 그래프이다.)

* Pie Chart

* Contengency Table(분할표)

* Segmented Bar Plot

* Mosaic Plot

 

7. Introduction to Inference

1. null hypothesis(귀무가설) : 가설이 진실일 확률이 매우 낮아 처음부터 버릴 것이 예상되는 가설

2. alternative hypothesis(대립가설) : 귀무가설과 대립인 가설

 

우리는 귀무가설과 대립가설을 데이터를 모은 뒤 판별합니다. 귀무가설은 증명하는 것이 아니고 귀무가설이 거짓이라는 것을 증명할 수 없다는 것을 증명합니다. 

귀무가설과 대립가설을 판별할 때 p-value를 사용합니다. p value는 0과 1 사이의 값으로 일반적으로 0.05보다 작은 경우 대립가설을, 0.05보다 큰 경우 귀무가설을 지지하는 근거가 됩니다. 0.05 근처의 값인 경우 실험자에 판단에 좌우될 수 있습니다.

반응형

+ Recent posts