[패스트캠퍼스 학습일지] 데이터분석 올인원 패키지 _ 8주차 : 고등학교 수학으로 이해하는 통계와 데이터 분석

2019. 11. 2. 23:14

* 사건 : 관측치나 데이터가 특정 조건을 만족시키는 상황
* 확률 : 관심 있는 사건이 발생할 가능성을 0과 1 사이의 값으로 표현한 값

* 확률을 계산하는 다양한 방법
1) 경우의 수
2) 모의 실험
3) 데이터 활용

데이터 공간의 구성 : 변수만큼 차원이 생성, 관측치 수만큼 해당 차원에 점이 생성

* 분포 : 관측치들이 공간에 퍼져있는 모양
* 밀도 : 어떤 분포에서 특정 값이나 구간의 관측치 비중을 표현한 숫자. 전체 밀도(면적)의 합은 1이 되어야 한다.

* 조건부 확률 : 특정 조건을 만족하는 관측치의 확률

* 독립 : 두 사건 A, B가 서로 관계가 없는 경우

전체에서의 A의 비율과, B 내에서의 A의 비율이 같다면, A와 B는 독립임을 벤다이어그램으로 위와 같이 나타내볼 수 있습니다. 이 말은 즉, A는 매우 골고루 분포되어 있고 B라는 사건의 발생 여부에 영향을 받지 않는다는 것을 의미합니다.

6. 모집단과 표본의 개념 이해하기

1) 모집단 : 관심있는 대상 전체

2) 표본 : 모집단에서 추출한 관심 대상 일부

3) 추정(estimation) : 데이터로 모집단의 특성을 확인하는 과정

4) 검정(test) : 확인된 차이의 유의미 여부나 가설의 타당성을 판단하는 과정

7. 통계 검정의 개념 이해하기

검정의 활용 : 데이터 속 차이나 변수 간의 관계 등이 유의미함을 보일 때 활용
- 귀무가설과 대립가설 중 확률적으로 더 높은 쪽을 선택하는 과정
- 보수적으로 판단하기 위해서 귀무가설을 기준으로 판단한다.

귀무가설 : 차이, 관계가 없을 가정
대립가설 : 귀무가설과 반대로 차이, 관계가 있음을 가정

* 유의확률(p-value) : 귀무가설이 맞다는 가정 하에 데이터 속 차이나 관계가 나올 가능성을 계산한 조건부 확률
유의확률 < 0.05 : 대립가설을 선택
유의확률 > 0.05 : 귀무가설을 선택

=> p-value : 귀무가설이 맞다고 가정할 때 현재의 특성이 나올 확률

*유의수준 (significant level) : 유의확률에 대한 판단의 기준값

ex) 관측 결과를 통한 모집단 유추 검증 예시 :

빨간 공과 파란 공으로 이루어져 있는 모집단에서 10개의 공을 뽑았더니 7개의 빨간색 공과 3개의 파란색 공이 나왔다. 모집단의 비율을 유추해보자.

귀무가설 : 모집단의 빨간공 / 파란공 비율은 0.5이다.( = 1:1이다)

대립가설 : 모집단의 빨간공 / 파란공 비율은 0.5가 아니다.

위와 같이 관측치가 나왔을 때, 귀무가설이 유의미한 결론인지, 대립가설이 유의미한 결론인지 파악해야 합니다. 따라서 귀무가설이 참이라는 가정 하에(빨간공의 개수 = 파란공의 개수) , 이항분포를 그려봅니다. 위의 사진 아래쪽의 표는, 빨간 공과 파란 공의 개수가 같을 때, 10개의 관측치 중 x개의 빨간 공이 관측될 확률입니다.

모집단의 빨간 공과 파란 공의 개수가 같을 때, 모집단에서 10개의 공을 뽑아 7개 이상의 빨간 공이 관측될 확률은 표의 빨간색 부분의 확률을 합친 결과와 같다( = 0.172). 유의 수준이 0.05라고 할 때, 0.172>0.05이므로 우리는 귀무가설을 택한다.

이 결과를 해석해보면, 귀무가설을 가정했을 때, 현재 발생한 사건이 극적으로 낮은 확률에 의해 나타난 관측치는 아닌가?를 검정해보는 과정이다. 실험 결과 유의수준(p-value)가 0.172로 그렇게 낮은 확률이 아님을 확인했고, 따라서 우리는 귀무가설을 택한다.

ex) 상관계수의 의미 검증 : 공부시간과 성적의 상관계수가 0.7이 나왔다. 의미있는 것인가?

귀무가설 : 공부시간과 성적은 상관이 없다.(상관계수 = 0)

대립가설 : 두 변수가 상관이 있다.(상관계수는 0이 아니다.)

- 랜덤으로 공부시간 - 성적을 매칭하고 상관계수를 구한다(1000개)
- 상관계수의 분포표를 그리고 0.7이 나올 확률(p-value)를 구한다.
- 유의확률을 구한다.(0.025) < 0.05이므로 대립가설인 성적과 공부시간은 관계가 있다 를 선택한다.

9. 검정 통계량의 활용

검정 통계량 :
- 데이터 속에 있는 차이, 관계의 정도를 숫자로 표현
- 데이터가 귀무가설과 얼마나 다른지 계산한 통계량
- 보통 검정 통계량이 클 수록 차이가 크다.

1. 상관분석 : 두 수치형 변수의 상관계수에 대한 유의성 검정
- 이전 예제에서는 우리가 직접 랜덤하게 데이터를 만들었지만, 이미 통계학자들이 만들어놓은 T 분포와 T값을 통해 확인해볼 수 있음.

2. 교차표의 독립성 검정 : 카이제곱값(실제값과 예상값의 차이의 크기)을 활용

- 두 범주형 변수가 서로 독립인지 아닌지를 판단하는 과정(독립 = 두 변수는 관계가 없다)

* 귀무가설 : 두 변수는 독립이다.(관계가 없다.)

* 대립가설 : 두 변수는 독립이 아니다.(관계가 있다.)
- 두 범주형 변수의 교차표와 독립을 가정한 교차표를 비교
1) 아래와 같이 기본적으로 주어진 표(파란색)을 가지고, 독립일 경우의 표(빨간색)과 비교한다. 빨간색 표는 합계들을 기반으로 채워볼 수 있다. (ex : 20대-A는 연령별 비율 0.3, 상품별 비율 0.5이므로 독립임을 가정하면 100 * 0.3 * 0.5 = 15이다.) 이와 같이 두 교차표를 뺀 뒤 각각 제곱을 한 뒤 더하면, 우리가 원하는 카이제곱값을 얻을 수 있다. 이 카이제곱값을 자유도 분포에 넣어주면 유의수준을 구할 수 있다!

3. 그룹별 평균 차이에 대한 검정

분산분석(ANOVA) :
- 그룹별 평균의 차이가 유의미한지를 검정
- 전체 그룹 평균 대비 그룹별 평균 차이의 정도를 측정

?자유도는 도대체 어떤 의미를 가지는가?

12. 데이터를 활용한 예측

기술통계와 추론통계

*확률 모형 : 과거, 현재를 바탕으로 미래 예측

* 심슨의 역설
: 어떤 집단이 모든 부분에서 상대적으로 확률/평균이 높아도 전체 확률/평균은 오히려 작은 현상
- 그룹별 확률/평균 차이와 집단별 선호 그룹의 차이로 발생

13. 확률모형의 이해

* 지도학습(supervised learning) : 관심변수와 설명변수의 관계를 확인하여 예측에 활용

* 범주형 관심변수 :
- 관심 사건을 정의하거나 실제 범주형 변수에서 관심있는 수준을 선택

ex) 카드사용금액대에서 100만원 이상

- 설명변수를 활용한 조건부 확률을 계산
ex) 연령, 거주지 등 신상정보와 금융정보를 활용하여 카드 사용금액이 100만원 이상일 확률 예측

* 수치형 관심변수 :
- 관심있는 수치형 변수를 선택하고 설명변수르르 활용한 조건부 평균을 계산한다.

*오차 : 확률 모형에서 설명변수로 설명할 수 없는 관심변수의 차이

14. 선형 회귀의 이해

다중선형회귀 : 설명변수 X가 여러개인 경우

선형 : 관심변수와 설명변수는 정비례
설명변수들끼리는 서로 영향을 미치지 않음

* 회귀 계수의 계산
:

* 다중 선형 회귀 모형에서는 선형대수학을 공부해야 한다. 행렬간의 곱은 공분산을 계산한 것.

* 변수 선택 : 확률 모형에서 필요한 설명 변수만 선택하는 과정

15. 나이브 베이즈 판별기
: 복수의 설명변수 조건에 따라 관심변수의 수준을 예측
- 설명 변수 간 독립을 가정하고 각 조건부 확률을 곱해서 예측

* 베이즈 정리 :

* 나이브 베이즈 판별기 직접 한번 써보기
장점 : 확률 계산의 편의성
단점 : 설명 변수 간의 조건부 독립을 가정

16. 의사결정 나무모형

* 분할 :
: 설명 변수에 조건을 추가하여 관측치를 분할한다.
- 조건부 평균이나 조건부 확률의 차이를 기준으로 분할 기준을 설정한다.

* 재귀 분할 : 상위 그룹을 분할하고 분할된 그룹을 또다시 분할하는 과정을 반복

* 가지치기 : 분할된 그룹 중 그룹 간 차이가 충분히 크지 않은 그룹을 제거한다.

* 의사결정나무 : 설명변수를 활용하여 관측치 그룹 간 관심 변수의 차이를 설명

- 수치형 관심변수 : 조건부 평균의 차이를 계산
- 범주형 관심변수 : 조건부 확률의 차이를 계산

* R 실습

* choose(전체 개수, sample 개수) : 조합의 수 계산
* mean(SCORES$국어점수>=90) 와 같이 Boolean 상태에서 평균을 구하면 해당 조건을 만족하는 비율을 구할 수 있다.
* hist(x, probability = True) => 밀도로 변환 가능
* subset(데이터, 조건)
* sample(1:45, 6, replace = 복원추출 가능 여부, defalut False) : 45개 숫자 중에서 6개를 임의로 샘플링한다.
* cor.test(heights$father, heights$son) 두 변수의 상관계수를 구하고, 그 유의미성 또한 검증할 수 있다.
* chisq.test(table_raw) 교차표에서의 변수간의 독립성을 검증할 수 있다.
* aov(SCORE ~ TEAM, data=team_score) : 분산분석
* lm(종속변수 ~ 독립변수)
* rpart : 의사결정나무모형 만들기

'데이터 사이언스 > 패스트캠퍼스' 카테고리의 다른 글

[패스트캠퍼스 학습일지] 데이터분석 올인원 패키지 _ 10주차 : 혼자 해보는 데이터 분석_Insurance (0)	2019.11.12
[패스트캠퍼스 학습일지] 데이터분석 올인원 패키지 _ 9주차 : 혼자 해보는 데이터 분석_Movies, Highway (0)	2019.11.10
[패스트캠퍼스 학습일지] 데이터분석 올인원 패키지 _ 7주차 : 중학교 수학으로 이해하는 통계와 데이터 분석 (0)	2019.10.22
[패스트캠퍼스 학습일지] 데이터분석 올인원 패키지 _ 6주차 : 데이터 분석가 (0)	2019.10.20
[패스트캠퍼스 학습일지] 데이터분석 올인원 패키지 _ 5주차 : 데이터 엔지니어링 (0)	2019.10.05

매일 성장하는 블로그

[패스트캠퍼스 학습일지] 데이터분석 올인원 패키지 _ 8주차 : 고등학교 수학으로 이해하는 통계와 데이터 분석

'데이터 사이언스 > 패스트캠퍼스' 카테고리의 다른 글

+ Recent posts

티스토리툴바