반응형

 

데이터분석 올인원 패키지 _ 2주차 학습 내용을 공유합니다.

이번주에 학습한 내용은 기초 통계에 관한 내용입니다. 데이터 분석은 아래 사진과 같이 여러 학문 분야의 스킬셋을 필요로 합니다. 데이터를 처리하고 분석할 수 있는 소프트웨어 스킬셋, 목적을 세우고 그에 맞게 분석 계획을 수립할 수 있는 통계학적 지식, 데이터에 대한 배경 및 전문지식을 필요로 합니다. 데이터 사이언스분야의 공부를 위한 학습 목록들을 찾아보면, 파이썬/R 코딩, 통계학, 선형대수학과 같은 과목들을 필수적으로 추천하고 있는 것을 볼 수 있습니다.

 

데이터 분석라는 분야는 기존에도 존재했지만, 데이터가 점점 더 방대해지고 인공지능과 같은 새로운 분석기법들이 등장함에 따라 더 주목받고 있습니다. 그래서 데이터 사이언티스트들의 학력을 보면 통계학과, 컴퓨터사이언스 출신이 대부분이라고 합니다.

우선 이번주에는 간단한 기초 통계에 대해 학습한 내용을 복습해 보겠습니다.

[ 기초 통계학 ]

1. 기술통계 : 수집한 자료를 분석하여 대상들의 속성을 파악하는 통계방법

 

​* 여기서 말하는 기술의 의미는 아래와 같습니다.

(1) 넓은 의미로는 사물 혹은 대상의 특징을 조직적으로 밝혀 나타내는 것. (2) 좁은 의미로는 오직 경험적 사실의 특징으로 나타나는 것들을 관련지어 단정적으로 묘사하는 것.

 

* 중심경향값 : 전체 자료를 대표하는 수치

- 평균(mean) :

http://blog.naver.com/PostList.nhn?blogId=freewheel3

- 중앙값(median) : 최대값과 최소값의 정가운데 수치

- 최빈값(mode) : 가장 많은 빈도를 보이는 자료값

* 분산도 : 전체 자료가 얼마나 퍼져있는지 설명하는 수치

- 분산 :

http://blog.naver.com/PostList.nhn?blogId=freewheel3

- 표준편차 :

http://blog.naver.com/PostList.nhn?blogId=freewheel3

* 상관계수 : 두 변수 간 선형적 관계의 크기(1에 가까울수록 양의 상관관계가 크고, -1에 가까울수록 음의 상관관계가 크다.)

* 회귀계수 : 독립변수(원인)이 종속변수(결과)에 미치는 영향의 크기

2. 추리통계 : 모집단에서 표본을 추출하고 표본의 기술통계를 통해 모집단의 특성을 추측하는 것

표본의 기술통계를 통해 모집단의 특성을 추측했을 때, 이 추측이 100% 맞진 않습니다. 따라서 우리는 신뢰구간이란 것을 정하여, 모집단의 특성이 표본을 통해 얻은 추측 범위 안에 들어갈 구간과 그 구간 안에 모집단이 들어갈 확률을 구합니다.

- 신뢰구간 : 추리통계에서 예측한 모집단의 특성이 위치할 가능성이 높은 구간

- 신뢰수준 : 신뢰구간에 모집단의 특성이 위치할 확률

[ 모집단과 표본 ]

1. 모집단 : 연구 또는 분석의 전체 집단

* 모집단은 실시간으로 변하는 경우도 있어 모집단 전수 조사는 매우 어렵다.

2. 표본 : 모집단에서 추출한 일부로, 모집단의 속성들을 유추하는데 사용된다.

* 변동 : 표본평균과 모평균의 차이

* 모집단과 표본은 평균/분산/표준편차를 구하는 방식이 다릅니다.

3. 표본추출방법 :

1) 확률표본추출방법 : 모집단에서 무작위로 표본을 추출하는 방법

2) 비확률표본추출방법 : 조사자의 편의나 판단에 의해 표본을 추출하는 방법

* 비확률표본추출방법에는 층화추출법 등 다양한 방법이 있습니다. 표본 추출 시에 편향된 표본을 고르는 것이 아닌지 항상 의심해봐야 합니다.

* 대수의 법칙 : 추출된 표본의 수가 무한대에 가까워질수록 표본평균은 모평균으로 근사한다는 법칙입니다. 자세한 내용은 아래의 링크를 참고하시기 바랍니다.

https://blog.naver.com/vnf3751/220836087225

* 표본의 크기는 얼마나 커야 모집단을 대표할 수 있는가?

→ 중심극한정리(https://blog.naver.com/vnf3751/220844235862)에 의하면

→ " 표본이 30 이상으로 충분히 클 때 "

1) 모집단의 분포와 상관없이 표본은 정규분포를 따른다.

2) 모집단의 평균과 표본의 평균은 같다.

3) 표본의 분산 = 모집단의 분산 / 표본의 수

* 자유도

: 평균을 유지하면서 자유롭게 어떠한 값도 가질 수 있는 사례의 수(표본의 수 -1)

모집단의 평균이 4이고, 표본의 크기는 5라고 하자.

모집단과 표본의 평균을 같게 해주려면, 임의의 4개의 표본을 뽑고 나서 마지막 하나의 표본은 평균을 맞춰주기 위한 값을 뽑아야 한다. 이것을 자유도라고 한다.

[ 척도 ]

1. 척도의 원칙

1) 포괄성

2) 상호배타성

* 비연속형 변수

- 명목척도 : 상호배타적인 특성만을 가진 척도 ex) 남/여

- 서열척도 : 명목척도 중 항목들 사이에 서열이나 순위가 존재하는 척도 ex) 언론에서 발표하는 대학 순위

* 연속형 변수

- 등간척도 : 서열척도들 중 항목들 간의 간격이 일정한 척도 ex) 섭씨온도 : 섭씨 0도는 열이 없는 상태가 아니기 때문에 섭씨온도는 등간척도이다.

- 비율척도 : 등간척도 중 아무것도 없는 상태를 0으로 정할 수 있는 척도 ex) 무게

* 데이터 표현 방법

 

1) 도수분포표 : 특정 항목 또는 범위에 속하는 빈도수를 나타낸 표

2) 막대그래프 : 비연속형 변수에 사용되는 그래프, 항목별 빈도수를 나타냄

3) 히스토그램 : 연속형 변수에 사용되는 그래프

4) 선그래프 : 히스토그램의 끝 부분을 선으로 연결한 그래프

5. 공분산과 상관계수

 

1) 공분산 : 두 변수가 함께 각자의 평균으로부터 멀어지는 정도

→ 한 변수가 자신의 평균으로부터 멀어질 때 다른 변수가 자신의 평균으로부터 멀어지는 정도를 의미한다.

​ex) 한 변수가 증가할 때, 다른 변수도 증가하는가? 증가한다면 공분산은 양수, 감소한다면 공분산은 음수가 된다.

2) 상관계수 : 하나의 변수가 변화함에 따라 다른 변수가 변화하는 정도

* 상관계수는 선형적인 관계만을 수치화할 수 있고 비선형적인 관계는 수치화할 수 없다. 따라서 비선형적인 관계를 가지는 경우는 상관계수가 아닌 다른 방법으로 두 변수간의 관계를 파악해야 한다.

6. 가설과 신뢰수준/유의확률

1) 귀무가설(영가설) : 연구가설과 반대되는 가설, 실제 분석이 이루어지는 가설

2) 대립가설(연구가설) : 분석을 통해서 알아보고자 하는 내용으로 이루어진 가설

- 귀무가설은 하나의 통계값으로 나타낼 수 있어야 하며 귀무가설 과 대립가설은 동시에 참/거짓일 수 없다.

* 유의확률(p-value) : 실제로는 귀무가설이 참임에도 통계분석을 통해 귀무가설을 거짓으로 판단할 가능성 : 실제 현상을 반영하지 못할 가능성

* 신뢰수준 : 실제로 귀무가설이 참일 때, 통계분석을 통해 귀무가설을 채택할 가능성 : 실제 현상에서 발생하지 않는 대립가정을 기각할 가능성

7. 양측 검증과 단측 검증

1) 양측 검증 : 방향성을 고려하지 않은 채로 대립가설을 설정할 때 사용하는 검증방법

2) 단측 검증 : 방향성을 고려하여 대립가설을 설정(크다/작다)

 

양측 검증보다는 단측 검증일 경우에 대립가설이 채택될 가능성이 높다.

8. t분석(집단간의 평균 차이 분석) - https://blog.naver.com/PostView.nhn?blogId=vnf3751&logNo=220838283162

: 독립변수(원인)이 비연속형 변수이고, 종속변수(결과)가 연속형 변수일 때 두 집단간의 평균을 비교하는 검정,

독립변수의 집단이 2개 이하일 때 사용하는 분석방법이며, t분포를 사용한다. 회귀분석에서 각 계수들이 유의미한지 파악하는데 사용한다..?

 

* 다중공선성 : 회귀분석에서 사용되는 설명변수들이 서로 독립이 아니고 서로 영향을 미칠 때 데이터 분석에 부정적인 영향을 미치는 현상 → 변수들 각각의 설명력이 약해진다.

1) 일표본 t-분석

: 하나의 모집단에서 표본을 추출할 때 사용되는 분석으로 표본의 평균이 예측한 특정 수치와 같은지 다른지를 검증하는 방법

2) 독립표본 t-분석(두 집단의 분산이 동일한지 여부에 따라 유의확률 계산식이 달라지므로 두 집단의 분산 일치 여부도 중요하다.)

: 두개의 모집단에서 각각의 표본을 추출할 때 두 집단의 평균이 서로 같은지/다른지를 검증하는 방법

3) 대응표본 t-분석

: 하나의 모집단에서 표본을 추출하지만, 같은 표본에게 두 번의 측정이 이루어질 때 사용

9. 분산분석(ANOVA)

: 독립변수가 비연속형 변수이고, 종속변수가 연속형 변수일 때 사용하는 분석방법으로, 독립변수의 집단이 3개 이상일 때 사용한다. f-분포를 사용하여 분석한다.

* 원리 : 집단 간 분산과 집단 내 분산을 통해 분석 :

- 집단 간 분산 > 집단 내 분산 : 집단간 차이가 있음

- 집단 간 분산 < 집단 내 분산 : 집단간 차이가 크지 않음

- 실제 분석은 집단 간 분산 / 집단 내 분산을 활용한다.

- 1way ANOVA : 독립변수 1개, 종속변수 1개

- 2way ANOVA : 독립변수 2개, 종속변수 1개

- 3way ANOVA : 독립변수 3개, 종속변수 1개

- ANCOVA : 독립변수 1개, 종속변수 1개, 통제변수 1개 이상

- MANOVA : 독립변수 1개, 종속변수 2개 이상

- MANCOVA : 독립변수 1개, 종속변수 2개 이상, 통제변수 1개 이상

10. 회귀분석

- 독립변수와 종속변수가 모두 연속형 변수일 때 사용하는 분석방법.

귀무가설 : 독립변수가 종속변수에 미치는 영향의 크기는 0이다.

대립가설 :

1) 양측검증 : 독립변수가 종속변수에 미치는 영향의 크기는 0이 아니다.

2) 단측검증 : 독립변수가 종속변수에 미치는 영향의 크기는 0보다 크다(혹은 작다.)

특징 )

- 여러 개의 독립변수를 포함할 수 있다.

- 여러 독립변수들을 포함하는 경우에는 서로 통제되어 자신의 독자적인 영향력으로 계산한다.

* 설명량(R^2) :

- 독립변수들에 의해서 설명되어지는 종속변수의 분산

- 설명량이 증가할수록 회귀식에서 설명되어지지 못하는 오차는 감소

- 증가된 설명량을 활용하여 독립변수의 포함 여부를 결정한다.

11. 로지스틱 회귀분석

독립변수가 연속형 변수이고, 종속변수가 비연속형 변수인 경우 분석방법

-Odd Ratio : 수식 넣기 (p : 특정 사건이 발생할 확률)

- 기존 로지스틱 회귀분석에서 y = b0 + b1x였다면 y 부분에 ln(Odd Ratio)가 들어간다.

b1 > 0 : 특정 사건이 발생하지 않을 확률보다 발생할 확률이 높다는 의미.

b1 < 0 : 특정 사건이 발생하지 않을 확률이 발생할 확률보다 높다는 의미

* 모형적합도 : 모형이 적절하게 만들어졌는지를 보여주는 지표

12. 조절효과와 매개효과

1) 조절효과

: 독립변수가 종속변수에 미치는 형향이 조절변수에 의해서 달라지는지를 알아보는 분석방법

2) 매개효과

: 독립변수와 종속변수 간의 인과관계 이외에도 매개변수를 통한 간접적인 인과관계가 존재하는지를 알아보는 분석방법

- 부분매개모형

​- 완전매개모형

13. 구조방정식 모형(매개효과에 특화)

: 구조모형과 측정모형을 함께 고려하는 분석방법, 확인적 요인분석과 매개효과 분석에 주로 활용.

- 구조모형 : 변수들 간의 관계를 밝히는 모형

- 측정모형 : 각 변수와 이를 측정하는 문항들간의 관계를 밝히는 모형

- 확인적 요인분석 : 측정문항들의 타당도를 알아보기 위한 분석으로 구조방정식 중 측정모형만을 분석하는 방법

14. 다수준분석 : 독립변수와 종속변수의 수준이 다른 경우, 독립변수와 종속변수는 개인수준이지만 조절변수의 수준이 다른 경우의 분석(복잡한 사회현상에 대해 분석)

단일수준분석 : 모든 변수가 하나의 수준으로 이루어진 경우

ex) 집단의 응집성이 집단의 성과에 어떤 영향을 미치는가(집단수준 내에서의 분석), 개인의 동기가 개인의 성과에 어떤 영향을 미치는가(개인수준 내에서의 분석)

 

반응형

+ Recent posts