데이터분석 올인원 패키지 _ 2주차 학습 내용을 공유합니다. 이번주에 학습한 내용은 기초 통계에 관한 내용입니다. 데이터 분석은 아래 사진과 같이 여러 학문 분야의 스킬셋을 필요로 합니다. 데이터를 처리하고 분석할 수 있는 소프트웨어 스킬셋, 목적을 세우고 그에 맞게 분석 계획을 수립할 수 있는 통계학적 지식, 데이터에 대한 배경 및 전문지식을 필요로 합니다. 데이터 사이언스분야의 공부를 위한 학습 목록들을 찾아보면, 파이썬/R 코딩, 통계학, 선형대수학과 같은 과목들을 필수적으로 추천하고 있는 것을 볼 수 있습니다.
데이터 분석라는 분야는 기존에도 존재했지만, 데이터가 점점 더 방대해지고 인공지능과 같은 새로운 분석기법들이 등장함에 따라 더 주목받고 있습니다. 그래서 데이터 사이언티스트들의 학력을 보면 통계학과, 컴퓨터사이언스 출신이 대부분이라고 합니다. 우선 이번주에는 간단한 기초 통계에 대해 학습한 내용을 복습해 보겠습니다. [ 기초 통계학 ] 1. 기술통계 : 수집한 자료를 분석하여 대상들의 속성을 파악하는 통계방법
* 여기서 말하는 기술의 의미는 아래와 같습니다. (1) 넓은 의미로는 사물 혹은 대상의 특징을 조직적으로 밝혀 나타내는 것. (2) 좁은 의미로는 오직 경험적 사실의 특징으로 나타나는 것들을 관련지어 단정적으로 묘사하는 것.
* 중심경향값 : 전체 자료를 대표하는 수치 - 평균(mean) : - 중앙값(median) : 최대값과 최소값의 정가운데 수치 - 최빈값(mode) : 가장 많은 빈도를 보이는 자료값 * 분산도 : 전체 자료가 얼마나 퍼져있는지 설명하는 수치 - 분산 : - 표준편차 : * 상관계수 : 두 변수 간 선형적 관계의 크기(1에 가까울수록 양의 상관관계가 크고, -1에 가까울수록 음의 상관관계가 크다.) * 회귀계수 : 독립변수(원인)이 종속변수(결과)에 미치는 영향의 크기 2. 추리통계 : 모집단에서 표본을 추출하고 표본의 기술통계를 통해 모집단의 특성을 추측하는 것 표본의 기술통계를 통해 모집단의 특성을 추측했을 때, 이 추측이 100% 맞진 않습니다. 따라서 우리는 신뢰구간이란 것을 정하여, 모집단의 특성이 표본을 통해 얻은 추측 범위 안에 들어갈 구간과 그 구간 안에 모집단이 들어갈 확률을 구합니다. - 신뢰구간 : 추리통계에서 예측한 모집단의 특성이 위치할 가능성이 높은 구간 - 신뢰수준 : 신뢰구간에 모집단의 특성이 위치할 확률 [ 모집단과 표본 ] 1. 모집단 : 연구 또는 분석의 전체 집단 * 모집단은 실시간으로 변하는 경우도 있어 모집단 전수 조사는 매우 어렵다. 2. 표본 : 모집단에서 추출한 일부로, 모집단의 속성들을 유추하는데 사용된다. * 변동 : 표본평균과 모평균의 차이 * 모집단과 표본은 평균/분산/표준편차를 구하는 방식이 다릅니다. 3. 표본추출방법 : 1) 확률표본추출방법 : 모집단에서 무작위로 표본을 추출하는 방법 2) 비확률표본추출방법 : 조사자의 편의나 판단에 의해 표본을 추출하는 방법 * 비확률표본추출방법에는 층화추출법 등 다양한 방법이 있습니다. 표본 추출 시에 편향된 표본을 고르는 것이 아닌지 항상 의심해봐야 합니다. * 대수의 법칙 : 추출된 표본의 수가 무한대에 가까워질수록 표본평균은 모평균으로 근사한다는 법칙입니다. 자세한 내용은 아래의 링크를 참고하시기 바랍니다. https://blog.naver.com/vnf3751/220836087225 * 표본의 크기는 얼마나 커야 모집단을 대표할 수 있는가? → 중심극한정리(https://blog.naver.com/vnf3751/220844235862)에 의하면 → " 표본이 30 이상으로 충분히 클 때 " 1) 모집단의 분포와 상관없이 표본은 정규분포를 따른다. 2) 모집단의 평균과 표본의 평균은 같다. 3) 표본의 분산 = 모집단의 분산 / 표본의 수 * 자유도 : 평균을 유지하면서 자유롭게 어떠한 값도 가질 수 있는 사례의 수(표본의 수 -1) 모집단의 평균이 4이고, 표본의 크기는 5라고 하자. 모집단과 표본의 평균을 같게 해주려면, 임의의 4개의 표본을 뽑고 나서 마지막 하나의 표본은 평균을 맞춰주기 위한 값을 뽑아야 한다. 이것을 자유도라고 한다. [ 척도 ] 1. 척도의 원칙 1) 포괄성 2) 상호배타성 * 비연속형 변수 - 명목척도 : 상호배타적인 특성만을 가진 척도 ex) 남/여 - 서열척도 : 명목척도 중 항목들 사이에 서열이나 순위가 존재하는 척도 ex) 언론에서 발표하는 대학 순위 * 연속형 변수 - 등간척도 : 서열척도들 중 항목들 간의 간격이 일정한 척도 ex) 섭씨온도 : 섭씨 0도는 열이 없는 상태가 아니기 때문에 섭씨온도는 등간척도이다. - 비율척도 : 등간척도 중 아무것도 없는 상태를 0으로 정할 수 있는 척도 ex) 무게 * 데이터 표현 방법
1) 도수분포표 : 특정 항목 또는 범위에 속하는 빈도수를 나타낸 표 2) 막대그래프 : 비연속형 변수에 사용되는 그래프, 항목별 빈도수를 나타냄 3) 히스토그램 : 연속형 변수에 사용되는 그래프 4) 선그래프 : 히스토그램의 끝 부분을 선으로 연결한 그래프 5. 공분산과 상관계수
1) 공분산 : 두 변수가 함께 각자의 평균으로부터 멀어지는 정도 → 한 변수가 자신의 평균으로부터 멀어질 때 다른 변수가 자신의 평균으로부터 멀어지는 정도를 의미한다. ex) 한 변수가 증가할 때, 다른 변수도 증가하는가? 증가한다면 공분산은 양수, 감소한다면 공분산은 음수가 된다. 2) 상관계수 : 하나의 변수가 변화함에 따라 다른 변수가 변화하는 정도 * 상관계수는 선형적인 관계만을 수치화할 수 있고 비선형적인 관계는 수치화할 수 없다. 따라서 비선형적인 관계를 가지는 경우는 상관계수가 아닌 다른 방법으로 두 변수간의 관계를 파악해야 한다. 6. 가설과 신뢰수준/유의확률 1) 귀무가설(영가설) : 연구가설과 반대되는 가설, 실제 분석이 이루어지는 가설 2) 대립가설(연구가설) : 분석을 통해서 알아보고자 하는 내용으로 이루어진 가설 - 귀무가설은 하나의 통계값으로 나타낼 수 있어야 하며 귀무가설 과 대립가설은 동시에 참/거짓일 수 없다. * 유의확률(p-value) : 실제로는 귀무가설이 참임에도 통계분석을 통해 귀무가설을 거짓으로 판단할 가능성 : 실제 현상을 반영하지 못할 가능성 * 신뢰수준 : 실제로 귀무가설이 참일 때, 통계분석을 통해 귀무가설을 채택할 가능성 : 실제 현상에서 발생하지 않는 대립가정을 기각할 가능성 7. 양측 검증과 단측 검증 1) 양측 검증 : 방향성을 고려하지 않은 채로 대립가설을 설정할 때 사용하는 검증방법 2) 단측 검증 : 방향성을 고려하여 대립가설을 설정(크다/작다)
양측 검증보다는 단측 검증일 경우에 대립가설이 채택될 가능성이 높다. 8. t분석(집단간의 평균 차이 분석) - https://blog.naver.com/PostView.nhn?blogId=vnf3751&logNo=220838283162 : 독립변수(원인)이 비연속형 변수이고, 종속변수(결과)가 연속형 변수일 때 두 집단간의 평균을 비교하는 검정, 독립변수의 집단이 2개 이하일 때 사용하는 분석방법이며, t분포를 사용한다. 회귀분석에서 각 계수들이 유의미한지 파악하는데 사용한다..?
* 다중공선성 : 회귀분석에서 사용되는 설명변수들이 서로 독립이 아니고 서로 영향을 미칠 때 데이터 분석에 부정적인 영향을 미치는 현상 → 변수들 각각의 설명력이 약해진다. 1) 일표본 t-분석 : 하나의 모집단에서 표본을 추출할 때 사용되는 분석으로 표본의 평균이 예측한 특정 수치와 같은지 다른지를 검증하는 방법 2) 독립표본 t-분석(두 집단의 분산이 동일한지 여부에 따라 유의확률 계산식이 달라지므로 두 집단의 분산 일치 여부도 중요하다.) : 두개의 모집단에서 각각의 표본을 추출할 때 두 집단의 평균이 서로 같은지/다른지를 검증하는 방법 3) 대응표본 t-분석 : 하나의 모집단에서 표본을 추출하지만, 같은 표본에게 두 번의 측정이 이루어질 때 사용 9. 분산분석(ANOVA) : 독립변수가 비연속형 변수이고, 종속변수가 연속형 변수일 때 사용하는 분석방법으로, 독립변수의 집단이 3개 이상일 때 사용한다. f-분포를 사용하여 분석한다. * 원리 : 집단 간 분산과 집단 내 분산을 통해 분석 : - 집단 간 분산 > 집단 내 분산 : 집단간 차이가 있음 - 집단 간 분산 < 집단 내 분산 : 집단간 차이가 크지 않음 - 실제 분석은 집단 간 분산 / 집단 내 분산을 활용한다. - 1way ANOVA : 독립변수 1개, 종속변수 1개 - 2way ANOVA : 독립변수 2개, 종속변수 1개 - 3way ANOVA : 독립변수 3개, 종속변수 1개 - ANCOVA : 독립변수 1개, 종속변수 1개, 통제변수 1개 이상 - MANOVA : 독립변수 1개, 종속변수 2개 이상 - MANCOVA : 독립변수 1개, 종속변수 2개 이상, 통제변수 1개 이상 10. 회귀분석 - 독립변수와 종속변수가 모두 연속형 변수일 때 사용하는 분석방법. 귀무가설 : 독립변수가 종속변수에 미치는 영향의 크기는 0이다. 대립가설 : 1) 양측검증 : 독립변수가 종속변수에 미치는 영향의 크기는 0이 아니다. 2) 단측검증 : 독립변수가 종속변수에 미치는 영향의 크기는 0보다 크다(혹은 작다.) 특징 ) - 여러 개의 독립변수를 포함할 수 있다. - 여러 독립변수들을 포함하는 경우에는 서로 통제되어 자신의 독자적인 영향력으로 계산한다. * 설명량(R^2) : - 독립변수들에 의해서 설명되어지는 종속변수의 분산 - 설명량이 증가할수록 회귀식에서 설명되어지지 못하는 오차는 감소 - 증가된 설명량을 활용하여 독립변수의 포함 여부를 결정한다. 11. 로지스틱 회귀분석 독립변수가 연속형 변수이고, 종속변수가 비연속형 변수인 경우 분석방법 -Odd Ratio : 수식 넣기 (p : 특정 사건이 발생할 확률) - 기존 로지스틱 회귀분석에서 y = b0 + b1x였다면 y 부분에 ln(Odd Ratio)가 들어간다. b1 > 0 : 특정 사건이 발생하지 않을 확률보다 발생할 확률이 높다는 의미. b1 < 0 : 특정 사건이 발생하지 않을 확률이 발생할 확률보다 높다는 의미 * 모형적합도 : 모형이 적절하게 만들어졌는지를 보여주는 지표 12. 조절효과와 매개효과 1) 조절효과 : 독립변수가 종속변수에 미치는 형향이 조절변수에 의해서 달라지는지를 알아보는 분석방법 2) 매개효과 : 독립변수와 종속변수 간의 인과관계 이외에도 매개변수를 통한 간접적인 인과관계가 존재하는지를 알아보는 분석방법 - 부분매개모형 - 완전매개모형 13. 구조방정식 모형(매개효과에 특화) : 구조모형과 측정모형을 함께 고려하는 분석방법, 확인적 요인분석과 매개효과 분석에 주로 활용. - 구조모형 : 변수들 간의 관계를 밝히는 모형 - 측정모형 : 각 변수와 이를 측정하는 문항들간의 관계를 밝히는 모형 - 확인적 요인분석 : 측정문항들의 타당도를 알아보기 위한 분석으로 구조방정식 중 측정모형만을 분석하는 방법 14. 다수준분석 : 독립변수와 종속변수의 수준이 다른 경우, 독립변수와 종속변수는 개인수준이지만 조절변수의 수준이 다른 경우의 분석(복잡한 사회현상에 대해 분석) 단일수준분석 : 모든 변수가 하나의 수준으로 이루어진 경우 ex) 집단의 응집성이 집단의 성과에 어떤 영향을 미치는가(집단수준 내에서의 분석), 개인의 동기가 개인의 성과에 어떤 영향을 미치는가(개인수준 내에서의 분석) |
|
'데이터 사이언스 > 패스트캠퍼스' 카테고리의 다른 글
[패스트캠퍼스 학습일지] 데이터분석 올인원 패키지 _ 6주차 : 데이터 분석가 (0) | 2019.10.20 |
---|---|
[패스트캠퍼스 학습일지] 데이터분석 올인원 패키지 _ 5주차 : 데이터 엔지니어링 (0) | 2019.10.05 |
[패스트캠퍼스 학습일지] 데이터분석 올인원 패키지 _ 4주차 : 딥러닝 (0) | 2019.10.01 |
[패스트캠퍼스 학습일지] 데이터분석 올인원 패키지 _ 3주차 : 머신 러닝 (0) | 2019.09.25 |
[패스트캠퍼스 학습일지] 데이터분석 올인원 패키지 _ 1주차 : 우리는 왜 데이터 분석을 배워야 할까? (0) | 2019.09.25 |