1. 데이터의 수집과 활용
데이터는 다양한 산업군에서 수집/활용되고 있습니다.
은행/카드사 - 거래 내역, 보유 재산, 신용 정보 등의 데이터를 보유하고 있습니다. 은행 및 카드사는 데이터를 반드시 축적해야 계좌 및 금액 관리가 가능합니다.
통신사 - 유동인구 데이터, 전화량, 데이터 사용량 등 무궁무진한 데이터를 보유하고 있다. 카드사와 통신사는 일반적으로 제휴를 많이 맺고 있습니다.
여론조사 기관 - 정교한 샘플링으로 데이터를 수집합니다.
제조업 - 공정데이터를 가지고 있습니다.
제약 - 신약 후보 물질 탐구, 신약의 효과 검증을 위해 데이터 분석을 활용합니다.
공공기관 - 교통정보, 기상정보, 건강보험정보, 소득정보 등의 데이터를 보유하고 있습니다.
데이터 분석은 데이터를 요리해서 우리에게 필요한 해결방안을 도출해내는 것입니다. 데이터는 객관적이지만 사람의 판단은 주관적이기 때문에, 같은 데이터로 분석을 해도 결과는 매우 달라질 수 있습니다.
2. 차이에 대한 개념 이해하기
1) 데이터 구성
: 데이터는 변수와 관측치로 구성되어 있습니다.
1. 범주형 변수(Categorical Variable )
:
* 관측치간 차이를 나타내는 방법
1. 절대적인 차이(95점)
2. 상대적인 차이(30명 중 3등)
* 범주형 변수의 요약 방법
1) 빈도표 : 수준간 절대적인 차이
2) 상대빈도 : 수준간 상대적인 차이
3) 막대 그래프 ( 절대적인 차이 )
4) 원 그래프 ( 상대적인 차이 )
2) heat map : 숫자 대신 색의 진하기로 크기를 표현
2. 수치형 변수(Numeric Variable)
* 수치형 변수의 요약 방법
1) Box Plot : 사분위수를 활용하여 나타낸 그래프
2) 도수분포표(contingency table)
3) 히스토그램 : 구간별 관측치를 나타낸 그래프
4) 기술통계 :
- 평균/중앙값
- 분산/표준편차
5) 산점도 : 두 수치형 변수를 가로축, 세로축으로 활용하여 그린 그래프
각 변수별로 평균선을 그리면 양/음의 상관관계를 쉽게 나타낼 수 있다.
* 수치형 변수의 상대적인 값으로의 변환
1) 백분율
2) 최소-최대 정규화
3) 표준화 (Z값) : 평균으로부터 떨어진 정도를 표준편차의 단위로 표현
* 공분산 : 두 변수의 상관관계를 나타내는 방법 중 하나
* 공분산의 문제점 : 공분산은 scale이 크고, unit이 복잡합니다. 이러한 문제점을 해결하기 위하여 상관계수가 등장합니다.
→ 상관계수는 1과 -1 사이의 값만 가집니다.
4. 범주형 변수와 수치형 변수의 관계
1) 조건부 평균 : 범주형 변수의 수준별로 관측치를 나누고, 그룹마다 평균을 비교한다.
2) 수치형 변수의 구간화 : 수치형 변수를 구간화함으로써 범주형 변수 2개 사이의 관계를 알아본다.
5. 선형회귀
: 주어진 두 수치형 변수 사이의 관계를 일차함수로 나타내는 방법
* 관심변수(반응변수, 종속변수)
* 설명변수(독립변수)
추세선 : 독립변수와 종속변수의 관계를 직선으로 나타낸 것. 두 수치형 변수의 관계를 파악할 수 있다.
선형회귀 : 주어진 데이터를 활용하여 두 변수의 관계를 가장 잘 나타내는 B0, B1 변수를 구하는 방법.
* 선형회귀에 사용되는 방법 :
최소제곱법(least squares approximation)
회귀직선의 기울기는 두 변수의 상관계수에 비례한다.
예측 값(B0)을 살펴보면 예측된 Y값이 평균 중심으로 당겨지는 것을 확인할 수 있다.
6. 예측
1) 범주형 변수를 활용한 예측 전략
범주형 범주인 설명변수 - 구간별 평균을 통해 예측 가능
2) 수치형 변수를 활용한 예측 전략
수치형 변수의 구간화 : 산점도와 상관계수를 활용한다
'데이터 사이언스 > 패스트캠퍼스' 카테고리의 다른 글
[패스트캠퍼스 학습일지] 데이터분석 올인원 패키지 _ 9주차 : 혼자 해보는 데이터 분석_Movies, Highway (0) | 2019.11.10 |
---|---|
[패스트캠퍼스 학습일지] 데이터분석 올인원 패키지 _ 8주차 : 고등학교 수학으로 이해하는 통계와 데이터 분석 (0) | 2019.11.02 |
[패스트캠퍼스 학습일지] 데이터분석 올인원 패키지 _ 6주차 : 데이터 분석가 (0) | 2019.10.20 |
[패스트캠퍼스 학습일지] 데이터분석 올인원 패키지 _ 5주차 : 데이터 엔지니어링 (0) | 2019.10.05 |
[패스트캠퍼스 학습일지] 데이터분석 올인원 패키지 _ 4주차 : 딥러닝 (0) | 2019.10.01 |