반응형

1. 데이터의 수집과 활용

데이터는 다양한 산업군에서 수집/활용되고 있습니다.

은행/카드사 - 거래 내역, 보유 재산, 신용 정보 등의 데이터를 보유하고 있습니다. 은행 및 카드사는 데이터를 반드시 축적해야 계좌 및 금액 관리가 가능합니다.
통신사 - 유동인구 데이터, 전화량, 데이터 사용량 등 무궁무진한 데이터를 보유하고 있다. 카드사와 통신사는 일반적으로 제휴를 많이 맺고 있습니다.
여론조사 기관 - 정교한 샘플링으로 데이터를 수집합니다.
제조업 -  공정데이터를 가지고 있습니다.
제약 - 신약 후보 물질 탐구, 신약의 효과 검증을 위해 데이터 분석을 활용합니다.
공공기관 - 교통정보, 기상정보, 건강보험정보, 소득정보 등의 데이터를 보유하고 있습니다.

데이터 분석은 데이터를 요리해서 우리에게 필요한 해결방안을 도출해내는 것입니다. 데이터는 객관적이지만 사람의 판단은 주관적이기 때문에, 같은 데이터로 분석을 해도 결과는 매우 달라질 수 있습니다. 

2. 차이에 대한 개념 이해하기

1) 데이터 구성
 : 데이터는 변수와 관측치로 구성되어 있습니다.

1. 범주형 변수(Categorical Variable )

 :
* 관측치간 차이를 나타내는 방법 

1. 절대적인 차이(95점)
2. 상대적인 차이(30명 중 3등)

* 범주형 변수의 요약 방법 
1) 빈도표 : 수준간 절대적인 차이
2) 상대빈도 : 수준간 상대적인 차이
3) 막대 그래프 ( 절대적인 차이 )
4) 원 그래프 ( 상대적인 차이 )
2) heat map : 숫자 대신 색의 진하기로 크기를 표현

2. 수치형 변수(Numeric Variable)

* 수치형 변수의 요약 방법

1) Box Plot : 사분위수를 활용하여 나타낸 그래프
2) 도수분포표(contingency table)
3) 히스토그램 : 구간별 관측치를 나타낸 그래프 
4) 기술통계 : 
- 평균/중앙값
- 분산/표준편차
5) 산점도 : 두 수치형 변수를 가로축, 세로축으로 활용하여 그린 그래프
각 변수별로 평균선을 그리면 양/음의 상관관계를 쉽게 나타낼 수 있다.

* 수치형 변수의 상대적인 값으로의 변환

1) 백분율
2) 최소-최대 정규화
3) 표준화 (Z값) : 평균으로부터 떨어진 정도를 표준편차의 단위로 표현

* 공분산 : 두 변수의 상관관계를 나타내는 방법 중 하나


* 공분산의 문제점 : 공분산은 scale이 크고, unit이 복잡합니다. 이러한 문제점을 해결하기 위하여 상관계수가 등장합니다.
→ 상관계수는 1과 -1 사이의 값만 가집니다.

4. 범주형 변수와 수치형 변수의 관계

1) 조건부 평균 : 범주형 변수의 수준별로 관측치를 나누고, 그룹마다 평균을 비교한다.
2) 수치형 변수의 구간화 : 수치형 변수를 구간화함으로써 범주형 변수 2개 사이의 관계를 알아본다.



5. 선형회귀

 : 주어진 두 수치형 변수 사이의 관계를 일차함수로 나타내는 방법

* 관심변수(반응변수, 종속변수)
* 설명변수(독립변수)

추세선 : 독립변수와 종속변수의 관계를 직선으로 나타낸 것. 두 수치형 변수의 관계를 파악할 수 있다.

선형회귀 : 주어진 데이터를 활용하여 두 변수의 관계를 가장 잘 나타내는 B0, B1 변수를 구하는 방법.

* 선형회귀에 사용되는 방법 : 

 

최소제곱법(least squares approximation)

회귀직선의 기울기는 두 변수의 상관계수에 비례한다. 

예측 값(B0)을 살펴보면 예측된 Y값이 평균 중심으로 당겨지는 것을 확인할 수 있다.

 

6. 예측

1) 범주형 변수를 활용한 예측 전략
범주형 범주인 설명변수 - 구간별 평균을 통해 예측 가능

2) 수치형 변수를 활용한 예측 전략
수치형 변수의 구간화 : 산점도와 상관계수를 활용한다

반응형

+ Recent posts