패스트캠퍼스 학습일지 3주차입니다. 4주차의 내용과 상당히 많이 겹쳐있는데 왜 나누어져있는지 잘 모르겠네요.
[머신 러닝]
: 컴퓨터가 데이터를 학습하는 알고리즘과 기술의 통칭
1. 지도학습(Supervised Learning)
: 입력 데이터(X)와 타겟값(Y)를 알고 있는 데이터를 학습하여, 이들의 관계를 모델링하는 방법
지도학습은 타겟변수(Y)의 형태에 따라 두 가지로 나뉠 수 있다.
1) 분류(Classification)
: 타겟변수 Y가 불연속형 변수(Discrete Variable)인 경우, 입력값(X)이 주어질 때 해당 입력값이 해당되는 클래스(Y)를 예측한다.
ex) 스팸 메일 분류, 얼굴 인식
2) 회귀(Regression)
: 타겟변수 Y가 연속형 변수(Continuous Variable)인 경우 입력값 x가 주어질 때 해당 입력값과 매칭되는 Y값을 예측한다.
ex) 주가 예측
2. 비지도학습
: 타겟값(Y)이 없는 입력 데이터만이 주어질 때 학습하는 방법(입력 데이터에 내재되어 있는 특성을 찾아내는 용도)
1) 군집화(Clustering) : 유사한 포인트들끼리 그룹을 만드는 방법 2) 잠재 변수 모델(Latent Variable Model) : 표현된 데이터 속에 내재되어 있는 요인을 찾는 것 ex) 주성분 분석, 특이값 분해, 비음수 행렬 분해, 잠재 디리슐레 할당.... 3) 밀도 추정(Density Estimation) : 관측된 데이터를 이용하여 데이터 생성에 대한 확률밀도함수를 추정 4) 이상치 탐지 - 사진 넣기 5) 인공신경망 기반 비지도학습(ex : GAN)
3. 강화학습
: 자신이 한 행동에 대한 "보상"을 바탕으로 목적을 달성하는 학습
4. 인공신경망과 딥러닝
1) 신경망 모델(Neural Networks) : 인간의 뉴런의 작동방식을 모방하여 만든 머신러닝 기법 중 하나의 부류
5. 파라미터와 하이퍼파라미터
* 파라미터 : 모델의 구성요소이자 데이터로부터 학습되는 것 ex)가중치, .. * 하이퍼파라미터 : 모델 학습 과정에 반영되며, 학습을 시작하기 전에 미리 값을 결정하는 것 ex) 노드의 수, 학습률 ...
6. 손실함수(Loss Function)
: 학습 알고리즘이 작동하게끔 하는 원동력, 손실함수의 결과값을 줄여나가는 것이 모델의 목표 ex) 교차 엔트로피, 평균 제곱 오차
7. 학습, 검증/개발, 테스트 셋
한정된 데이터를 학습/검증/테스트에 모두 활용하기 위하여 데이터셋을 아래와 같이 나누어 개발을 진행합니다.
* 학습 셋 (Training set) : 모델의 학습 과정에 사용, 파라미터 추정을 위해 소모됨 * 검증/개발 셋(Validation / Development Set) : 학습 과정에서 하이퍼파라미터를 튜닝하는데 사용 * 테스트 셋 : 생성된 모델의 예측 성능 평가
주어진 데이터를 위와 같은 셋들로 나눠야하는데 나누는 방법은 매우 다양하다. ex) 3-way holdout, 교차 검증 : 고려해야 할 사항 -> 데이터 수가 충분한가? Training, Validation, Test Data set의 데이터분포가 모두 동일한가?
이번주에 학습한 내용은 기초 통계에 관한 내용입니다. 데이터 분석은 아래 사진과 같이 여러 학문 분야의 스킬셋을 필요로 합니다. 데이터를 처리하고 분석할 수 있는 소프트웨어 스킬셋, 목적을 세우고 그에 맞게 분석 계획을 수립할 수 있는 통계학적 지식, 데이터에 대한 배경 및 전문지식을 필요로 합니다. 데이터 사이언스분야의 공부를 위한 학습 목록들을 찾아보면, 파이썬/R 코딩, 통계학, 선형대수학과 같은 과목들을 필수적으로 추천하고 있는 것을 볼 수 있습니다.
데이터 분석라는 분야는 기존에도 존재했지만, 데이터가 점점 더 방대해지고 인공지능과 같은 새로운 분석기법들이 등장함에 따라 더 주목받고 있습니다. 그래서 데이터 사이언티스트들의 학력을 보면 통계학과, 컴퓨터사이언스 출신이 대부분이라고 합니다.
우선 이번주에는 간단한 기초 통계에 대해 학습한 내용을 복습해 보겠습니다.
[ 기초 통계학 ]
1.기술통계 : 수집한 자료를 분석하여 대상들의 속성을 파악하는 통계방법
* 여기서 말하는 기술의 의미는 아래와 같습니다.
(1) 넓은 의미로는 사물 혹은 대상의 특징을 조직적으로 밝혀 나타내는 것. (2) 좁은 의미로는 오직 경험적 사실의 특징으로 나타나는 것들을 관련지어 단정적으로 묘사하는 것.
*중심경향값 : 전체 자료를 대표하는 수치
- 평균(mean) :
- 중앙값(median) : 최대값과 최소값의 정가운데 수치
- 최빈값(mode) : 가장 많은 빈도를 보이는 자료값
* 분산도 : 전체 자료가 얼마나 퍼져있는지 설명하는 수치
- 분산 :
- 표준편차 :
* 상관계수 : 두 변수 간 선형적 관계의 크기(1에 가까울수록 양의 상관관계가 크고, -1에 가까울수록 음의 상관관계가 크다.)
* 회귀계수 : 독립변수(원인)이 종속변수(결과)에 미치는 영향의 크기
2. 추리통계 : 모집단에서 표본을 추출하고 표본의 기술통계를 통해 모집단의 특성을 추측하는 것
표본의 기술통계를 통해 모집단의 특성을 추측했을 때, 이 추측이 100% 맞진 않습니다. 따라서 우리는 신뢰구간이란 것을 정하여, 모집단의 특성이 표본을 통해 얻은 추측 범위 안에 들어갈 구간과 그 구간 안에 모집단이 들어갈 확률을 구합니다.
- 신뢰구간 : 추리통계에서 예측한 모집단의 특성이 위치할 가능성이 높은 구간
- 신뢰수준 : 신뢰구간에 모집단의 특성이 위치할 확률
[ 모집단과 표본 ]
1. 모집단 : 연구 또는 분석의 전체 집단
* 모집단은 실시간으로 변하는 경우도 있어 모집단 전수 조사는 매우 어렵다.
2. 표본 : 모집단에서 추출한 일부로, 모집단의 속성들을 유추하는데 사용된다.
* 변동 : 표본평균과 모평균의 차이
* 모집단과 표본은 평균/분산/표준편차를 구하는 방식이 다릅니다.
3. 표본추출방법 :
1) 확률표본추출방법 : 모집단에서 무작위로 표본을 추출하는 방법
2) 비확률표본추출방법 : 조사자의 편의나 판단에 의해 표본을 추출하는 방법
* 비확률표본추출방법에는 층화추출법 등 다양한 방법이 있습니다. 표본 추출 시에 편향된 표본을 고르는 것이 아닌지 항상 의심해봐야 합니다.
* 대수의 법칙 : 추출된 표본의 수가 무한대에 가까워질수록 표본평균은 모평균으로 근사한다는 법칙입니다. 자세한 내용은 아래의 링크를 참고하시기 바랍니다.
정규분포를 그리는 그래프에서는 아래 그림과 같이 평균을 기준으로 (1 * σ) 범위 내에는 68%의 데이터가 존재하고,
(2 * σ) 범위 내에는 95%의 데이터가, (3 * σ 범위) 내에는 99.7%의 데이터가 존재합니다.
2. Standardizing with Z scores
Z score란 관측치에서 평균을 뺀 뒤 표준편차로 나눈 것으로, 관측치가 평균에서 얼마나 떨어져있는지 표준편차를 사용하여 확인하는 방법입니다. |Z| > 2 * σ라면 이상 관측치로 분류할 수 있습니다.
Z = (observation - mean) / standard deviation
3. percentile : percentage of observations that falls below a given data point
4. Normal Probability Plot
Normal Probability Plot은 오른쪽 그래프와 같이 데이터의 분포가 정규분포를 얼마나 따르는지 확인할 수 있는 그래프입니다. 데이터의 분포가 정규분포를 만족할수록 그래프는 직선에 가깝게 됩니다. x축은 theoretical quantile, y축은 관측치입니다.
위의 그림과 같이, Normal Probability Plot을 통해 그래프의 분포도를 유추해볼 수 있습니다.
5. Binomial Distribution
: the binomial distribution describes the probability of having exactly k successes in n independent Bernouilli trials with probability of success p
- Mean and Standard Deviation of binomial distribution :
-Bernoulli random variable : when an individual trial has only two possible outcomes.
6. Normal approximation to binomial
: as samples size increases, the binomial distribution looks much similar to the normal distribution.
이 특성을 사용하여, 큰 sample size의 binomial distribution에 대해 normal distribution에 사용하는 방법과 마찬가지로 percentile을 구할 수 있다. 이 sample size의 크기는 아래와 같은 조건을 만족할 때 Normal Distribution과 같은 방법을 사용할 수 있다.
* 이 때 0.5정도의 관측치 조정을 통하여 정확한 값을 구할 수 있다.(70이상의 값은 70을 정확히 포함하지 않으므로 0.5를 빼서 Z score를 구한다.)
- Binomial Conditions :
1) The trials must be independent
2) the number of trials, n, must be fixed
3) each trial outcome must be classified as a success or a failure
4) the probability of success, p, must be the same for each trial