[패스트캠퍼스 학습일지] 데이터분석 올인원 패키지 _ 3주차 : 머신 러닝

2019. 9. 25. 22:03

패스트캠퍼스 학습일지 3주차입니다. 4주차의 내용과 상당히 많이 겹쳐있는데 왜 나누어져있는지 잘 모르겠네요.

[머신 러닝]

: 컴퓨터가 데이터를 학습하는 알고리즘과 기술의 통칭

1. 지도학습(Supervised Learning)

: 입력 데이터(X)와 타겟값(Y)를 알고 있는 데이터를 학습하여, 이들의 관계를 모델링하는 방법

지도학습은 타겟변수(Y)의 형태에 따라 두 가지로 나뉠 수 있다.

1) 분류(Classification)

: 타겟변수 Y가 불연속형 변수(Discrete Variable)인 경우, 입력값(X)이 주어질 때 해당 입력값이 해당되는 클래스(Y)를 예측한다.

ex) 스팸 메일 분류, 얼굴 인식

2) 회귀(Regression)

: 타겟변수 Y가 연속형 변수(Continuous Variable)인 경우 입력값 x가 주어질 때 해당 입력값과 매칭되는 Y값을 예측한다.

ex) 주가 예측

2. 비지도학습

: 타겟값(Y)이 없는 입력 데이터만이 주어질 때 학습하는 방법(입력 데이터에 내재되어 있는 특성을 찾아내는 용도)

1) 군집화(Clustering) : 유사한 포인트들끼리 그룹을 만드는 방법
2) 잠재 변수 모델(Latent Variable Model) : 표현된 데이터 속에 내재되어 있는 요인을 찾는 것
ex) 주성분 분석, 특이값 분해, 비음수 행렬 분해, 잠재 디리슐레 할당....
3) 밀도 추정(Density Estimation)
: 관측된 데이터를 이용하여 데이터 생성에 대한 확률밀도함수를 추정
4) 이상치 탐지
- 사진 넣기
5) 인공신경망 기반 비지도학습(ex : GAN)

3. 강화학습

: 자신이 한 행동에 대한 "보상"을 바탕으로 목적을 달성하는 학습

4. 인공신경망과 딥러닝

1) 신경망 모델(Neural Networks) : 인간의 뉴런의 작동방식을 모방하여 만든 머신러닝 기법 중 하나의 부류

5. 파라미터와 하이퍼파라미터

* 파라미터 : 모델의 구성요소이자 데이터로부터 학습되는 것 ex)가중치, ..
* 하이퍼파라미터 : 모델 학습 과정에 반영되며, 학습을 시작하기 전에 미리 값을 결정하는 것
ex) 노드의 수, 학습률 ...

6. 손실함수(Loss Function)

: 학습 알고리즘이 작동하게끔 하는 원동력, 손실함수의 결과값을 줄여나가는 것이 모델의 목표
ex) 교차 엔트로피, 평균 제곱 오차

7. 학습, 검증/개발, 테스트 셋

한정된 데이터를 학습/검증/테스트에 모두 활용하기 위하여 데이터셋을 아래와 같이 나누어 개발을 진행합니다.

* 학습 셋 (Training set) : 모델의 학습 과정에 사용, 파라미터 추정을 위해 소모됨
* 검증/개발 셋(Validation / Development Set) : 학습 과정에서 하이퍼파라미터를 튜닝하는데 사용
* 테스트 셋 : 생성된 모델의 예측 성능 평가

주어진 데이터를 위와 같은 셋들로 나눠야하는데 나누는 방법은 매우 다양하다.
ex) 3-way holdout, 교차 검증
: 고려해야 할 사항 -> 데이터 수가 충분한가? Training, Validation, Test Data set의 데이터분포가 모두 동일한가?

이상 간단한 [데이터분석 - 인공지능 - 3주차] 복습이었습니다.

'데이터 사이언스 > 패스트캠퍼스' 카테고리의 다른 글

[패스트캠퍼스 학습일지] 데이터분석 올인원 패키지 _ 6주차 : 데이터 분석가 (0)	2019.10.20
[패스트캠퍼스 학습일지] 데이터분석 올인원 패키지 _ 5주차 : 데이터 엔지니어링 (0)	2019.10.05
[패스트캠퍼스 학습일지] 데이터분석 올인원 패키지 _ 4주차 : 딥러닝 (0)	2019.10.01
[패스트캠퍼스 학습일지] 데이터분석 올인원 패키지 _ 2주차 : 기초 통계 (0)	2019.09.25
[패스트캠퍼스 학습일지] 데이터분석 올인원 패키지 _ 1주차 : 우리는 왜 데이터 분석을 배워야 할까? (0)	2019.09.25

매일 성장하는 블로그