이번주는 '데이터 분석이 무엇인가', '다양한 산업에서 데이터 분석은 어떻게 활용되는가' 에 관한 내용을 공부했습니다. 분석에 앞서 배우는 개요 느낌이라 어려운 점은 없었고, 깔끔하게 애니메이션으로 동영상이 구성되어 있어 보는데 좋았습니다.
1. 데이터 분석 :
데이터 분석에 관련된 직무는 Data Engineer, Data Analyst, Data Scientist로 나눌 수 있습니다. 작은 회사는 데이터 관련 인원이 많지 않기 때문에 세분화되지 않을 수 있지만, 큰 회사일수록 세분화되어 직무를 뽑습니다. 관련 내용은 유투브에 찾아보시면 더 자세히 알아볼 수 있습니다.
데이터 분석 과정은 아래와 같이 구분해볼 수 있습니다.
1. 데이터 분석가 :
분석 주제 발굴, 가설 수립, 샘플링 및 정제, 결과 해석의 업무를 수행하고 필요한 역량은 아래와 같습니다.
* 필요 역량
1) 통계 지식
2) Mathematics
3) R, 파이썬, 엑셀 등의 분석 툴 활용
4) Business Knowledge
5) 커뮤니케이션 역량(리포트, 글쓰기, 데이터 시각화)
2. 데이터 엔지니어
프로세스 설계, 시스템 개발, 운영 적용 및 모니터링, 분석 데이터 수집, 샘플링 및 데이터 정제 작업을 수행하고, 필요 역량은 아래와 같습니다.
* 필요 역량 :
1) 컴퓨터 엔지니어링
2) 개발 능력
3) 데이터 저장 기술
4) 웹 등 시스템화 관련 기술
5) 데이터 수집 기술(빅데이터)
6) 분산 파일 시스템, 분산 컴퓨팅 등의 빅데이터 기술 요소 이해
7) 클라우드 기술
3. 데이터 사이언티스트 :
데이터 사이언티스트는 데이터 분석 능력뿐만 아니라 빅데이터 활용능력, 머신러닝을 활용한 분석 능력도 필요로 합니다.
* 필요 역량 :
1) Business Knowledge
2) 통계학 및 기계학습
3) 호기심
4) R, Python 등의 Programming skills
5) Big Data 기술 이해
6) 시각화
4. 현업에서의 데이터 분석 사례 : 공공데이터
공공데이터는 환경, 수출 등 무수히 많은 데이터가 축적되고 있고, data.go.kr과 같은 사이트에서 찾아볼 수 있습니다.
5. 현업에서의 데이터 분석 사례 : 제조업
제조업 데이터는 경우 변수 개수가 상당히 많습니다. 제조 공정별로 변수가 여러가지가 생성되기 때문에 중요 변수들을 잘 추출하여 분석하는 능력이 중요합니다.
1) 다중공선성 : 독립변수들간에 높은 선형관계가 존재하는 경우를 뜻하는 말로, 다중공선성이 높은 경우에는 변수를 적절히 제거할 필요가 있습니다.
2) 불균형 자료(예 : 양품 vs 불량 비율) : 대부분 제조업의 경우 불량 분석을 위해 빅데이터를 활용하는데, 양품의 비율이 불량의 비율보다 월등히 높습니다.(그렇지 않으면 이익이 나지 않겠죠?) 따라서 데이터의 불균형이 매우 심합니다.
5. 현업에서의 데이터 분석 사례 : 통신/마케팅
통신, 마케팅 분야에서는 데이터를 활용하여 아래와 같은 작업을 수행합니다.
1) 상품 추천
2) 영화 추천
3) 상권분석 및 매장분석
사용 알고리즘 :
연관규칙 알고리즘 : 특정 상품을 살때 어떤 상품을 같이 사는지 분석
협업필터링 : 비슷한 사람들을 분류하여 비슷한 마케팅 진행
6. 현업에서의 데이터 분석 사례 : 금융/보험
금융/보험 분야에서는 데이터를 활용하여 아래와 같은 작업을 수행합니다.
1) 고객이동경로분석
2) 신용평가
3) Fraud Detection System
4) 운전 습관을 통한 보험료율 책정/할인
5) 건강 관리를 통한 보험 할인
6) 보험 사기 방지
제약 사항 : 고객정보 공유 규제(유출 시 막대한 피해)
7. 현업에서의 데이터 분석 사례 : 헬스케어
금융/보험 분야에서는 데이터를 활용하여 아래와 같은 작업을 수행합니다.
1) 질병 감시/예측 서비스
2) 의료 빅데이터 및 AI : DNA, 진단정보, 의료차트 등을 활용한 예측 서비스 및 Computer Vision을 활용한 판정
빅데이터와 AI를 활용한 신약 후보물질 제안
이상 [데이터 분석 입문 : 올인원 패키지] 의 6주차 수강 후기를 마무리합니다.
'데이터 사이언스 > 패스트캠퍼스' 카테고리의 다른 글
[패스트캠퍼스 학습일지] 데이터분석 올인원 패키지 _ 8주차 : 고등학교 수학으로 이해하는 통계와 데이터 분석 (0) | 2019.11.02 |
---|---|
[패스트캠퍼스 학습일지] 데이터분석 올인원 패키지 _ 7주차 : 중학교 수학으로 이해하는 통계와 데이터 분석 (0) | 2019.10.22 |
[패스트캠퍼스 학습일지] 데이터분석 올인원 패키지 _ 5주차 : 데이터 엔지니어링 (0) | 2019.10.05 |
[패스트캠퍼스 학습일지] 데이터분석 올인원 패키지 _ 4주차 : 딥러닝 (0) | 2019.10.01 |
[패스트캠퍼스 학습일지] 데이터분석 올인원 패키지 _ 3주차 : 머신 러닝 (0) | 2019.09.25 |