가치투자 프로젝트 (1) Data Gathering

2020. 3. 10. 23:00

살아가면서 큰 돈을 만지려면 투자 혹은 창업! 두 가지 방법밖에 없다고 생각합니다.

[투자 공부 + 코딩 공부]를 위해 투자 프로젝트를 아래와 같이 3가지 단계로 시작해봅니다.

1. Data Gathering

1. 데이터 종류

1.1) 회사 데이터

가) 회사명(완료)

나) 종목코드(완료)

다) 산업군(완료)

1.2) 일별 KOSPI 데이터 :

1.3) 일별 시장지표 :

1.4) KOSPI 기업들 재무제표

1.5) 일별 미국 증시 데이터 : To Be Updated

2. 수집 방법

1. 라이브러리 : Data Gathering에 사용한 라이브러리는 다음과 같습니다.

[FinanceDataReader, pandas_datareader, pymysql, requests, BeautifulSoup, selenium]

1) FinanceDataReader(fdr) : 일반적인 금융 데이터를 수집한다.

https://financedata.github.io/posts/finance-data-reader-users-guide.html

FinanceDataReader 사용자 안내서

financedata.github.io

2) pandas_datareader(pdr) : 일반적인 금융 데이터를 수집한다.

https://pandas-datareader.readthedocs.io/en/latest/

pandas-datareader — pandas-datareader 0.8.0+4.gec799a0 documentation

Usage Starting in 0.19.0, pandas no longer supports pandas.io.data or pandas.io.wb, so you must replace your imports from pandas.io with those from pandas_datareader: from pandas.io import data, wb # becomes from pandas_datareader import data, wb Many func

pandas-datareader.readthedocs.io

3) pymysql : mysql 서버를 python을 활용하여 접근한다.(수집한 정보를 Local MYSQL 서버에 저장한다.)

4) requests : 일반적으로 크롤링에 사용되는 라이브러리, 웹페이지에 요청을 보내고 응답을 받는다.

5) BeautifulSoup : 일반적으로 크롤링에 사용되는 라이브러리, requests를 통해 받은 응답을 정제한다.

6) selenium : requests로 크롤링이 불가능한 경우(ex : click이 필요할 때) 사용한다.

회사 정보, KOSPI, 시장지표 대부분 데이터는 FinanceDataReader, pandas_datareader를 사용하면 데이터를 얻을 수 있습니다. 사용법은 위의 Reference를 참고하시기 바랍니다.

2. 크롤링 :

fdr, pdr을 통해 구할 수 없는 일부 데이터(ex : 원유 가격, 재무제표)등을 구하기 위한 방법입니다. 웹페이지에서 직접 정보를 모으는 것을 말하며, requests, BeautifulSoup, selenium 라이브러리를 활용합니다.

2. 관계형 데이터베이스에 저장 :

MYSQL을 사용하여 관계형 데이터베이스에 저장합니다.(추후 클라우드로 이동 가능)

3. 분석

데이터 수집이 완료되면 자동화시킨 후 클라우드 상에서 분석을 진행할 예정입니다.-!

'토이 프로젝트' 카테고리의 다른 글

[Step 1] 교통망 시각화하기 (0)	2018.07.27

매일 성장하는 블로그