반응형

패스트캠퍼스 학습일지 3주차입니다. 4주차의 내용과 상당히 많이 겹쳐있는데 왜 나누어져있는지 잘 모르겠네요.

 

[머신 러닝]

 : 컴퓨터가 데이터를 학습하는 알고리즘과 기술의 통칭

 

1. 지도학습(Supervised Learning)

 : 입력 데이터(X)와 타겟값(Y)를 알고 있는 데이터를 학습하여, 이들의 관계를 모델링하는 방법

 

지도학습은 타겟변수(Y)의 형태에 따라 두 가지로 나뉠 수 있다.

1) 분류(Classification)

 : 타겟변수 Y가 불연속형 변수(Discrete Variable)인 경우, 입력값(X)이 주어질 때 해당 입력값이 해당되는 클래스(Y)를 예측한다.

 

ex) 스팸 메일 분류, 얼굴 인식


2) 회귀(Regression)


 : 타겟변수 Y가 연속형 변수(Continuous Variable)인 경우 입력값 x가 주어질 때 해당 입력값과 매칭되는 Y값을 예측한다.

ex) 주가 예측

 


2. 비지도학습


 : 타겟값(Y)이 없는 입력 데이터만이 주어질 때 학습하는 방법(입력 데이터에 내재되어 있는 특성을 찾아내는 용도)

1) 군집화(Clustering) : 유사한 포인트들끼리 그룹을 만드는 방법
2) 잠재 변수 모델(Latent Variable Model) : 표현된 데이터 속에 내재되어 있는 요인을 찾는 것
ex) 주성분 분석, 특이값 분해, 비음수 행렬 분해, 잠재 디리슐레 할당....
3) 밀도 추정(Density Estimation)
 : 관측된 데이터를 이용하여 데이터 생성에 대한 확률밀도함수를 추정
4) 이상치 탐지
- 사진 넣기
5) 인공신경망 기반 비지도학습(ex : GAN)


3. 강화학습

 

 : 자신이 한 행동에 대한 "보상"을 바탕으로 목적을 달성하는 학습


4. 인공신경망과 딥러닝


1) 신경망 모델(Neural Networks) : 인간의 뉴런의 작동방식을 모방하여 만든 머신러닝 기법 중 하나의 부류

 

5. 파라미터와 하이퍼파라미터

* 파라미터 : 모델의 구성요소이자 데이터로부터 학습되는 것 ex)가중치, ..
* 하이퍼파라미터 : 모델 학습 과정에 반영되며, 학습을 시작하기 전에 미리 값을 결정하는 것
ex) 노드의 수, 학습률 ...


6. 손실함수(Loss Function)


 : 학습 알고리즘이 작동하게끔 하는 원동력, 손실함수의 결과값을 줄여나가는 것이 모델의 목표
ex) 교차 엔트로피, 평균 제곱 오차


7. 학습, 검증/개발, 테스트 셋

한정된 데이터를 학습/검증/테스트에 모두 활용하기 위하여 데이터셋을 아래와 같이 나누어 개발을 진행합니다.


* 학습 셋 (Training set) : 모델의 학습 과정에 사용, 파라미터 추정을 위해 소모됨
* 검증/개발 셋(Validation / Development Set) : 학습 과정에서 하이퍼파라미터를 튜닝하는데 사용
* 테스트 셋 : 생성된 모델의 예측 성능 평가

주어진 데이터를 위와 같은 셋들로 나눠야하는데 나누는 방법은 매우 다양하다.
ex) 3-way holdout, 교차 검증
 : 고려해야 할 사항 -> 데이터 수가 충분한가? Training, Validation, Test Data set의 데이터분포가 모두 동일한가?

이상 간단한 [데이터분석 - 인공지능 - 3주차] 복습이었습니다.

반응형
반응형

 

데이터분석 올인원 패키지 _ 2주차 학습 내용을 공유합니다.

이번주에 학습한 내용은 기초 통계에 관한 내용입니다. 데이터 분석은 아래 사진과 같이 여러 학문 분야의 스킬셋을 필요로 합니다. 데이터를 처리하고 분석할 수 있는 소프트웨어 스킬셋, 목적을 세우고 그에 맞게 분석 계획을 수립할 수 있는 통계학적 지식, 데이터에 대한 배경 및 전문지식을 필요로 합니다. 데이터 사이언스분야의 공부를 위한 학습 목록들을 찾아보면, 파이썬/R 코딩, 통계학, 선형대수학과 같은 과목들을 필수적으로 추천하고 있는 것을 볼 수 있습니다.

 

데이터 분석라는 분야는 기존에도 존재했지만, 데이터가 점점 더 방대해지고 인공지능과 같은 새로운 분석기법들이 등장함에 따라 더 주목받고 있습니다. 그래서 데이터 사이언티스트들의 학력을 보면 통계학과, 컴퓨터사이언스 출신이 대부분이라고 합니다.

우선 이번주에는 간단한 기초 통계에 대해 학습한 내용을 복습해 보겠습니다.

[ 기초 통계학 ]

1. 기술통계 : 수집한 자료를 분석하여 대상들의 속성을 파악하는 통계방법

 

​* 여기서 말하는 기술의 의미는 아래와 같습니다.

(1) 넓은 의미로는 사물 혹은 대상의 특징을 조직적으로 밝혀 나타내는 것. (2) 좁은 의미로는 오직 경험적 사실의 특징으로 나타나는 것들을 관련지어 단정적으로 묘사하는 것.

 

* 중심경향값 : 전체 자료를 대표하는 수치

- 평균(mean) :

http://blog.naver.com/PostList.nhn?blogId=freewheel3

- 중앙값(median) : 최대값과 최소값의 정가운데 수치

- 최빈값(mode) : 가장 많은 빈도를 보이는 자료값

* 분산도 : 전체 자료가 얼마나 퍼져있는지 설명하는 수치

- 분산 :

http://blog.naver.com/PostList.nhn?blogId=freewheel3

- 표준편차 :

http://blog.naver.com/PostList.nhn?blogId=freewheel3

* 상관계수 : 두 변수 간 선형적 관계의 크기(1에 가까울수록 양의 상관관계가 크고, -1에 가까울수록 음의 상관관계가 크다.)

* 회귀계수 : 독립변수(원인)이 종속변수(결과)에 미치는 영향의 크기

2. 추리통계 : 모집단에서 표본을 추출하고 표본의 기술통계를 통해 모집단의 특성을 추측하는 것

표본의 기술통계를 통해 모집단의 특성을 추측했을 때, 이 추측이 100% 맞진 않습니다. 따라서 우리는 신뢰구간이란 것을 정하여, 모집단의 특성이 표본을 통해 얻은 추측 범위 안에 들어갈 구간과 그 구간 안에 모집단이 들어갈 확률을 구합니다.

- 신뢰구간 : 추리통계에서 예측한 모집단의 특성이 위치할 가능성이 높은 구간

- 신뢰수준 : 신뢰구간에 모집단의 특성이 위치할 확률

[ 모집단과 표본 ]

1. 모집단 : 연구 또는 분석의 전체 집단

* 모집단은 실시간으로 변하는 경우도 있어 모집단 전수 조사는 매우 어렵다.

2. 표본 : 모집단에서 추출한 일부로, 모집단의 속성들을 유추하는데 사용된다.

* 변동 : 표본평균과 모평균의 차이

* 모집단과 표본은 평균/분산/표준편차를 구하는 방식이 다릅니다.

3. 표본추출방법 :

1) 확률표본추출방법 : 모집단에서 무작위로 표본을 추출하는 방법

2) 비확률표본추출방법 : 조사자의 편의나 판단에 의해 표본을 추출하는 방법

* 비확률표본추출방법에는 층화추출법 등 다양한 방법이 있습니다. 표본 추출 시에 편향된 표본을 고르는 것이 아닌지 항상 의심해봐야 합니다.

* 대수의 법칙 : 추출된 표본의 수가 무한대에 가까워질수록 표본평균은 모평균으로 근사한다는 법칙입니다. 자세한 내용은 아래의 링크를 참고하시기 바랍니다.

https://blog.naver.com/vnf3751/220836087225

* 표본의 크기는 얼마나 커야 모집단을 대표할 수 있는가?

→ 중심극한정리(https://blog.naver.com/vnf3751/220844235862)에 의하면

→ " 표본이 30 이상으로 충분히 클 때 "

1) 모집단의 분포와 상관없이 표본은 정규분포를 따른다.

2) 모집단의 평균과 표본의 평균은 같다.

3) 표본의 분산 = 모집단의 분산 / 표본의 수

* 자유도

: 평균을 유지하면서 자유롭게 어떠한 값도 가질 수 있는 사례의 수(표본의 수 -1)

모집단의 평균이 4이고, 표본의 크기는 5라고 하자.

모집단과 표본의 평균을 같게 해주려면, 임의의 4개의 표본을 뽑고 나서 마지막 하나의 표본은 평균을 맞춰주기 위한 값을 뽑아야 한다. 이것을 자유도라고 한다.

[ 척도 ]

1. 척도의 원칙

1) 포괄성

2) 상호배타성

* 비연속형 변수

- 명목척도 : 상호배타적인 특성만을 가진 척도 ex) 남/여

- 서열척도 : 명목척도 중 항목들 사이에 서열이나 순위가 존재하는 척도 ex) 언론에서 발표하는 대학 순위

* 연속형 변수

- 등간척도 : 서열척도들 중 항목들 간의 간격이 일정한 척도 ex) 섭씨온도 : 섭씨 0도는 열이 없는 상태가 아니기 때문에 섭씨온도는 등간척도이다.

- 비율척도 : 등간척도 중 아무것도 없는 상태를 0으로 정할 수 있는 척도 ex) 무게

* 데이터 표현 방법

 

1) 도수분포표 : 특정 항목 또는 범위에 속하는 빈도수를 나타낸 표

2) 막대그래프 : 비연속형 변수에 사용되는 그래프, 항목별 빈도수를 나타냄

3) 히스토그램 : 연속형 변수에 사용되는 그래프

4) 선그래프 : 히스토그램의 끝 부분을 선으로 연결한 그래프

5. 공분산과 상관계수

 

1) 공분산 : 두 변수가 함께 각자의 평균으로부터 멀어지는 정도

→ 한 변수가 자신의 평균으로부터 멀어질 때 다른 변수가 자신의 평균으로부터 멀어지는 정도를 의미한다.

​ex) 한 변수가 증가할 때, 다른 변수도 증가하는가? 증가한다면 공분산은 양수, 감소한다면 공분산은 음수가 된다.

2) 상관계수 : 하나의 변수가 변화함에 따라 다른 변수가 변화하는 정도

* 상관계수는 선형적인 관계만을 수치화할 수 있고 비선형적인 관계는 수치화할 수 없다. 따라서 비선형적인 관계를 가지는 경우는 상관계수가 아닌 다른 방법으로 두 변수간의 관계를 파악해야 한다.

6. 가설과 신뢰수준/유의확률

1) 귀무가설(영가설) : 연구가설과 반대되는 가설, 실제 분석이 이루어지는 가설

2) 대립가설(연구가설) : 분석을 통해서 알아보고자 하는 내용으로 이루어진 가설

- 귀무가설은 하나의 통계값으로 나타낼 수 있어야 하며 귀무가설 과 대립가설은 동시에 참/거짓일 수 없다.

* 유의확률(p-value) : 실제로는 귀무가설이 참임에도 통계분석을 통해 귀무가설을 거짓으로 판단할 가능성 : 실제 현상을 반영하지 못할 가능성

* 신뢰수준 : 실제로 귀무가설이 참일 때, 통계분석을 통해 귀무가설을 채택할 가능성 : 실제 현상에서 발생하지 않는 대립가정을 기각할 가능성

7. 양측 검증과 단측 검증

1) 양측 검증 : 방향성을 고려하지 않은 채로 대립가설을 설정할 때 사용하는 검증방법

2) 단측 검증 : 방향성을 고려하여 대립가설을 설정(크다/작다)

 

양측 검증보다는 단측 검증일 경우에 대립가설이 채택될 가능성이 높다.

8. t분석(집단간의 평균 차이 분석) - https://blog.naver.com/PostView.nhn?blogId=vnf3751&logNo=220838283162

: 독립변수(원인)이 비연속형 변수이고, 종속변수(결과)가 연속형 변수일 때 두 집단간의 평균을 비교하는 검정,

독립변수의 집단이 2개 이하일 때 사용하는 분석방법이며, t분포를 사용한다. 회귀분석에서 각 계수들이 유의미한지 파악하는데 사용한다..?

 

* 다중공선성 : 회귀분석에서 사용되는 설명변수들이 서로 독립이 아니고 서로 영향을 미칠 때 데이터 분석에 부정적인 영향을 미치는 현상 → 변수들 각각의 설명력이 약해진다.

1) 일표본 t-분석

: 하나의 모집단에서 표본을 추출할 때 사용되는 분석으로 표본의 평균이 예측한 특정 수치와 같은지 다른지를 검증하는 방법

2) 독립표본 t-분석(두 집단의 분산이 동일한지 여부에 따라 유의확률 계산식이 달라지므로 두 집단의 분산 일치 여부도 중요하다.)

: 두개의 모집단에서 각각의 표본을 추출할 때 두 집단의 평균이 서로 같은지/다른지를 검증하는 방법

3) 대응표본 t-분석

: 하나의 모집단에서 표본을 추출하지만, 같은 표본에게 두 번의 측정이 이루어질 때 사용

9. 분산분석(ANOVA)

: 독립변수가 비연속형 변수이고, 종속변수가 연속형 변수일 때 사용하는 분석방법으로, 독립변수의 집단이 3개 이상일 때 사용한다. f-분포를 사용하여 분석한다.

* 원리 : 집단 간 분산과 집단 내 분산을 통해 분석 :

- 집단 간 분산 > 집단 내 분산 : 집단간 차이가 있음

- 집단 간 분산 < 집단 내 분산 : 집단간 차이가 크지 않음

- 실제 분석은 집단 간 분산 / 집단 내 분산을 활용한다.

- 1way ANOVA : 독립변수 1개, 종속변수 1개

- 2way ANOVA : 독립변수 2개, 종속변수 1개

- 3way ANOVA : 독립변수 3개, 종속변수 1개

- ANCOVA : 독립변수 1개, 종속변수 1개, 통제변수 1개 이상

- MANOVA : 독립변수 1개, 종속변수 2개 이상

- MANCOVA : 독립변수 1개, 종속변수 2개 이상, 통제변수 1개 이상

10. 회귀분석

- 독립변수와 종속변수가 모두 연속형 변수일 때 사용하는 분석방법.

귀무가설 : 독립변수가 종속변수에 미치는 영향의 크기는 0이다.

대립가설 :

1) 양측검증 : 독립변수가 종속변수에 미치는 영향의 크기는 0이 아니다.

2) 단측검증 : 독립변수가 종속변수에 미치는 영향의 크기는 0보다 크다(혹은 작다.)

특징 )

- 여러 개의 독립변수를 포함할 수 있다.

- 여러 독립변수들을 포함하는 경우에는 서로 통제되어 자신의 독자적인 영향력으로 계산한다.

* 설명량(R^2) :

- 독립변수들에 의해서 설명되어지는 종속변수의 분산

- 설명량이 증가할수록 회귀식에서 설명되어지지 못하는 오차는 감소

- 증가된 설명량을 활용하여 독립변수의 포함 여부를 결정한다.

11. 로지스틱 회귀분석

독립변수가 연속형 변수이고, 종속변수가 비연속형 변수인 경우 분석방법

-Odd Ratio : 수식 넣기 (p : 특정 사건이 발생할 확률)

- 기존 로지스틱 회귀분석에서 y = b0 + b1x였다면 y 부분에 ln(Odd Ratio)가 들어간다.

b1 > 0 : 특정 사건이 발생하지 않을 확률보다 발생할 확률이 높다는 의미.

b1 < 0 : 특정 사건이 발생하지 않을 확률이 발생할 확률보다 높다는 의미

* 모형적합도 : 모형이 적절하게 만들어졌는지를 보여주는 지표

12. 조절효과와 매개효과

1) 조절효과

: 독립변수가 종속변수에 미치는 형향이 조절변수에 의해서 달라지는지를 알아보는 분석방법

2) 매개효과

: 독립변수와 종속변수 간의 인과관계 이외에도 매개변수를 통한 간접적인 인과관계가 존재하는지를 알아보는 분석방법

- 부분매개모형

​- 완전매개모형

13. 구조방정식 모형(매개효과에 특화)

: 구조모형과 측정모형을 함께 고려하는 분석방법, 확인적 요인분석과 매개효과 분석에 주로 활용.

- 구조모형 : 변수들 간의 관계를 밝히는 모형

- 측정모형 : 각 변수와 이를 측정하는 문항들간의 관계를 밝히는 모형

- 확인적 요인분석 : 측정문항들의 타당도를 알아보기 위한 분석으로 구조방정식 중 측정모형만을 분석하는 방법

14. 다수준분석 : 독립변수와 종속변수의 수준이 다른 경우, 독립변수와 종속변수는 개인수준이지만 조절변수의 수준이 다른 경우의 분석(복잡한 사회현상에 대해 분석)

단일수준분석 : 모든 변수가 하나의 수준으로 이루어진 경우

ex) 집단의 응집성이 집단의 성과에 어떤 영향을 미치는가(집단수준 내에서의 분석), 개인의 동기가 개인의 성과에 어떤 영향을 미치는가(개인수준 내에서의 분석)

 

반응형
반응형

패스트 캠퍼스의 [올인원 패키지 : 데이터 분석 입문] - 10주차 학습과정을 시작했습니다.

미션을 완료하면 수강료를 돌려준다는 말에 혹해서 결제해버렸습니다.. 

 

[올인원 패키지 : 데이터 분석 입문] 강의는 아래와 같은 6개의 Course로 이루어져 있습니다.

#1. 우리는 왜 데이터분석을 배워야할까?(5강)

#2. 알면 쓸모있는 데이터 잡학사전(50강)

#3. 나도 데이터 분석을 할 수 있을까?(11강)

#4. 중학교 수학으로 이해하는 통계와 데이터분석(24강)

#5. 고등학교 수학으로 이해하는 통계와 데이터분석(17강)

#6. 혼자 해보는 데이터분석(6강)

 

10주동안 매주 학습한 내용을 업로드 할 예정이며, 이번주 학습한 내용은 [Course 1] 우리는 왜 데이터 분석을 배워야 할까? 입니다.

[Course 1] 우리는 왜 데이터 분석을 배워야 할까?

데이터 분석의 이유, 목적 및 과정에 대해 간단히 요약한 Course였습니다.

1. 데이터 분석의 필요성 : 기술이 발전할수록 쌓여가는 데이터의 양은 급증하고 있지만, 데이터 자체는 유용한 가치가 없다. 데이터를 분석하여 그 결과를 활용하면 데이터 기반의 의사결정을 통한 불확실한 미래에 대한 대비가 가능하다.

2. 데이터 분석 과정: 데이터 분석은 소속 집단/ 분석 대상의 특성 / 분석 목표 등에 따라 절차와 방법이 다양하다. 공통적으로 포함되는 과정은 아래와 같다.

(1) 분석 목표 설정 : 데이터를 분석하는 목적을 설정한다.

(2) 데이터 수집: 분석에 필요한 데이터를 다양한 경로를 통해 수집한다.

데이터의 종류 : 내부 데이터, 외부 데이터, 직접 수집한 데이터

(3) 데이터 가공 : 분석 목적에 맞게 데이터를 활용하기 위해 데이터의 형태를 변환한다.

(4) 데이터 분석 : 분석을 반복하고, 피드백을 통해 개선한다.

(4.1) 탐색적 데이터 분석(Exploratory Data Analysis)

- 변수, 변수간의 관계 등 데이터 자체의 특성을 분석

(4.2) 확증적 데이터 분석(Confirmatory Data Analysis)

- 미리 설정한 가설을 확인하기 위한 분석

- 추정(estimation)과 검정(test)을 활용

(5) 분석결과 공유 : 분석 목적에 맞는 효과를 얻기 위해 그래프/표 등을 활용하여 분석결과를 시각화하여 공유한다.

 

Course1의 내용을 간단히 정리해보았습니다. 탐색적 데이터 분석/ 확증적 데이터 분석 빼고는 이해하는데 어려운 내용은 없었습니다. 전반적인 데이터 분석 과정을 소개하는 내용이었으며, 이상 1주차 학습내용을 마무리하겠습니다.

반응형
반응형

이번엔 스택/큐의 쇠막대기 문제 풀이입니다.(사실 저는 문제를 풀지 못했습니다..)

 

스택/큐에 관한 간단한 소개와 코드 설명입니다.

 


* Stack과 Queue

1) Stack : LIFO의 데이터 구조, 이름 그대로 데이터를 순서대로 쌓는다. 데이터를 추출(삭제)할 때는 맨 위에서부터(마지막에 들어간 데이터) 뽑는다.


2) Queue : FIFO의 데이터 구조, 한쪽에서는 데이터의 삽입만, 한쪽에서는 데이터의 추출(삭제)만 가능하다.

 

https://gohighbrow.com/stacks-and-queues/

 

 

문제 링크 : https://programmers.co.kr/learn/courses/30/lessons/42585

 

코딩테스트 연습 - 쇠막대기 | 프로그래머스

여러 개의 쇠막대기를 레이저로 절단하려고 합니다. 효율적인 작업을 위해서 쇠막대기를 아래에서 위로 겹쳐 놓고, 레이저를 위에서 수직으로 발사하여 쇠막대기들을 자릅니다. 쇠막대기와 레이저의 배치는 다음 조건을 만족합니다. - 쇠막대기는 자신보다 긴 쇠막대기 위에만 놓일 수 있습니다. - 쇠막대기를 다른 쇠막대기 위에 놓는 경우 완전히 포함되도록 놓되, 끝점은 겹치지 않도록 놓습니다. - 각 쇠막대기를 자르는 레이저는 적어도 하나 존재합니다. - 레이저는 어

programmers.co.kr

저의 접근 방식은 아래와 같습니다.

# 목표 : 주어지는 String의 처음부터 끝까지 각 괄호의 짝을 찾고, 그 안의 레이저 수를 구해서 쪼개지는 막대기의 수를 구한다.

 

# 방법 : 

1. 레이저를 의미하는 '()'는 모두 '.'으로 replace한다.

2. 막대기의 시작을 의미하는 '('를 찾고, 시작과 Match되는 막대기의 끝 ')' 을 찾는다. 

3. 막대기의 시작과 끝 사이의 레이저 수를 세서 쪼개지는 막대기의 수를 구한다.

→ 2,3번의 기능을 하는 것이 count_pieces()함수입니다.

4. 쪼개진 막대기의 총합(count)을 구한다.

 

결과적으로 테스트 케이스 20개 중에서 19개는 성공했지만, 1번은 통과하지 못했습니다. 도저히 이유를 모르겠어서 답을 보고 말았는데, 아직도 안되는 이유는 잘 모르겠습니다. 신박한 답들이 많으나 꼭 자신만의 답을 찾아보시면 좋을 것 같습니다!(저는 못했..)

반응형
반응형

1. Normal Distribution

 

- Unimodal(단봉형)

- Symmetric(대칭)

 

정규분포 그래프는 N(μ,σ)를 만족하며 μ는 평균, σ는 표준편차인 그래프를 의미합니다.

정규분포를 그리는 그래프에서는 아래 그림과 같이 평균을 기준으로 (1 * σ) 범위 내에는 68%의 데이터가 존재하고, 

(2 * σ) 범위 내에는 95%의 데이터가, (3 * σ 범위) 내에는 99.7%의 데이터가 존재합니다.

2. Standardizing with Z scores

  Z score란 관측치에서 평균을 뺀 뒤 표준편차로 나눈 것으로, 관측치가 평균에서 얼마나 떨어져있는지 표준편차를 사용하여 확인하는 방법입니다. |Z| > 2 * σ라면 이상 관측치로 분류할 수 있습니다.

Z = (observation - mean) / standard deviation

 

3. percentile : percentage of observations that falls below a given data point

 

4. Normal Probability Plot

Normal Probability Plot은 오른쪽 그래프와 같이 데이터의 분포가 정규분포를 얼마나 따르는지 확인할 수 있는 그래프입니다. 데이터의 분포가 정규분포를 만족할수록 그래프는 직선에 가깝게 됩니다. x축은 theoretical quantile, y축은 관측치입니다.

위의 그림과 같이, Normal Probability Plot을 통해 그래프의 분포도를 유추해볼 수 있습니다.

 

5. Binomial Distribution 

 : the binomial distribution describes the probability of having exactly k successes in n independent Bernouilli trials with probability of success p

 

- Mean and Standard Deviation of binomial distribution : 

-Bernoulli random variable : when an individual trial has only two possible outcomes.

 

6. Normal approximation to binomial 

 : as samples size increases, the binomial distribution looks much similar to the normal distribution. 

  이 특성을 사용하여, 큰  sample size의 binomial distribution에 대해 normal distribution에 사용하는 방법과 마찬가지로 percentile을 구할 수 있다. 이 sample size의 크기는 아래와 같은 조건을 만족할 때 Normal Distribution과 같은 방법을 사용할 수 있다.

 

* 이 때 0.5정도의 관측치 조정을 통하여 정확한 값을 구할 수 있다.(70이상의 값은 70을 정확히 포함하지 않으므로 0.5를 빼서 Z score를 구한다.)

 

 

- Binomial Conditions : 

  1) The trials must be independent

  2) the number of trials, n, must be fixed

  3) each trial outcome must be classified as a success or a failure

  4) the probability of success, p, must be the same for each trial

반응형
반응형

streak은 연속으로 골을 성공시킨 횟수를 의미합니다. hit입니다.

 

0개의 streak은 hit이 하나도 없을 때 miss가 발생했다는 의미입니다.

 

> Shortest streak의 length는 0인 것을 확인할 수 있습니다.

 

 

위의 그래프를 보면 어느정도 분포가 비슷한 것을 확인할 수 있습니다.

 

반응형
반응형

Video 1 - Introduction

Overlap and Preview

 

Video 2 - Disjoint Events + General Addition Rule

 

1. Disjoint/Non Disjoint Events

  Disjoint Events : both cases cannot happen at the same time(ex: tail and head)

  Non Disjoint Events : cases that can happen at the same time

 

2. General Addition Rule

  P(A∪B) = P(A) + P(B) - P(A∩B) (For disjoint events, P(A∩B) = 0)

 

3. Sample Space : a collection of all possible outcomes of a trial

 

4. Probability Distributions : 

 

5. Complementory events : Disjoint Event + all Probability of events adds up to 1

  

Video 3 - independence

 

independence : two processes are independent if knowing the outcome of one provides no useful information of an outcome of the other.

* Checking for independence : If P(A|B) = P(A), A and B are independent

 

If A and B are independent, P(A∩B) = P(A) * P(B)

 

disjoint & independent :

1) disjoint : cannot happen at the same time → P(A∩B) = 0

2) independent : knowing the outcome of one provides no useful information about the other → P(A|B) = P(A)

 

Video 4 - marginal, joint, conditional probability

 

Bayes' Rule : If A has occured, the probability of B occur is given as below.

P(A|B) = P(A∩B) / P(B)

* 여기서 P(B)가 0인 경우는 어떻게 되는가?

so, by changing the formula a little bit, we can make a new general multiplication rule.

P(A∩B) = P(A|B) * P(B)

 

Video 5 - Probability Trees

 

* It is effecient to use probability trees when considering conditional probabilities.

 

posterior probability vs p-value

반응형
반응형

> sfo_feb_flights <- nycflights %>%
+ filter(dest == 'SFO', month == 2)
> dim(sfo_feb_flights)
[1] 68 16

 

 

> ggplot(data = sfo_feb_flights, aes(x = arr_delay))+
+ geom_histogram(bins = 50)

-> 



> nycflights %>%
+   group_by(month) %>%
+   summarise(mean_dd = mean(dep_delay)) %>%
+   arrange(desc(mean_dd))
# A tibble: 12 x 2
   month mean_dd
      
 1     7   20.8 
 2     6   20.4 
 3    12   17.4 
 4     4   14.6 
 5     3   13.5 
 6     5   13.3 
 7     8   12.6 
 8     2   10.7 
 9     1   10.2 
10     9    6.87
11    11    6.10
12    10    5.88

 

 

> nycflights %>%
+ group_by(month)%>%
+ summarise(median = median(dep_delay))%>%
+ arrange(desc(median))
# A tibble: 12 x 2
   month median
     
 1    12      1
 2     6      0
 3     7      0
 4     3     -1
 5     5     -1
 6     8     -1
 7     1     -2
 8     2     -2
 9     4     -2
10    11     -2
11     9     -3
12    10     -3

 

 

 

nycflights <- nycflights %>%

mutate(avg_spd = 60 * distance / air_time)

 

nycflights %>%

select(tailnum, avg_spd) %>%

arrange(desc(avg_spd))

 

      tailnum  avg_spd
1    N666DN 703.3846

 

반응형

+ Recent posts