반응형

1. Normal Distribution

 

- Unimodal(단봉형)

- Symmetric(대칭)

 

정규분포 그래프는 N(μ,σ)를 만족하며 μ는 평균, σ는 표준편차인 그래프를 의미합니다.

정규분포를 그리는 그래프에서는 아래 그림과 같이 평균을 기준으로 (1 * σ) 범위 내에는 68%의 데이터가 존재하고, 

(2 * σ) 범위 내에는 95%의 데이터가, (3 * σ 범위) 내에는 99.7%의 데이터가 존재합니다.

2. Standardizing with Z scores

  Z score란 관측치에서 평균을 뺀 뒤 표준편차로 나눈 것으로, 관측치가 평균에서 얼마나 떨어져있는지 표준편차를 사용하여 확인하는 방법입니다. |Z| > 2 * σ라면 이상 관측치로 분류할 수 있습니다.

Z = (observation - mean) / standard deviation

 

3. percentile : percentage of observations that falls below a given data point

 

4. Normal Probability Plot

Normal Probability Plot은 오른쪽 그래프와 같이 데이터의 분포가 정규분포를 얼마나 따르는지 확인할 수 있는 그래프입니다. 데이터의 분포가 정규분포를 만족할수록 그래프는 직선에 가깝게 됩니다. x축은 theoretical quantile, y축은 관측치입니다.

위의 그림과 같이, Normal Probability Plot을 통해 그래프의 분포도를 유추해볼 수 있습니다.

 

5. Binomial Distribution 

 : the binomial distribution describes the probability of having exactly k successes in n independent Bernouilli trials with probability of success p

 

- Mean and Standard Deviation of binomial distribution : 

-Bernoulli random variable : when an individual trial has only two possible outcomes.

 

6. Normal approximation to binomial 

 : as samples size increases, the binomial distribution looks much similar to the normal distribution. 

  이 특성을 사용하여, 큰  sample size의 binomial distribution에 대해 normal distribution에 사용하는 방법과 마찬가지로 percentile을 구할 수 있다. 이 sample size의 크기는 아래와 같은 조건을 만족할 때 Normal Distribution과 같은 방법을 사용할 수 있다.

 

* 이 때 0.5정도의 관측치 조정을 통하여 정확한 값을 구할 수 있다.(70이상의 값은 70을 정확히 포함하지 않으므로 0.5를 빼서 Z score를 구한다.)

 

 

- Binomial Conditions : 

  1) The trials must be independent

  2) the number of trials, n, must be fixed

  3) each trial outcome must be classified as a success or a failure

  4) the probability of success, p, must be the same for each trial

반응형

+ Recent posts