반응형

[1] 빅데이터 시대의 통계적 사고

  1. 통계적 추론 : 

    우리가 살고있는 세계는 복잡하며, 무작위적이고, 불확실하다. 우리의 삶은 데이터란 흔적을 남기게 되며 어떤 흔적을 습득하는가는 데이터 수집과 표본추출 방법에 의해 결정된다. 데이터를 추출하는 과정은 매우 주관적인 과정이며 현실세계에서 데이터를 추출하고, 역으로 다시 데이터를 현실세계에 반영하는 과정은 통계적 추론의 영역이다. 통계적 추론이란 확률 과정을 통해 생성된 데이터로부터 의미와 정보를 추출할 수 있도록 해 주는 절차, 방법, 혹은 법칙에 관심을 갖는 학문 분야이다.

 

  2. 모집단과 표본

    1) 모집단(N) : 통계적 관찰의 대상이 되는 집단 전체

    2) 표본(n) : 모집단에서 선택된 모집단 구성단위의 일부

 

  3. 빅데이터의 모집단과 표본

    빅데이터가 등장하며 표본조사 -> 전수조사로의 변환이 일어나고 있다. 이것이 'N = 전체'라는 가정을 성립하게 하는가? 아니다. 우리의 일상의 많은 부분이 데이터로 기록된다고 하지만 그렇지 않은 부분도 많이 있으며, 데이터는 객관적이지 않다.

  

  4. 모형화

    1. 모형은 단순하게 만드는 것이 좋다.

    2. 확률분포 : 현실세계의 측정 과정에서 반복적으로 나타나는 수학적 모양

    3. 과적합 : 모형이 표본 데이터 이상의 현실을 잘 포착해내지 못하는 현상

 

 

반응형

+ Recent posts