본문 바로가기

데이터사이언스/데이터사이언스 입문

4. 샘플데이터로 전체를 예측할 수 있는가?

데이터사이언스의 목적은 확보한 데이터를 통해서 현상에 대한 더 나은 이해를 하거나 패턴을 발견해 모르는 데이터를 예측하고자 하는 것이므로, 예측을 확신하기 위해 필요한 표본의 수가 몇 개인가는 매우 중요한 문제이다.

전수조사의 문제점

모집단을 파악하는 가장 정확한 방법은 빠짐없이 전수 조사하는 것이다. 예를 들어 아이돌그룹의 댄스 곡과 발라드중 무엇을 좋아할지 궁금하다면 대한민국 5200만명 모두에게 일일이 물어보면 가장 확실한 답을 얻을 수 있다.

그러나 전수조사에는 막대한 비용이 소요된다. 전수조사의 대표격인 선거 비용을 보자면 중앙선거관리위원회 발표에 따르면 지방 선거 1호의 제반비용은 6200억원으로 관리비용만 약 1229억원에 달한다. 아이돌그룹의 타이틀 곳을 잘 정해서 얻는 수익보다 조사 비용이 더 커지는, 배보다 배꼽이 더 큰 상황이다.

이러한 전수조사의 문제점을 해결하기 위해서,
수많은 현실상황에서는 표본데이터를 토대로 모집단을 추측하는 것이 여러모로 편리하고 효율적인 방법이다. 다만, 이를 위해 몇개의 표본이 필요한가,어떤 표본이 필요한가가 중요하다.

몬테카를로 동전 실험과 표본오차

몬테카를르 방법을 한 마디로 요약하면 무작위 추출 실험을 엄청나게 많이 반복해 결과의 확률적 분포를 알아내는 것이다. 보통 몬테카를로 방법은 실험 비용인 너무 커서 반복하기 어렵거나 불확실성이 너무 크거나 미래 예측의 해석상의 약점을 극복하기 어려운 경우 등 여러상황에서 몬테카를로 시뮬레이션이 매우 유용하다. 그 이유는 적합한 모델을 만들어 컴퓨터로 임의의 난수를 반복적으로 발생시키는 가상의 실험이 가능하고, 수 회 실험으로 믿을만한 확률분포를 얻을 수 있기 때문이다.

동전을 한 개 던지면 앞면 또는 뒷면이 나온다. 우리가 익히 알다시피 동전의 앞면이 나올 확률은 보통 50프로이고,뒷면이 나올 확률은 보통 50프로이다.
여기서 동전을 던지는 모든 경우의 수를 모집단이라 하자.

그런데, 실제로 동전을 던져보면 2회 던져 둘다 앞면이 나올수도 있고, 10회던져 앞면이 9번, 뒷면이 1번 나올수도있다.즉, 표본을 추출한 검사는 모집단의 분포를 정확히 따르지 않는 오류가 발생한다. 이를 표본오차라 한다.

표본오차를 줄이려면 어떻게 해야할까? 첫번째 해결책은 표본을 늘리는 것이다. 표본의 규모를 극대화해서 모집단 전체를 전수 검사하면 표본오차는 발생하지 않는다. => 하지만 시간과 비용이 많이 든다고 앞서 말했다.

두번째 방법은 표본 추출 횟수를 늘리는 것이다. 동전을 2회 던지면 모두 앞면만 나오기 십상이다. 하지만, 100000000000번 던져본다고 가정하자. 그러면,앞면과 뒤셤의 비율이 점차 50%에 가까워지는 현상을 볼수 있다.

표본을 늘릴 수 없다면 조사 횟수를 늘리면 된다. => 하지만 문제가 있다. 30000명 정도의 데이터가 필요한 전수조사에서, 100명씩 300회를 설문조사해서 데이터를 얻는다? 실상 불가하다. 고로 실제 의사결정에 도움을 받으려면 , 단 1번의 조사에 가장 적은 수의 표본을 추출하는 방안이 필요해진다.

중심 극한의 정리

이번에는 동전 10개를 한꺼번에 던져보자. 동전을 던져 앞면이 나올 확률은 50%이다. 그러므로 이론적으로는 동전 10개를 던졌을 떄 5개는 앞면,5개는 뒷면이 나올 것이다.

그런 실제로 던져보면 어떠한가?

몬테카를로 동전실험

실험 결과가 전부 다름을 알수 있다.

그렇다면 실험 횟루를 늘리면 어떻게 될까? 몬테카를로 시뮬레이션을 해보면 아래 그림처럼 점점 더 평균을 중심으로 좌우대칭의 종 모양을 이룬느 정규분포에 가까워진느 현상을 볼수 있다. 이처럼 추출한 표본의 추정값들이 만들어내는 분포를 표본분포라고한다.

*재미있는 사실은 모집단의 분포가 어떻든 표본들의 평균은 이처럼 정규분포를 나타낸다는 것이다. 예를들어 정육면체 주사위가 있다고 가정해보자!

1부터 6이 나올 확률분포는 평균 3.5,분산2.92이지만, 주사위를 10개씩 던져보면 평균 3.5를 중심으로 정규분포를 그린다. 이러한 현상을 중심극한의 정리한다.

중심 극한의 정리란 이처럼 모집단의 분포와 상관없이 표본평균은 정규분포를 이룬다는 사실을 가리킨다.

표준오차와 적정 표본 수

수많은 몬테카를로 실험을 통해 수학자들은 중심극한의 정리를 나타내기 위해 필요한 최소 표본의 크기를 *30개 이상 으로 확인하였다.
즉, 무한 모집단에서 1회에 30개 이상씩 표본을 추출하여 여러번 평균을 내면,표본평균들은 정규분포를 이루게 된다.
이 정규분포곡선의 중심값(표본평균의 평균)은 모집단의 평균과 같아지고, 곡선의 퍼진 정도(표본평균의 표준편차)는 표본이 많아질수록 점점 좁아진다.(표준오차가 줄어든다)


신뢰수준

모집단 90프로 95프로 99프로
100(단위:명) 74명 80 88
500 476 218 286
1000 215 278 400
10000 264 370 623
100000 270 383 660
1000000+ 271 384 664

 

 

표본오차와 비표본오차

 

표본오차: 표본오차란 자료 전체가 아니라 읿의 표본만 뽑아 조사했기 떄문에 발생하는 오차이다. 과학이든 사람이든 이 오차는 모든 상황에서 필연적으로 나타난다.

 

비표본오차: 비표본옻차는 표본오차를 제외하고 조사 과정 전체에서 발생하는 기타 모든 오차를 가리킨다.

 

그렇다면 해결방법은? 오차는 필연적이다.하지만 무작위추출을 함으로써 오차를 줄일수 있다.

 

보통 어떤종료의 데이터들이 적절한 표본인지 정리해놓은 근거피라미드가 있다.

근거피라미드는 위에있을수록 오차가 적고 데이터가 잘 가공된것이며,

아래에 있을수록 오차가 크고 데이터가 가공이 되지 않은것이다.