추론: 추론이란 이미 알려진 몇 가지 정보(전체)를 근거 삼아 새로운 판단(결론)을 이끌어 내는 것이다.
데이터 사이언스의 목적은 더 나은 의사결정이다. 즉, 알고 있는 부분적인 데이터에서 패턴을 발견해 모르고 있는 전체에 적용할 수 있을지 판단함으로써 지혜로운 결론을 도출해낼 수 있는 것이다.
"거의 대부분 ~이다" 를 어떻게 처리하는가에 따라 통계적 추론 방법은 네이만-피어슨의 가설 검정과 베이즈 추론의 2가지로 구분된다.
=> 네이만-피어슨은 "~박스의 대부분이 A이다"를 "물음표 상자는 A이다"라고 단정짓는다.
즉, 10퍼센트의 틀릴확률은 버리고 90퍼센트의 확률로 단정짓는것이다. 즉 이게 훨씬 설득력 있는 명제가 될수 있기 때문이다.
=> 베이즈 추론은 '사전 확률 -> 조건부 확룰 -> 관측에 의한 입수 -> 사후확률 ' 단계를 거처 결론을 도출하는 방식이다.
단지 A와 단지 B를 판단하기 위한 사전확률은 특정 정보가 없는 상황에서는 '이유 불충분의 원리'를 적용해서 각각 50%의 확률을 설정한다.
베이즈 추론의 문제 해결방식은 '네이만-피어슨 통계학의 가설검정의 유의수준(P-value)설정이 없으므로 어떤 환경에서든 일단 추론을 하는 것이 가능하다는 강점이 있다.' 그렇지만 네이만-피어슨 식과 같이 A와 B어느 한쪽으로 판정을 내리는 것이 아니라 양쪽의 가능성을 남겨둔 채 그 가능성의 비율 관계만을 제시하는것이 전부다.
*네이만 피어슨 가설검정방법에는 => 대량의 데이터로 명확한 결론을 도출하려는 학술,연구등에 적용.
*적은 데이터로 시작해 점차 향상된 결과를 얻어 나가는 기계학습등에는 베이즈 추론이 많이 활용.
귀무가설과 대립가설
가설 검정이란 이처럼 표본에서 얻은 사실을 근거로 하여 모집단에 대한 기설이 맞는지 틀리는지 통계적으로 검증하는 분석방법이다.
이때 채택하고 싶은 새로운 가설을 대립가설(Ha),폐기하고자 하는 기존 가설을 귀무가설(H0)라 한다.
쉽게 말해서 사람들이 보편족으로 믿고 있는 기존의 사실을 귀무가설이라 한다. 예를들어 마치 '봄이 가면 여름이 온다','많이 먹고 잠만 자면 살찐다' 등이 있다. 이떄 귀무가설의 특징은 귀무가설은 모집단에 두드러진 특성이 없다는 내용을 주로 다룬다. 그러므로 "A와B는 관계가 없다","A와 B는 차이가 없다. 등의 형식으로 표현한다.
하지만 떄로는 이러한 귀무가설에서 예외적인 사건이 발생할수 있다. 불치병이라 알려졌던 병이 치료약이 생겨버린것이다. 이처럼 치료법이 생겨버리는 경우를 대립가설이라 한다. 통계학에서는 대립가설을 귀무가설이 거짓이라면 대안적으로 참이 되는 가설이라 정의한다.
즉, 당신이 표본집단에서 새롭게 발견한 어떤 특성이 모집단에도 적용된다는 주장이 대립가설이다.
그러므로 대립가설은 귀무가설의 반대로, "A와B는 관계가 있다","A와B는 차이가 있다"등으로 서술한다.
=> 귀무가설과 대립가설을 세웠다면, 이제 선택을 해야한다. 이를 가설검정 이라고 한다.
'데이터사이언스 > 데이터사이언스 입문' 카테고리의 다른 글
7. 유의수준과 유의확률 (0) | 2024.04.22 |
---|---|
6. 가설 검정의 원리 (0) | 2024.04.21 |
4. 샘플데이터로 전체를 예측할 수 있는가? (2) | 2024.04.20 |
3. 탐색적 데이터 분석과 기술통계 (2) | 2024.04.19 |
2. 데이터 분석 프로세스와 데이터 취합 (0) | 2024.04.19 |