가설검정원리를 다시 잘 살펴보자. "검정색 상자가 사실은 B인데 A라고 잘못 판단할 가능성이 매우 낮다면, 검정색 상자를 A라고 해도 괜찮다."그런데 잘못 판단할 가능성이 매우 낮다는 건 얼마나 낮아야 하는걸까? 이를 정하는 것이 바로 "유의수준과유의확률" 이다.
예를들어 카네스블랙은 카네스블랙이 축구경기를 생중계로 보면 대한민국팀은 상대팀과의 10번의 경기중 3.3은 이기고 3.3은 지고 3.3은 무승부라는 귀무가설이 되며, 카네스블랙과 같이 생중계로 축구를 보면 무조건 대한민국 팀이 진다 라는 친구의 가설은 대립가설이 된다.
나는 귀무가설의 주장이 사실임을 증명하고 싶다. '내 주장이 사실은 참인데도 불구하고 거짓으로 잘못 판단될 가능성'을 따져봐야한다.
=> 이를 통계학에서는 유의확률이라 한다. 흔히 유의확률을 (P값)이라 부른다.
*유의확률 P값은 잘못된 판단을 내릴 확률이므로 작을수록 좋다. P값(유의확률)이 높은지 낮은지 평가할 절대적이 기준은 없다.
가설을 검정할 때 무시하고 넘어갈 수 있는 "P값의 최대치는 얼마인가 정하는 것을 유의수준" 이라한다. 유의수준은 보통 알파(a)로 표기한다.
그러므로 유의성 검정은 유의확률 P값과 유의수준 알파(a) 중 어느쪽이 더 큰가를 비교하는 것이다.
유의 확률과 유의 수준을 비교해 결론 내린다.
P값 > a => 귀무가설이 기각(귀무가설 참)이 성립한다.
P값 < a => 대립가설이 참이 성립한다.
보통 사회(현실)에서는 유의수준 5%를 가장 많이 사용한다.
'데이터사이언스 > 데이터사이언스 입문' 카테고리의 다른 글
6. 가설 검정의 원리 (0) | 2024.04.21 |
---|---|
5. 가설 수립과 유의성 검정 (0) | 2024.04.21 |
4. 샘플데이터로 전체를 예측할 수 있는가? (2) | 2024.04.20 |
3. 탐색적 데이터 분석과 기술통계 (2) | 2024.04.19 |
2. 데이터 분석 프로세스와 데이터 취합 (0) | 2024.04.19 |