본문 바로가기

전체 글

(11)
7. 유의수준과 유의확률 가설검정원리를 다시 잘 살펴보자. "검정색 상자가 사실은 B인데 A라고 잘못 판단할 가능성이 매우 낮다면, 검정색 상자를 A라고 해도 괜찮다."그런데 잘못 판단할 가능성이 매우 낮다는 건 얼마나 낮아야 하는걸까? 이를 정하는 것이 바로 "유의수준과유의확률" 이다. 예를들어 카네스블랙은 카네스블랙이 축구경기를 생중계로 보면 대한민국팀은 상대팀과의 10번의 경기중 3.3은 이기고 3.3은 지고 3.3은 무승부라는 귀무가설이 되며, 카네스블랙과 같이 생중계로 축구를 보면 무조건 대한민국 팀이 진다 라는 친구의 가설은 대립가설이 된다. 나는 귀무가설의 주장이 사실임을 증명하고 싶다. '내 주장이 사실은 참인데도 불구하고 거짓으로 잘못 판단될 가능성'을 따져봐야한다. => 이를 통계학에서는 유의확률이라 한다. 흔..
6. 가설 검정의 원리 앞서 가설 검정이란, 귀무가설과 대립가설을 세웠다면 이제 수집한 표본 데이터를 바탕으로 귀무가설을 채택할지 대립가설을 채택할지 판단한다. 이를 가설검정이라한다. 그렇다면 가설 검정을 시도하는 이유는 무엇일까? 그 이유는 새로운 사실을 발견하였기 때문이다. 즉, 다시 말해 표본데이터를 분석해보니 뭔가 새로운 패턴이 발견되었을 때 우리는 "포본에서 발견된 패턴이 모집단에도 적용될 것이다"라는 대립가설을 세우게 된다. "대립가설이 옳다고 증명하는 것은 매우 어렵다. 하지만, 귀무가설이 틀렸다고 주장하는 것은 쉽다. 즉 "나의 새로운 발견(대립가설)이 틀렸다는 주장(귀무가설)은 틀리다."를 입증하는 절차가 바로 가설 검정이다. 그러므로 직접 가설검정의 대상이 되는 갓은 바로 귀무가설이다. 그렇다면 귀무가설을 어..
5. 가설 수립과 유의성 검정 추론: 추론이란 이미 알려진 몇 가지 정보(전체)를 근거 삼아 새로운 판단(결론)을 이끌어 내는 것이다. 데이터 사이언스의 목적은 더 나은 의사결정이다. 즉, 알고 있는 부분적인 데이터에서 패턴을 발견해 모르고 있는 전체에 적용할 수 있을지 판단함으로써 지혜로운 결론을 도출해낼 수 있는 것이다. "거의 대부분 ~이다" 를 어떻게 처리하는가에 따라 통계적 추론 방법은 네이만-피어슨의 가설 검정과 베이즈 추론의 2가지로 구분된다. => 네이만-피어슨은 "~박스의 대부분이 A이다"를 "물음표 상자는 A이다"라고 단정짓는다. 즉, 10퍼센트의 틀릴확률은 버리고 90퍼센트의 확률로 단정짓는것이다. 즉 이게 훨씬 설득력 있는 명제가 될수 있기 때문이다. => 베이즈 추론은 '사전 확률 -> 조건부 확룰 -> 관측에..