데이터사이언스/데이터사이언스 입문 (7) 썸네일형 리스트형 7. 유의수준과 유의확률 가설검정원리를 다시 잘 살펴보자. "검정색 상자가 사실은 B인데 A라고 잘못 판단할 가능성이 매우 낮다면, 검정색 상자를 A라고 해도 괜찮다."그런데 잘못 판단할 가능성이 매우 낮다는 건 얼마나 낮아야 하는걸까? 이를 정하는 것이 바로 "유의수준과유의확률" 이다. 예를들어 카네스블랙은 카네스블랙이 축구경기를 생중계로 보면 대한민국팀은 상대팀과의 10번의 경기중 3.3은 이기고 3.3은 지고 3.3은 무승부라는 귀무가설이 되며, 카네스블랙과 같이 생중계로 축구를 보면 무조건 대한민국 팀이 진다 라는 친구의 가설은 대립가설이 된다. 나는 귀무가설의 주장이 사실임을 증명하고 싶다. '내 주장이 사실은 참인데도 불구하고 거짓으로 잘못 판단될 가능성'을 따져봐야한다. => 이를 통계학에서는 유의확률이라 한다. 흔.. 6. 가설 검정의 원리 앞서 가설 검정이란, 귀무가설과 대립가설을 세웠다면 이제 수집한 표본 데이터를 바탕으로 귀무가설을 채택할지 대립가설을 채택할지 판단한다. 이를 가설검정이라한다. 그렇다면 가설 검정을 시도하는 이유는 무엇일까? 그 이유는 새로운 사실을 발견하였기 때문이다. 즉, 다시 말해 표본데이터를 분석해보니 뭔가 새로운 패턴이 발견되었을 때 우리는 "포본에서 발견된 패턴이 모집단에도 적용될 것이다"라는 대립가설을 세우게 된다. "대립가설이 옳다고 증명하는 것은 매우 어렵다. 하지만, 귀무가설이 틀렸다고 주장하는 것은 쉽다. 즉 "나의 새로운 발견(대립가설)이 틀렸다는 주장(귀무가설)은 틀리다."를 입증하는 절차가 바로 가설 검정이다. 그러므로 직접 가설검정의 대상이 되는 갓은 바로 귀무가설이다. 그렇다면 귀무가설을 어.. 5. 가설 수립과 유의성 검정 추론: 추론이란 이미 알려진 몇 가지 정보(전체)를 근거 삼아 새로운 판단(결론)을 이끌어 내는 것이다. 데이터 사이언스의 목적은 더 나은 의사결정이다. 즉, 알고 있는 부분적인 데이터에서 패턴을 발견해 모르고 있는 전체에 적용할 수 있을지 판단함으로써 지혜로운 결론을 도출해낼 수 있는 것이다. "거의 대부분 ~이다" 를 어떻게 처리하는가에 따라 통계적 추론 방법은 네이만-피어슨의 가설 검정과 베이즈 추론의 2가지로 구분된다. => 네이만-피어슨은 "~박스의 대부분이 A이다"를 "물음표 상자는 A이다"라고 단정짓는다. 즉, 10퍼센트의 틀릴확률은 버리고 90퍼센트의 확률로 단정짓는것이다. 즉 이게 훨씬 설득력 있는 명제가 될수 있기 때문이다. => 베이즈 추론은 '사전 확률 -> 조건부 확룰 -> 관측에.. 4. 샘플데이터로 전체를 예측할 수 있는가? 데이터사이언스의 목적은 확보한 데이터를 통해서 현상에 대한 더 나은 이해를 하거나 패턴을 발견해 모르는 데이터를 예측하고자 하는 것이므로, 예측을 확신하기 위해 필요한 표본의 수가 몇 개인가는 매우 중요한 문제이다. 전수조사의 문제점 모집단을 파악하는 가장 정확한 방법은 빠짐없이 전수 조사하는 것이다. 예를 들어 아이돌그룹의 댄스 곡과 발라드중 무엇을 좋아할지 궁금하다면 대한민국 5200만명 모두에게 일일이 물어보면 가장 확실한 답을 얻을 수 있다. 그러나 전수조사에는 막대한 비용이 소요된다. 전수조사의 대표격인 선거 비용을 보자면 중앙선거관리위원회 발표에 따르면 지방 선거 1호의 제반비용은 6200억원으로 관리비용만 약 1229억원에 달한다. 아이돌그룹의 타이틀 곳을 잘 정해서 얻는 수익보다 조사 비용.. 3. 탐색적 데이터 분석과 기술통계 데이터분석이란, 데이터를 효율적으로 요약하는 기술이다. 어떤 데이터를 얻으면, 일단 데이터를 숫자로 요약한 후, 도출된 숫자에서 인사이트를 얻어내는 것이라 할수 있다. => 즉 데이터의 특징을 쉽게 파악할 수 있도록 요약할 필요가 있다. 탐색적 데이터분석 => 분석을 위해 데이터를 수집해 어떤 특징을 살펴보는 작업을 탐색적 데이터 분석이라 하며, 이를 위한 데이터 요약 기술을 기술통계라 한다. 탐색적 데이터분석이란 확증적 데이터 분석과 대조적으로 가설도 없고,모형도 없이 데이터를 있는 그대로 관찰하는 기법이다. => 정리하자면, 탐색적 데이터분석이란, 데이터를 취합한 이후 이를 다양한 각도에서 관찰하고 이해하는 과정을 말하는데, 데이터 분석을 진행할 때 그래프나 통계적인 방법으로 자료를 직관적으로 관찰해.. 2. 데이터 분석 프로세스와 데이터 취합 *데이터 분석 프로세스 1. 문제정의 - 가장 먼저 데이터 분석의 목적을 정하고 문제를 정의한다. 단순히 데이터를 많이 확보했다고해서 가치있는 결론은 불가하다. - 정확한 목적과 문제를 정의하는 과정이 필요하다. (무엇을 알고 싶은지,무엇을 예상하고자 하는지, 어떤 사실을 파악하고 싶은지,뭘하고 싶은지 등이다.) 2. 데이터수집 + 데이터전처리 - 데이터 분석의 목적이 정해지면, 그에 적합한 현실세계를 데이터로 모델링하고 원하는 데이터를 수집한다. 내일 날씨를 알고 싶으면 일주일 전후의 날씨나 일년전 해당 일의 날씨 관련 데이터를 수집하는 식이다. 이후 데이터전처리 과정을 거친다. 데이터전처리란 쉽게말해,데이터를 한번더 가공 및 수정하여 조금더 값진 데이터로 표현하는과정이라 할수있다. 팁) 1. 데이터 .. 1. 데이터사이언스의 이해 데이터 분석의 목적은 더 나은 의사 결정이다. 데이터분석은 한 마디로 정의하면 "데이터의 패턴을 파악해 미래를 예측하고,이로써 유리한 의사결정을 하기 위한 일련의 과정"이라 할 수 있다. 여기서 우리는 "데이터의 패턴을 파악해" 라는 문장에 집중하자. 데이터의 패턴을 파악하기 위해서는 기본적으로 해당 데이터가 일종의 규칙적인 패턴을 가지고 있어야한다. 또한, 데이터들의 패턴이 존재하기 위해서는 일정한 패턴이 형성되기위한 최소한의 정해진 데이터들이 존재해야한다. 대표적인것으로, 대한민국 서울시 강남구의 미혼여성 수와 미혼남성 수 그리고 해당 미혼여성 수와 미혼남성 수를 통한 결혼 및 연애 패턴등을 파악할수 있을것이다. 그렇다면 데이터의 종류에는 뭐가 있을까? 데이터의 종류에는 범주형변수(질적변수) 와 연속.. 이전 1 다음