본문 바로가기

전체 글

(11)
4. 샘플데이터로 전체를 예측할 수 있는가? 데이터사이언스의 목적은 확보한 데이터를 통해서 현상에 대한 더 나은 이해를 하거나 패턴을 발견해 모르는 데이터를 예측하고자 하는 것이므로, 예측을 확신하기 위해 필요한 표본의 수가 몇 개인가는 매우 중요한 문제이다. 전수조사의 문제점 모집단을 파악하는 가장 정확한 방법은 빠짐없이 전수 조사하는 것이다. 예를 들어 아이돌그룹의 댄스 곡과 발라드중 무엇을 좋아할지 궁금하다면 대한민국 5200만명 모두에게 일일이 물어보면 가장 확실한 답을 얻을 수 있다. 그러나 전수조사에는 막대한 비용이 소요된다. 전수조사의 대표격인 선거 비용을 보자면 중앙선거관리위원회 발표에 따르면 지방 선거 1호의 제반비용은 6200억원으로 관리비용만 약 1229억원에 달한다. 아이돌그룹의 타이틀 곳을 잘 정해서 얻는 수익보다 조사 비용..
3. 탐색적 데이터 분석과 기술통계 데이터분석이란, 데이터를 효율적으로 요약하는 기술이다. 어떤 데이터를 얻으면, 일단 데이터를 숫자로 요약한 후, 도출된 숫자에서 인사이트를 얻어내는 것이라 할수 있다. => 즉 데이터의 특징을 쉽게 파악할 수 있도록 요약할 필요가 있다. 탐색적 데이터분석 => 분석을 위해 데이터를 수집해 어떤 특징을 살펴보는 작업을 탐색적 데이터 분석이라 하며, 이를 위한 데이터 요약 기술을 기술통계라 한다. 탐색적 데이터분석이란 확증적 데이터 분석과 대조적으로 가설도 없고,모형도 없이 데이터를 있는 그대로 관찰하는 기법이다. => 정리하자면, 탐색적 데이터분석이란, 데이터를 취합한 이후 이를 다양한 각도에서 관찰하고 이해하는 과정을 말하는데, 데이터 분석을 진행할 때 그래프나 통계적인 방법으로 자료를 직관적으로 관찰해..
2. 데이터 분석 프로세스와 데이터 취합 *데이터 분석 프로세스 1. 문제정의 - 가장 먼저 데이터 분석의 목적을 정하고 문제를 정의한다. 단순히 데이터를 많이 확보했다고해서 가치있는 결론은 불가하다. - 정확한 목적과 문제를 정의하는 과정이 필요하다. (무엇을 알고 싶은지,무엇을 예상하고자 하는지, 어떤 사실을 파악하고 싶은지,뭘하고 싶은지 등이다.) 2. 데이터수집 + 데이터전처리 - 데이터 분석의 목적이 정해지면, 그에 적합한 현실세계를 데이터로 모델링하고 원하는 데이터를 수집한다. 내일 날씨를 알고 싶으면 일주일 전후의 날씨나 일년전 해당 일의 날씨 관련 데이터를 수집하는 식이다. 이후 데이터전처리 과정을 거친다. 데이터전처리란 쉽게말해,데이터를 한번더 가공 및 수정하여 조금더 값진 데이터로 표현하는과정이라 할수있다. 팁) 1. 데이터 ..