데이터분석이란, 데이터를 효율적으로 요약하는 기술이다. 어떤 데이터를 얻으면, 일단 데이터를 숫자로 요약한 후, 도출된 숫자에서 인사이트를 얻어내는 것이라 할수 있다.
=> 즉 데이터의 특징을 쉽게 파악할 수 있도록 요약할 필요가 있다.
- 탐색적 데이터분석 => 분석을 위해 데이터를 수집해 어떤 특징을 살펴보는 작업을 탐색적 데이터 분석이라 하며, 이를 위한 데이터 요약 기술을 기술통계라 한다.
- 탐색적 데이터분석이란 확증적 데이터 분석과 대조적으로 가설도 없고,모형도 없이 데이터를 있는 그대로 관찰하는 기법이다.
=> 정리하자면, 탐색적 데이터분석이란, 데이터를 취합한 이후 이를 다양한 각도에서 관찰하고 이해하는 과정을 말하는데, 데이터 분석을 진행할 때 그래프나 통계적인 방법으로 자료를 직관적으로 관찰해나가는 과정을 가리킨다. 요즘에는 비교적 틀에 박힌 변수와 형태가 아닌 비정형적인 빅데이터를 다루는 경우가 많아졌다. 고로, 다방면으로 활용할 수 있는 자료의 형태가 다양해지고 자료의 양이 급증함에 때라 데이터를 다양한 시가으로 보는 탐색적 데이터 분석이 중요해지고 있다.
EDA(탐색적 데이터분석)로 무엇을, 어떻게 알 수 있는가?
데이터의 분포 및 값을 다각도로 관찰하면 데이터가 표현하는 현상을 더 잘 이해할수 있고, 데이터에 숨어있는 잠재적인 문제가 드러나기도 한다.
이떄 탐색적 데이터 분석은 모든 데이터 분석 프로젝트에서 반드시 거쳐야하는 필수 단계이다.
탐색적 데이터 분석을 할때 어떤 질문을 던져야 하는지 정해진 규칙은 없다. 드러나 데이터에서 어떤 사실을 발견하려면,
다음 두 질문을 자주 반복하는것이 좋다.
데이터 세트의 변수들에 어떤 변화가 발생하는가?
데이터 세트의 변수들에 어떤 공변이 발생하는가?
EDA는 값과 그림으로 모아보고 쪼개보는 반복작업이다.
탐색적 데이터 분석은 한 번에 완벽하게 끝나는 일회석 작업이 아니다. 반복적으로 데이터를 요약하고 시각화하는 방식으로 데이터를 탐구하는 순환작업이다.
해당 질문의 답을 찾는 과정에서 많이 쓰이는 도구는 요약표,그래프,요약 통계등이다. 즉 데이터를 값과 그림으로 표현하며,모아서 보기도 하고 쪼개서 보기도 하는 것이다.
그렇다면 데이터의 속성을 나타내는 대표적인 요약값으로는 평균,최소값,최대값,사분위,이상치 등이 있다.
떄로는 우리가 예상하지 못한 이상치등이 나타날수도 있다. 쉽게 예상되는 일반적인 값이 아닌 특이한 데이터가 나타나는 이유를 살피는 과정에서 새로운 질문이 만들어질 수도 있기 때문이다. 이상치를 찾아내려면 개별적인 데이터를 관찰한 후 통계값으로 요약해보고,시각화한다.
개별적인 데이터를 관찰했다면 적절한 요약 통계지표를 활용해 이상치를 탐색한다. 데이터세트의 중심을 알기 위해서는 평균값,중앙값,최빈값 등을 활용한다.
데이터들이 흩어져있는 정도인 분산도를 알기 위해서는 범위와 분산을 사용한다. 이러한 통계지표를 이용할때는 데이터의 특성에 주의를 기울여야한다.
대표적인 예가 평균값과 중앙값이다. 평균값에는 데이터세트의 모든 데이터가 반영되기 때문에 만약 데이터세트에 이상치가 포함되어 있다면,이상치의 영향을 받는다. 이와 달리 중앙값은 데이터 세트의 한가운데 자리 잡은 값을 가리키므로 데이터 세트에 이상치가 있어도 별다른 영향을 받지 않는다.
통계량
데이터를 값으로 요약하는 기술통계량은 크게 4가지로 분류한다.
첫째는 데이터세트의 중심이 어디인지 가리키는 중심 경향성이다. 평균값,중앙값,최빈값 등이 *중심경향성 통계량 이다. 즉 데이터세트의 데이터 대부분이 어디에 몰려있는지,어느 값이 빈번히 나타나는지, 정가운데 값은 무엇인지 등을 나타내므로 일상 생활에도 많이 활용된다.
두번째 기술통계량은 데이터의 흩어져 있는 정도를 설명하는 *산포도 이다. 최댓값과 최솟값은 가장 큰 데이터와 가장 작은 데이터를 나타내며,범위는 데이터가 분포할 수 있는 전체 영역을 말해준다. 범위 내에서 데이터가 전반적으로 어떻게 흩어져 있는지,얼마나 변화하는지를 나타내기 위해 분산,표준편차,표준오차등이 쓰인다.
세번째 기술통계량은 분포의 형태이다. 중심경향성과 산포도를 이용하면 데이터의 중심이 어디인지와 데이터가 중심으로부터 어느정도 흩어져 있는지를 알수있다. 그러나 이런 통계량으로는 각 데이터가 중심을 기준으로 어느쪽으로 쏠려있는지 등은 파악되지 않는다. 이를 해결하기 위해 *첨도 와 *왜도 를 활용한다. 첨도는 데이터분포의 뽀족한 정도를 나타내며, 왜도는 데이터가 얼마나 한 쪽으로 치우쳐 있는지를 나타낸다.
네번째 기술통계량은 백분위수이다. 백분위수는 데이터를 정렬했을 떄 백분율로 나타낸 특정 위치의 값을 말한다.
차트
데이터의 분포나 산포도 등을 통계량으로 표현할 수도 있다. 그러나 변수가 상관관계를 파악하는 등 데이터를 직관적으로 이해하려면,그림으로 표현하는것이 매
우 효과적이다. 많이 쓰이는 몇 가지 차트를 살펴보자.
꺾은선형 그래프
시간의 흐름에 따라 달라지는 데이터 트렌드를 추적하는데 가장 많이 쓰이는 차트는 *꺾은선형 그래프 이다. 꺽은선 그래프는 시간의 흐름에 떄라 데이터가 오르락 내리락 하는 추이를 한눈에 알아볼 수 있는 유용한 차트이다.
그러나 꺾은선형은 한 범주의 값 변화 추세를 파악하거나 동일한 범주의 값 변화를 비교하는 데는 유용할지 몰라도, 값을 구성하는 속성을 다양하게 표현하기는 어렵다. 이를 보완하기 위해 영역형 또는 막대형 차트를 활용하기도 한다.
히스토그램
데이터가 범위 내에 얼마나 흩어져 있는지 효과적으로 보여주기 위해 많이 사용하는 방법은 히스토그램이다.
분산과 표준편차는 변동성을 가리킨다.
일단 먼저 표준편차란 통계분석에서 무엇을 의미하는지 알아보자.
6시30분에 오는 1대의 버스
매 6시30분마다 오는 버스가 있다고 가정해보자.
월요일에 카네스블랙은 버스정류장에 도착했는데 버스를 타지 못했다. 열받은 카네스블랙은 가 다음주에 버스도착시간을 관찰해서 다음과 같은 데이터를 확보했다.
[버스도착시간 데이터]
월 - 32(단위:분)
화 - 27(단위:분)
수 - 29(단위:분)
목 - 34(단위:분)
금 - 33(단위:분)
이에대한 평균값은 '총합/관찰빈도'로 155/5 = 31분이된다.
편차는 '평균-관측값'으로 다음과 같이 도출된다.
31-32 = -1
31-27 = 4
31-29 = 2
31-34 = -3
31-33 = -2
편차는 반드시 음수와 양수 값이 혼재하게 되며 더하면 0이 되는 특성을 갖는다.
따라서 값을 비교하기 위해서는 부호 통일이 필요하며 이를 위해 편차를 제곱하는 방식을 취한다.
편차의 제곱값은 아래와 같이 구해진다.
1(단위:분의제곱)
16
4
9
4
여기서 **분산이란 편차 제곱의 평균 을 의미하며 이 데이터의 경우 아래와 같이 구해진다.
34/5=6.8(단위:분의제곱)
분산이란, 관찰된 데이터가 서로 떨어진 정도를 나타내는데, 기준값으로 사용하는 평균과 함께 비교하기는 어렵다.
그 이유는 평균의 데이터단위는 '분'을 사용하고 있는데,분산에서 사용하는 데이터 단위는 '분의 제곱'이 되기 때문이다.
따라서, **계산된 분산값을 평균과 동일한 데이터 단위로 환원시킬 필요가 있는데, 그 역할을 담당하는 것이 바로 표준편차이다.
표준편차는 분산에 대해 제곱근을 적용하는 것으로 이제 다시 데이터 단위가 '분'으로 한원되기 때문에 평균과 직접 비교를 할수 있게 된다.
'데이터사이언스 > 데이터사이언스 입문' 카테고리의 다른 글
6. 가설 검정의 원리 (0) | 2024.04.21 |
---|---|
5. 가설 수립과 유의성 검정 (0) | 2024.04.21 |
4. 샘플데이터로 전체를 예측할 수 있는가? (2) | 2024.04.20 |
2. 데이터 분석 프로세스와 데이터 취합 (0) | 2024.04.19 |
1. 데이터사이언스의 이해 (1) | 2024.04.19 |