데이터 분석 - 통계

카테고리 없음

데이터 분석 - 통계

박지강(Data_2기) 2024. 6. 10. 22:40

01. 데이터의 종류

데이터의 종류를 분류해야 하는 이유 : 데이터의 생김새에 따라 시각화, 해석, 통계모델 결정에 중요한 역할을 하기 때문

데이터 종류	개념	예시
수치형	숫자를 이용해 표현할 수 있는 데이터 이산형, 연속형을 모두 포함하는 개념	체중, 신장, 사고건수, 일 방문자 수
연속형	일정 범위 안에서 어떤 값이든 취할 수 있는 데이터	체중, 신장
이산형	횟수와 값은 정수형 값만 취할 수 있는 데이터 즉, 소수점의 의미가 없는 데이터를 의미(수치형 데이터와의 차이점)	사고건수, 일 방문자수
범주형	가능한 범주 안의 값만을 취하는 데이터 = 값이 달라짐에 따라 좋거나 나쁘다고 할 수 없는 데이터 = 명목형 이진형, 순서형을 모두 포함하는 개념	나라, 도시, 혈액형 성별, 성곡여부 등수
이진형	두개의 값만을 가지는 범주형 데이터의 특수한 경우 0 ,1 예/아니오 참/거짓	성별 성여부
순서형	값들 사이에 분명한 순위가 있는 데이터	등수

데이터 종류

02. 편차, 분산, 표준편차, 표본분포

테이블의 각 컬럼들은 모두 다른 값을 가지게 된다.

테이블이 주어졌을 때 이를 살펴보는 가장 기초적인 단계는 각 컬럼의 '대표값'(평균, 중앙값, 최빈값)을 구하는 것

평균 : 모든 값의 총 합을 개수로 나눈 값. df['column'].mean()
중간값 : 데이터 중 가운데 위치한 값. df['column'].median ()
최빈값 : 데이터 중 가장 많이 도출된 값. df['column'].mode ()

두 그래프의 평균은 같다.

편차, 분산, 표준편차

평균, 중간값, 최빈값 : WHERE = (어디에 존재하는가)

분산, 편차 : HOW = (어떻게 존재하는가)

편차 : 하나의 값에서 평균을 뺀 값 = 평균으로부터 얼마나 떨어져 있는지를 의미

- A 학생의 영어점수: 30점
- B 학생의 영어점수: 70점
- C 학생의 영어점수: 80점
- A,B,C 학생의 평균 영어점수: 60점

> A 학생의 편차: -30
> B 학생의 편차: +10
> C 학생의 편차: +20

학생 전체의 편차를 나타내기 위해 각 학생들의 편차를 모두 더하게 되면 0이 나오게 됩니다.
따라서 편차로는 반 전체의 점수 분포를 정확히 알 수가 없기에 나온 개념이 분산입니다.

분산 : 편차의 합이 0으로 나오는 것을 방지하기 위해 생성된 개념 = 편차 제곱합의 평균

- A 학생의 편차 제곱: (-30)^2 = 900
- B 학생의 편차 제곱: (+10)^2 = 100
- C 학생의 편차 제곱: (+20)^2 = 400 

> 편차 제곱합: 1400
> 편차 제곱합의 평균(분산): 1400/3 = 466 

분산은 466이 도출되었습니다. 그러나 점수라는 값에 제곱이 들어가며(점수에 제곱..!)
그 단위가 달라지게되었어요. 실제 데이터가 어느정도로 차이가 있는 지 알기 어렵게 되었습니다. 
이를 해결하기 위해 도입된 개념이 표준편차입니다.

표준편차 : 분산에 제곱근을 씌워준 값. (= 원래 단위로 되돌리기)
```
- 분산: 466
- 분산의 제곱근 = 표준편차 = 약 21.6 이 되겠습니다.
```
반 전체의 영어점수가 약 20만큼 퍼져있다(분산) 라고 해석

모집단, 표본, 표본분포

모집단 : 어떤 데이터 집합을 구성하는 전체 대상
표본 : 모집단 중 일부, 모집단의 부분집합

표본분포 : 표본의 분포. 표본이 흩어져 있는 정도. 표본통계량으로부터 얻은 도수분포
- 표본평균의 분포 : 모집단에서 여러 표본을 추출하고 각 표본의 평균을 계산한다면, 이는 중심극한정리에 따라 정규분포에 가까워진다. 이는 표본의 크기가 충분히 크다면 어떤 분포에서도 표본 평균이 정규분포를 따른다는 의미
- 표본분산의 분포 : 모집단에서 여러 표본을 추출하고 각 표본의 분산을 계산한다면, 이 표본분산들의 분포는 카이제곱 분포를 따른다. 모집단이 정규분포를 따를 때 보다 높게 성립
표준오차 : 표본의 표준편차 = 표본평균의 평균과 모평균의 차이

아래 개념을 바탕으로 통계적 해석 진행

도수 : 특정 구간에 발생한 값의 수
상대도수 : 특정도수를 전체 도수로 나눈 비율
도수분포표 : 각 값에 대한 도수와 상대도수를 나타내는 표
히스토그램 : 도수분포표를 활용하여 만든 막대그래프
임의표본추출 : 무작위로 표본을 추출하는 것
편향 : 한쪽으로 치우쳐저 있음
도수분포표 만들기(선택)

순서	내용
1	최댓값, 최솟값 계산
2	최댓값, 최솟값을 포함하여 데이터를 특정 범위(계급)으로 나눔
3	각 계급을 대표하는 수치(계급값) 정하기
4	각 계급에 포함된 데이터 개수(도수)를 카운트
5	각 계급의 도수가 전체에서 차치하는 비율(상대도수)을 계산
6	특정 계급까지의 도수를 모두 합한다. (누적도수)

03. 정규분포, 신뢰구간

정규분포

표본 선정 후 무수히 많은 경우의 수를 평균내어 모은 종 모양의 분

정규분포 특징

분포는 좌우 대칭의 형태이며 평균치에서 그 확률이 높다.
곡선은 각 확률값을 나타내며, 모두 더하면 1이 된다.
- (동전을 뒤집어서 앞면이 나올 확률은 2분의 1 + 뒷면이 나올 확률 2분의 1 = 전체 확률 1)
정규분포는 평균과 분산(퍼진정도)에 따라 다른 형태를 가진다.
평균 0, 분산 1을 가지는 경우, 이를 표준정규분포라고 한다. (붉은색 그래프)

표준정규분포를 학습해야 하는 이유

그래프 아래쪽의 영역은 모두 확률이다.(전체 경우의 수 중 어떠한 사건이 일어날 경우의 수)
각각의 그래프는 평균과 분산값에 따랄 다르게 그려질 수 있다.
이러한 경우, 확률을 계산할 때 어려움을 겪게 된다.
이를 통일하기 위해 분포의 평균과 분산 값을 통일하는 작업을 하게 되는데, 이를 표준화라고 한다.
표준화 공식 : 확률변수 x에서 평균m을 빼고 표준편차로 나누기
데이터분석시 표준화가 필요한 경우 : 머신러닝 모델을 만들 때, 데이터의 범위가 많이 차이나는 경우
- 최근 일주일 접속일수의 1과 결재금액의 1은 같은 의미를 가지지 않는다.
- 하지만 머신러닝에서 해당 값의 의미를 같게 받아들이고 처리할 수 있으며, 범위가 큰 데이터의 경우 숫자가 가지는 절대치를 잘못 받아들일 수 있어 표준화는 반드시 필요하다.

신뢰구간, 신뢰수준

모든 데이터는 표본을 추출하는 순간 불확실성을 가진다.

모집단 전체를 사용하지 않는 한, 결과가 한끗차이도 나지 않기는 어렵다.

신뢰구간 : 특정 범위 내에 값이 존재할것으로 예측되는 영역
- (점수가 10점에서 90점 사이일 것 같다.)
신뢰수준 : 실제 모수를 추정하는데 몇 퍼센트의 확률로 신뢰구간이 실제 모수를 포함하게 되는 확률. 주로 95%와 99%이용
- (점수가 10점에서 90점 사이일때 분포할 확률이 95%같다.)