카테고리 없음
데이터 분석 - 통계
박지강(Data_2기)
2024. 6. 10. 22:40
01. 데이터의 종류
더보기

데이터 종류
데이터의 종류를 분류해야 하는 이유 : 데이터의 생김새에 따라 시각화, 해석, 통계모델 결정에 중요한 역할을 하기 때문
데이터 종류 | 개념 | 예시 |
수치형 | 숫자를 이용해 표현할 수 있는 데이터 이산형, 연속형을 모두 포함하는 개념 |
체중, 신장, 사고건수, 일 방문자 수 |
연속형 | 일정 범위 안에서 어떤 값이든 취할 수 있는 데이터 | 체중, 신장 |
이산형 | 횟수와 값은 정수형 값만 취할 수 있는 데이터 즉, 소수점의 의미가 없는 데이터를 의미(수치형 데이터와의 차이점) |
사고건수, 일 방문자수 |
범주형 | 가능한 범주 안의 값만을 취하는 데이터 = 값이 달라짐에 따라 좋거나 나쁘다고 할 수 없는 데이터 = 명목형 이진형, 순서형을 모두 포함하는 개념 |
나라, 도시, 혈액형 성별, 성곡여부 등수 |
이진형 | 두개의 값만을 가지는 범주형 데이터의 특수한 경우 0 ,1 예/아니오 참/거짓 |
성별 성여부 |
순서형 | 값들 사이에 분명한 순위가 있는 데이터 | 등수 |

02. 편차, 분산, 표준편차, 표본분포
테이블의 각 컬럼들은 모두 다른 값을 가지게 된다.
테이블이 주어졌을 때 이를 살펴보는 가장 기초적인 단계는 각 컬럼의 '대표값'(평균, 중앙값, 최빈값)을 구하는 것
- 평균 : 모든 값의 총 합을 개수로 나눈 값. df['column'].mean()
- 중간값 : 데이터 중 가운데 위치한 값. df['column'].median ()
- 최빈값 : 데이터 중 가장 많이 도출된 값. df['column'].mode ()
편차, 분산, 표준편차
평균, 중간값, 최빈값 : WHERE = (어디에 존재하는가)
분산, 편차 : HOW = (어떻게 존재하는가)
더보기
편차 : 하나의 값에서 평균을 뺀 값 = 평균으로부터 얼마나 떨어져 있는지를 의미


- A 학생의 영어점수: 30점
- B 학생의 영어점수: 70점
- C 학생의 영어점수: 80점
- A,B,C 학생의 평균 영어점수: 60점
> A 학생의 편차: -30
> B 학생의 편차: +10
> C 학생의 편차: +20
학생 전체의 편차를 나타내기 위해 각 학생들의 편차를 모두 더하게 되면 0이 나오게 됩니다.
따라서 편차로는 반 전체의 점수 분포를 정확히 알 수가 없기에 나온 개념이 분산입니다.
- 분산 : 편차의 합이 0으로 나오는 것을 방지하기 위해 생성된 개념 = 편차 제곱합의 평균
- A 학생의 편차 제곱: (-30)^2 = 900 - B 학생의 편차 제곱: (+10)^2 = 100 - C 학생의 편차 제곱: (+20)^2 = 400 > 편차 제곱합: 1400 > 편차 제곱합의 평균(분산): 1400/3 = 466 분산은 466이 도출되었습니다. 그러나 점수라는 값에 제곱이 들어가며(점수에 제곱..!) 그 단위가 달라지게되었어요. 실제 데이터가 어느정도로 차이가 있는 지 알기 어렵게 되었습니다. 이를 해결하기 위해 도입된 개념이 표준편차입니다.
- 표준편차 : 분산에 제곱근을 씌워준 값. (= 원래 단위로 되돌리기)
반 전체의 영어점수가 약 20만큼 퍼져있다(분산) 라고 해석- 분산: 466 - 분산의 제곱근 = 표준편차 = 약 21.6 이 되겠습니다.
모집단, 표본, 표본분포
- 모집단 : 어떤 데이터 집합을 구성하는 전체 대상
- 표본 : 모집단 중 일부, 모집단의 부분집합

- 표본분포 : 표본의 분포. 표본이 흩어져 있는 정도. 표본통계량으로부터 얻은 도수분포
- 표본평균의 분포 : 모집단에서 여러 표본을 추출하고 각 표본의 평균을 계산한다면, 이는 중심극한정리에 따라 정규분포에 가까워진다. 이는 표본의 크기가 충분히 크다면 어떤 분포에서도 표본 평균이 정규분포를 따른다는 의미
- 표본분산의 분포 : 모집단에서 여러 표본을 추출하고 각 표본의 분산을 계산한다면, 이 표본분산들의 분포는 카이제곱 분포를 따른다. 모집단이 정규분포를 따를 때 보다 높게 성립
- 표준오차 : 표본의 표준편차 = 표본평균의 평균과 모평균의 차이
아래 개념을 바탕으로 통계적 해석 진행
- 도수 : 특정 구간에 발생한 값의 수
- 상대도수 : 특정도수를 전체 도수로 나눈 비율
- 도수분포표 : 각 값에 대한 도수와 상대도수를 나타내는 표
- 히스토그램 : 도수분포표를 활용하여 만든 막대그래프
- 임의표본추출 : 무작위로 표본을 추출하는 것
- 편향 : 한쪽으로 치우쳐저 있음
- 도수분포표 만들기(선택)

순서 | 내용 |
1 | 최댓값, 최솟값 계산 |
2 | 최댓값, 최솟값을 포함하여 데이터를 특정 범위(계급)으로 나눔 |
3 | 각 계급을 대표하는 수치(계급값) 정하기 |
4 | 각 계급에 포함된 데이터 개수(도수)를 카운트 |
5 | 각 계급의 도수가 전체에서 차치하는 비율(상대도수)을 계산 |
6 | 특정 계급까지의 도수를 모두 합한다. (누적도수) |
03. 정규분포, 신뢰구간
더보기

정규분포
표본 선정 후 무수히 많은 경우의 수를 평균내어 모은 종 모양의 분

정규분포 특징
- 분포는 좌우 대칭의 형태이며 평균치에서 그 확률이 높다.
- 곡선은 각 확률값을 나타내며, 모두 더하면 1이 된다.
- (동전을 뒤집어서 앞면이 나올 확률은 2분의 1 + 뒷면이 나올 확률 2분의 1 = 전체 확률 1)
- 정규분포는 평균과 분산(퍼진정도)에 따라 다른 형태를 가진다.
- 평균 0, 분산 1을 가지는 경우, 이를 표준정규분포라고 한다. (붉은색 그래프)
더보기
표준정규분포를 학습해야 하는 이유
- 그래프 아래쪽의 영역은 모두 확률이다.(전체 경우의 수 중 어떠한 사건이 일어날 경우의 수)
- 각각의 그래프는 평균과 분산값에 따랄 다르게 그려질 수 있다.
- 이러한 경우, 확률을 계산할 때 어려움을 겪게 된다.
- 이를 통일하기 위해 분포의 평균과 분산 값을 통일하는 작업을 하게 되는데, 이를 표준화라고 한다.
- 표준화 공식 : 확률변수 x에서 평균m을 빼고 표준편차로 나누기
- 데이터분석시 표준화가 필요한 경우 : 머신러닝 모델을 만들 때, 데이터의 범위가 많이 차이나는 경우
- 최근 일주일 접속일수의 1과 결재금액의 1은 같은 의미를 가지지 않는다.
- 하지만 머신러닝에서 해당 값의 의미를 같게 받아들이고 처리할 수 있으며, 범위가 큰 데이터의 경우 숫자가 가지는 절대치를 잘못 받아들일 수 있어 표준화는 반드시 필요하다.
신뢰구간, 신뢰수준
더보기
모든 데이터는 표본을 추출하는 순간 불확실성을 가진다.
모집단 전체를 사용하지 않는 한, 결과가 한끗차이도 나지 않기는 어렵다.
- 신뢰구간 : 특정 범위 내에 값이 존재할것으로 예측되는 영역
- (점수가 10점에서 90점 사이일 것 같다.)
- 신뢰수준 : 실제 모수를 추정하는데 몇 퍼센트의 확률로 신뢰구간이 실제 모수를 포함하게 되는 확률. 주로 95%와 99%이용
- (점수가 10점에서 90점 사이일때 분포할 확률이 95%같다.)