GGYU
평균, 분산, 표준편차 본문
모집단: 관심집단의 전체 데이터 ex).대한민국 20대 카드 사용이력
표본: 모집단의 부분집합 ex) 조사가능한 대한민국 20대 카드 사용이력(100건이던, 1000건이던, 10000건이던 상관없음. 표본은 크면 클수록 좋음)
평균
표본을 이용한 평균 계산시 아웃라이어의 영향이 있음
대안으로 중앙값 사용
중앙값
데이터 갯수가 홀수 일 경우: 데이터 정렬 후 가운데 값
데이터 갯수가 짝수 일 경우: 데이터 정렬 후 정 가운데 두 값을 더하여 나 2로 나눈값
변동성 측도
데이터는 평균을 중심으로 얼마나 퍼져 있는가???
분산(변동성 측정으로 구함)
평균 근처에 데이터가 몰려 있으면 분산이 작아짐
평균에서 멀리있는 데이터가 많으면 분산이 커짐
표준편차(분산에 루트 씌운값)
수학적 해석: 정규분포의 경우, 평균과 변곡점 사이의 길이를 의미
M:평균을 뜻함
s:sigma를 뜻함
해석
평균에서 1s 안에는 68%의 데이터가 속해 있고
평균에서 2s 안에는 95% 데이터가 속해 있고
평균에서 3s 안에는 99.7% 데이터가 속해 있다.
ex) 귀댁 다녀의 성적표 80점( 전교평균 60점, 전교표준편차 10점)
전교생 300명 이라면 자녀의 등수는 몇등일까?
M+2s=> 60 +- 20= (40~80)
M=60, s=10
2S는 95%의 데이터가 속해 있어야 하므로 300*0.025 = 7.5등
Comments