평균, 분산, 표준편차

관리 메뉴

GGYU

머신러닝/통계기초

GANADARA 2018. 10. 7. 16:13

모집단: 관심집단의 전체 데이터 ex).대한민국 20대 카드 사용이력

표본: 모집단의 부분집합 ex) 조사가능한 대한민국 20대 카드 사용이력(100건이던, 1000건이던, 10000건이던 상관없음. 표본은 크면 클수록 좋음)

평균

표본을 이용한 평균 계산시 아웃라이어의 영향이 있음

대안으로 중앙값 사용

중앙값

데이터 갯수가 홀수 일 경우: 데이터 정렬 후 가운데 값

데이터 갯수가 짝수 일 경우: 데이터 정렬 후 정 가운데 두 값을 더하여 나 2로 나눈값

변동성 측도

데이터는 평균을 중심으로 얼마나 퍼져 있는가???

분산(변동성 측정으로 구함)

평균 근처에 데이터가 몰려 있으면 분산이 작아짐

평균에서 멀리있는 데이터가 많으면 분산이 커짐

표준편차(분산에 루트 씌운값)

수학적 해석: 정규분포의 경우, 평균과 변곡점 사이의 길이를 의미

M:평균을 뜻함

s:sigma를 뜻함

해석

평균에서 1s 안에는 68%의 데이터가 속해 있고

평균에서 2s 안에는 95% 데이터가 속해 있고

평균에서 3s 안에는 99.7% 데이터가 속해 있다.

ex) 귀댁 다녀의 성적표 80점( 전교평균 60점, 전교표준편차 10점)

전교생 300명 이라면 자녀의 등수는 몇등일까?

M+2s=> 60 +- 20= (40~80)

M=60, s=10

2S는 95%의 데이터가 속해 있어야 하므로 300*0.025 = 7.5등

상관분석 (0)	2018.10.07
산점도 (0)	2018.10.07

공유하기 링크

'머신러닝/통계기초' Related Articles

Comments