GGYU

평균, 분산, 표준편차 본문

머신러닝/통계기초

평균, 분산, 표준편차

GANADARA 2018. 10. 7. 16:13

모집단: 관심집단의 전체 데이터 ex).대한민국 20대 카드 사용이력

표본: 모집단의 부분집합 ex) 조사가능한 대한민국 20대 카드 사용이력(100건이던, 1000건이던, 10000건이던 상관없음. 표본은 크면 클수록 좋음)


평균

  표본을 이용한 평균 계산시 아웃라이어의 영향이 있음

  대안으로 중앙값 사용

중앙값

  데이터 갯수가 홀수 일 경우: 데이터 정렬 후 가운데 값

  데이터 갯수가 짝수 일 경우: 데이터 정렬 후 정 가운데 두 값을 더하여 나 2로 나눈값


변동성 측도

 데이터는 평균을 중심으로 얼마나 퍼져 있는가???

분산(변동성 측정으로 구함)

  평균 근처에 데이터가 몰려 있으면 분산이 작아짐

  평균에서 멀리있는 데이터가 많으면 분산이 커짐


표준편차(분산에 루트 씌운값)

수학적 해석: 정규분포의 경우, 평균과 변곡점 사이의 길이를 의미

M:평균을 뜻함

s:sigma를 뜻함

해석

 평균에서 1s 안에는 68%의 데이터가 속해 있고

 평균에서 2s 안에는 95% 데이터가 속해 있고

 평균에서 3s 안에는 99.7% 데이터가 속해 있다.


ex) 귀댁 다녀의 성적표 80점( 전교평균 60점, 전교표준편차 10점)

 전교생 300명 이라면 자녀의 등수는 몇등일까?

  M+2s=> 60 +-  20= (40~80)

  M=60, s=10

  2S는 95%의 데이터가 속해 있어야 하므로 300*0.025 = 7.5등

'머신러닝 > 통계기초' 카테고리의 다른 글

상관분석  (0) 2018.10.07
산점도  (0) 2018.10.07
Comments