목록머신러닝 (3)
GGYU
상관이란: 두변수 사이의 직선관계를 의미직선관계의 강도와 방향을 알수 있음. 상관계수 -1 ~ +1 사이의 값을 가짐 -1에 가까울수록 강한 음의 상관, +1에 가까울수록 강한 양의 상관, 0에 가까울수록 직선관계 없음 ※0일경우 비선형 관계일수 있음. 반드시 그림 그려 볼것 특징: 단위가 없음( 강한관계, 약한관계로 해석) cov(x,y)=cov(y,x) 해석상 유의사항: 상관관계가 있다고 해서, 인과관계가 있다고 확인 할 수 없음.ex) 신발 크기과 독해력 그래프가 양의 상관관계로 나타낫을경우, 이는 인과관계를 확인 할 수 없음. 신발 크기가 큰 아이가 독해력이 좋은건 아이의 성장, 이라는 변수로 판단할수 있으나, 산점도상에선 확인 안됨.
각 데이터를 x,y 축에 표현 해보는것 상관관계가 양수이면 양의 선형관계상관관계 0 관계없음상관관계 음수 음의 선형관계 이미지 출처 : 도미니크의 블로그 | 글쓴이 : 도미니크 | 원글보기
모집단: 관심집단의 전체 데이터 ex).대한민국 20대 카드 사용이력표본: 모집단의 부분집합 ex) 조사가능한 대한민국 20대 카드 사용이력(100건이던, 1000건이던, 10000건이던 상관없음. 표본은 크면 클수록 좋음) 평균 표본을 이용한 평균 계산시 아웃라이어의 영향이 있음 대안으로 중앙값 사용중앙값 데이터 갯수가 홀수 일 경우: 데이터 정렬 후 가운데 값 데이터 갯수가 짝수 일 경우: 데이터 정렬 후 정 가운데 두 값을 더하여 나 2로 나눈값 변동성 측도 데이터는 평균을 중심으로 얼마나 퍼져 있는가???분산(변동성 측정으로 구함) 평균 근처에 데이터가 몰려 있으면 분산이 작아짐 평균에서 멀리있는 데이터가 많으면 분산이 커짐 표준편차(분산에 루트 씌운값)수학적 해석: 정규분포의 경우, 평균과 변곡..