
통계의 모든 것을 다 이해할 필요는 없다. 시험을 위해 데이터 분석을 위한 최소한의 원리를 중심으로. 모델이 만들어지는 과정을 바닥에 깔자.
목차
R 패키지의 종류 (install.package(”패키지명”)
aaply() : arr → arr , adply() : arr → dataframegreedy.wilks() : 세분화를 위한 stepwize forward 변수 선택을 위한 패키지, wilks lambda를 활용하여 변수 중요도 정리centralImputation() : NA 를 가운데 값으로 대치knnImputation() : NA 를 knn(k최근 이웃 분류 알고리즘)을 사용하여 대치amelia()rfImpute() : 랜덤 포레스트 모형의 경우 결측값이 있으면 에러를 발생하기 때문에 NA 결측값을 대치하도록 하는 함수잘못 입력된 경우, 의도하지 않게 입력되었으나 분석 목적에 부합되지 않아 제거해야되는 경우, 의도하지 않은 현상이지만 분석에 포함해야 하는 경우, 의도된 불량인경우, 이상값을 꼭 제거해야 하는 것은 아니기 때문에 분석의 목적이나 종류에 따라 적절한 판단이 필요하다.기하 평균을 이용한 제거 (√a*b) : geo_mean()
하단 상단 % 를 이용한 제거
상한값과 하한값을 벗어나는 값들을 하한, 상한값으로 바꾸어 활용하는 방법
총조사, 전수조사(Census)
표본조사 (Sampling)
모집단(Population) : 대상 집단 전체모수(Parameter) : 표본 관측에 의해 구하고자 하는 모집단에 관한 정보표본집단 : 모집단을 모두 전수조사가 불가할때 일부분만 추출해서 모은 집단
대표성 을 띄게 하려고 노력단순 랜덤 (Simple Random Sampling)
단순히 랜덤으로 추출하는 것
계통 추출법 (Systematic Sampling)
번호를 부여하고 N개의 구간으로 나눠서 K개씩 띄워서 추출하는 것
집락 추출법 (Cluster Random Sampling)
모집단에 지역(Cluster)를 나눠서 그 안에서 Random 추출한 후 추합해서 활용
층화 추출법 (Stratified Random Sampling)
특성이 다른 여러가지 모집단으로 층(Stratum)을 나누고 각 층에서 랜덤 추출
표본 측정 방법
범주형 자료, 숫자들의 크기 차이가 계산 불가)
명목 척도 : 측정 대상이 어느 집단에 속하는지 분류
순서 척도 (서열 척도) : 측정 대상의 서열 관계를 관측하는 척도
수치형 자료, 숫자들의 크기 차이 계산 가능)
구간 척도 (등간 척도) : 속성의 양을 측정, 구간 사이 간격이 의미가 있음, 곱하기 나누기 불가!비율 척도 : 절대적 기준이 존재, 사칙연산 가능뜻 : 불확실한 현상을 대상으로 적절한 통계 분석 방법을 거쳐 의사결정을 하는 과정