Untitled

통계의 모든 것을 다 이해할 필요는 없다. 시험을 위해 데이터 분석을 위한 최소한의 원리를 중심으로. 모델이 만들어지는 과정을 바닥에 깔자.

기본개념

목차


1. R 기초와 데이터 마트

R 기초

  1. R 패키지의 종류 (install.package(”패키지명”)

    변수 중요도 설정

    결측값 처리

    이상값 처리

데이터 마트

결측값 처리와 이상값 검색

2. 통계 분석

통계학 개론

1. 통계 자료 흭득 방법

  1. 총조사, 전수조사(Census)

  2. 표본조사 (Sampling)

    표본 추출 용어

    표본 추출 방법 4가지

    1. 단순 랜덤 (Simple Random Sampling)

      단순히 랜덤으로 추출하는 것

      • 복원 : 추출한 원소을 다시 집어넣고 추출
      • 비복원 : 추출한 원소를 다시 집어넣지 않고 추출
    2. 계통 추출법 (Systematic Sampling)

      번호를 부여하고 N개의 구간으로 나눠서 K개씩 띄워서 추출하는 것

    3. 집락 추출법 (Cluster Random Sampling)

      모집단에 지역(Cluster)를 나눠서 그 안에서 Random 추출한 후 추합해서 활용

    4. 층화 추출법 (Stratified Random Sampling)

      특성이 다른 여러가지 모집단으로 층(Stratum)을 나누고 각 층에서 랜덤 추출

  3. 표본 측정 방법

    1. 질적 척도 (범주형 자료, 숫자들의 크기 차이가 계산 불가)
      • 명목 척도 : 측정 대상이 어느 집단에 속하는지 분류
        • 성별, 출생지 구분
      • 순서 척도 (서열 척도) : 측정 대상의 서열 관계를 관측하는 척도
        • 만족도, 선호도, 학년, 신용등급
    2. 양적 척도 (수치형 자료, 숫자들의 크기 차이 계산 가능)
      • 구간 척도 (등간 척도) : 속성의 양을 측정, 구간 사이 간격이 의미가 있음, 곱하기 나누기 불가!
      • 비율 척도 : 절대적 기준이 존재, 사칙연산 가능

2. 통계 분석

뜻 : 불확실한 현상을 대상으로 적절한 통계 분석 방법을 거쳐 의사결정을 하는 과정

  1. 기술 통계 : 주어진 집단을 분석하여 객관적인 데이터로 나타내는 것
  2. 추측 통계 ( = 통계적 추론)

3. 확률 및 확률 분포