ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 3장 데이터마트 - 1
    자격증/ADsP 03 데이터 분석 2020. 6. 4. 00:09

    1. 데이터마트

        데이터웨어하우스와 사용자 사이의 중간층에 위치

     

        1) 요약변수

            - 분석에 맞게 종합한 변수

            - 데이터 분석을 위해 만들어진 변수

            - 재활용성 높음

            - 장) 자동화

            - 단) 기준값 해석 애매(연속형 변수를 그룹핑해 해결)

        2) 파생변수

            - 특정조건 만족/특정 함수에 의해 값을 만들어 의미를 부여한 변수

            - 주관적(논리적 타당성 갖춰 개발)

            - 세분화, 고객행동 예측, 캠페인 반응 예측 등 활용

            - 특정 상황에만 유의미하지 않게 대표성을 나타나게 할 필요 있음

     

    2. reshape

        1) melt(): 원데이터 형태로 만드는 함수

        2) cast(): 요약 형태로 만드는 함수

    2020/02/09 - [자격증/ADsP 03 데이터 분석] - R 데이터 마트 - reshape 실습

     

    R 데이터 마트 - reshape 실습

    주석: #006DD7 코드입력: #333333 결과값: #9D9D9D reshape 패키지 melt(): 원데이터 형태로 만드는 함수 cast(): 요약 형태로 만드는 함수 reshape 패키지 설치 방법 install.packages("reshape") > library(..

    codingmomong.tistory.com

    3. sqldf

        R에서 sql의 명령어를 사용 가능하게 해주는 패키지

     

    4. plyr

        분할, 계산, 조합 기능 제공

      Output
    Input   array data frame list nothing
    array aaply adply alply a_ply
    data frame daply ddply dlply d_ply
    list laply ldply llply l_ply
    n replicates raply rdply rlply r_ply
    function arguments maply mdply mlply m_ply

     

    5. 데이터 테이블(data.table)

        가장 많이 사용하는 데이터 핸들링 패키지

        큰 데이터를 탐색, 연산, 병합 하는데 유용

        기존 data.frame방식보다 빠름

        column을 key값으로 색인 지정 후 데이터 처리

        빠른 그루핑, ordering, 짧은 문장 지원(data.frame 방식보다 유용)

     

    6. 데이터 가공

        데이터 변수들의 상태 파악

            1) head(데이터셋), tail(데이터셋)

                시작, 마지막 6개의 record 조회

            2) summary(데이터셋)

                수치형 변수: 최댓값, 최소값, 평균, 1사분위수, 2사분위수(중앙값), 3사분위수

                명목형 변수: 명목값 데이터 갯수

     

    7. klaR 패키지

        클랴스가 어떻게 분류되는지에 대한 에러율 계산, 그래픽으로 결과 보여줌

        greedy.wilks(): 세분화를 위한 stepwise forward 변수 선액을 위한 패키지

        wilks lambda(=집단내분산/총분산): 변수의 중요도 정리

        

    8. 변수 구간화

        1) binning

           연속형 변수를 범주형 변수로 구간화 - bin(깡통)애 나눠 담음

        2) 의사결정나무

            입력변수를 구간화. 세분화, 예측에 활용

     

    9. 데이터 탐색적 자료분석(EDA)

        데이터 특징파악, 다양한 각도로 접근


    결측값

    1. 결측값

        NA, 99999999, ' '(공백), Unknown, Not Answer

        작업속도엥 영

     

    2. 결측값 처리방법

           1) 단순대치법

               (1) completes analysis: 결측값 존재하는 레코드 삭제

               (2) 평균대치법: 데이터의 평균으로 대치

                   - 비조건부 평균 대치법: 관측데이터의 평균으로 대치

                   - 조건부 평균 대치법: 회귀분석 활용한 대치법

               (3) 단순확률 대치법: 평균대치법 보완

                    Hotdeck, near neighbor

           2) 다중대치법

               m번의 대치를 통해 m개의 가상적 완전 자료 만드는 방법

               대치 - 분석 - 결합

    3. 결측값 관련 함수

        complete.cases(): 결측값이 있으면 FALSE, 없으면 TRUE

        is.na(): 결측값이 있으면 TRUE, 없으면 FALSE

        DMwR 패키지의 centrallmpulation(): NA값에 가운데 값으로 대치 (숫자는 중위수, 요인은 최빈값)

        DMwR 패키지의 knnImputation(): NA값에 k최근이웃분류알고리즘 사용해 대치(k개 주변 이웃까지 거리를 고려햐 가중 평균값 사용)

        Amelia 패키지의 amelia(): 여러 국가에서 활용, 랜덤포레스트모델은 결측값이 존재할 경우 에러 발생

     


    이상값

    1. 이상값

        의도하지 않게 잘못 입력한 경우

        의도하지 않게 입력되었으나 분석 목적에 부합되지 않아 제거해야 하는 경우

        의도하지 않은 현상이지만 분석에 포함해야 하는 경우

        의도된 이상값(fraud, 불량)인 경우

     

    2. 이상값 인식 방법

        1) ESD(Extreme Dtudentized Deviation)

            평균으로부터 3 표준편차 떨어진 값

        2) 기하평균-2.5*표준편차 < data <기하평균+2.5*표준편차

        3) 사분위수를 이용하여 제거(상자그림의 outer fence밖에 있는 값 제거

     

    3. 극단값 절단 방법

        1) 기하평균이용 제거

        2) 하단, 상단 %를 이용한 제거

     

    4. 극단값 조정방법

        상한값과 하한값을 벗어나는 값들을 하한, 상한값으로 바꾸어 활용

     

    '자격증 > ADsP 03 데이터 분석' 카테고리의 다른 글

    3장 데이터마트 - 2  (0) 2020.06.04
    1장 데이터 분석 개요  (0) 2020.06.03
    R 데이터 마트 - reshape 실습  (0) 2020.02.09
    R 입출력 실습  (0) 2020.02.09
    R 기초 실습  (0) 2020.02.09
Designed by Tistory.