자격증/ADsP 03 데이터 분석

1장 데이터 분석 개요

momong'-' 2020. 6. 3. 23:26

1. 데이터 처리

    데이터 분석: 통계에 기반을 두고 있으나 통계지식과 복잡한 가정이 상대적으로 적은 실용적인 분야

    

    - 데이터 웨어하우스(DW)나 데이터 마트(DM)를 통해 분석 데이터 가져와 사용

    - 기존 운영시스템(Legacy)이나 스테이징 영역(staging area)과 ODS(Operational Data Store)에서 데이터를 가져와DW에서 가져온 내용과 결합하여 활용

    - 운영시스템에 직접 접근 위험. 스테이징 영역의 데이터는 운영시스템에서 임시로 저장된 데이터

      => 클린징 영역(ODS)에서 데이터 전처리 후 DW나 DM 결합하여 활용

 

2. 시각화 그래프

    가장 낮은 수준의 분석

    잘 사용하면 복잡한 분석보다 효율적

    빅데이터 분석/탐색적 분석 시각화 필수

    SNA(social Network Analysis, 사회연결망 분석) 자주 활용

 

    1) GIS(Geographic Information System, 공간 분석)

        공간분석(Spatial Analysis): 공간적 차원과 관련된 속성들 시각화

        크기, 모양, 선 굵기 등 구분

    2) EDA(Exploatory Data Analysis, 탐색적 자료 분석)

        다양한 차원의 값 조합해 특이한 점이나 의미있는 사실 도출, 분석의 최종 목적을 달성

 

        <EDA 4가지 주제>

            - 저항성의 강조

            - 잔차계산

            - 자료변수의 재표현

            - 그래프를 통한 현시성(시각화)

 

3. 통계분석

    통계: 한눈에 알아보기 쉽게 숫자, 표, 그림의 형태로 나타낸 것

    기술통계: 모집단으로 표본을 추출해 표본이 가지고 있는 정보를 쉽게 파악할 수 있도록 하나의 숫자, 그래프로 표현

    추측(추론)통계: 모집단으로 추출된 표본통계량으로부터 모수(모집단 특성)에 관해 통계적으로 추론

 

4. 데이터마이닝

    대용량의 자료로 관계, 패턴 등 탐색에 유용한 지식 추출

 

    <방법론>

        데이터베이스에서 지식탐색

        기계학습

        패턴인식