-
1장 데이터 분석 개요자격증/ADsP 03 데이터 분석 2020. 6. 3. 23:26
1. 데이터 처리
데이터 분석: 통계에 기반을 두고 있으나 통계지식과 복잡한 가정이 상대적으로 적은 실용적인 분야
- 데이터 웨어하우스(DW)나 데이터 마트(DM)를 통해 분석 데이터 가져와 사용
- 기존 운영시스템(Legacy)이나 스테이징 영역(staging area)과 ODS(Operational Data Store)에서 데이터를 가져와DW에서 가져온 내용과 결합하여 활용
- 운영시스템에 직접 접근 위험. 스테이징 영역의 데이터는 운영시스템에서 임시로 저장된 데이터
=> 클린징 영역(ODS)에서 데이터 전처리 후 DW나 DM 결합하여 활용
2. 시각화 그래프
가장 낮은 수준의 분석
잘 사용하면 복잡한 분석보다 효율적
빅데이터 분석/탐색적 분석 시각화 필수
SNA(social Network Analysis, 사회연결망 분석) 자주 활용
1) GIS(Geographic Information System, 공간 분석)
공간분석(Spatial Analysis): 공간적 차원과 관련된 속성들 시각화
크기, 모양, 선 굵기 등 구분
2) EDA(Exploatory Data Analysis, 탐색적 자료 분석)
다양한 차원의 값 조합해 특이한 점이나 의미있는 사실 도출, 분석의 최종 목적을 달성
<EDA 4가지 주제>
- 저항성의 강조
- 잔차계산
- 자료변수의 재표현
- 그래프를 통한 현시성(시각화)
3. 통계분석
통계: 한눈에 알아보기 쉽게 숫자, 표, 그림의 형태로 나타낸 것
기술통계: 모집단으로 표본을 추출해 표본이 가지고 있는 정보를 쉽게 파악할 수 있도록 하나의 숫자, 그래프로 표현
추측(추론)통계: 모집단으로 추출된 표본통계량으로부터 모수(모집단 특성)에 관해 통계적으로 추론
4. 데이터마이닝
대용량의 자료로 관계, 패턴 등 탐색에 유용한 지식 추출
<방법론>
데이터베이스에서 지식탐색
기계학습
패턴인식
'자격증 > ADsP 03 데이터 분석' 카테고리의 다른 글
3장 데이터마트 - 2 (0) 2020.06.04 3장 데이터마트 - 1 (0) 2020.06.04 R 데이터 마트 - reshape 실습 (0) 2020.02.09 R 입출력 실습 (0) 2020.02.09 R 기초 실습 (0) 2020.02.09