자격증/ADsP 03 데이터 분석
-
3장 데이터마트 - 2자격증/ADsP 03 데이터 분석 2020. 6. 4. 20:22
통계분석 통계: 특정집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현 통계자료 획득 방법 1. 총조사/전수조사(census) - 대상 집단을 모두 조사하는데 많은 비용과 시간 소요 - 특별한 경우 사용(ex) 인구주택 총 조사) 2. 표본조사 - 대부분의 설문조사 - 모집단(population): 조사하고자 하는 대상 집단 전체 - 원소(element): 모집단을 구성하는 개체 - 표본(sample): 추출한 모집단의 일부 원소 - 모수(parameter): 모집단에 대한 정보 3. 표본추출방법 1) 단순랜덤 추출법(simple random sampling) 2) 계통추출법(systematic sampling) 단순랜덤 추출법의 변형된 방식. 임의 위치에서 K번째 항목 추출..
-
3장 데이터마트 - 1자격증/ADsP 03 데이터 분석 2020. 6. 4. 00:09
1. 데이터마트 데이터웨어하우스와 사용자 사이의 중간층에 위치 1) 요약변수 - 분석에 맞게 종합한 변수 - 데이터 분석을 위해 만들어진 변수 - 재활용성 높음 - 장) 자동화 - 단) 기준값 해석 애매(연속형 변수를 그룹핑해 해결) 2) 파생변수 - 특정조건 만족/특정 함수에 의해 값을 만들어 의미를 부여한 변수 - 주관적(논리적 타당성 갖춰 개발) - 세분화, 고객행동 예측, 캠페인 반응 예측 등 활용 - 특정 상황에만 유의미하지 않게 대표성을 나타나게 할 필요 있음 2. reshape 1) melt(): 원데이터 형태로 만드는 함수 2) cast(): 요약 형태로 만드는 함수 2020/02/09 - [자격증/ADsP 03 데이터 분석] - R 데이터 마트 - reshape 실습 R 데이터 마트 - ..
-
1장 데이터 분석 개요자격증/ADsP 03 데이터 분석 2020. 6. 3. 23:26
1. 데이터 처리 데이터 분석: 통계에 기반을 두고 있으나 통계지식과 복잡한 가정이 상대적으로 적은 실용적인 분야 - 데이터 웨어하우스(DW)나 데이터 마트(DM)를 통해 분석 데이터 가져와 사용 - 기존 운영시스템(Legacy)이나 스테이징 영역(staging area)과 ODS(Operational Data Store)에서 데이터를 가져와DW에서 가져온 내용과 결합하여 활용 - 운영시스템에 직접 접근 위험. 스테이징 영역의 데이터는 운영시스템에서 임시로 저장된 데이터 => 클린징 영역(ODS)에서 데이터 전처리 후 DW나 DM 결합하여 활용 2. 시각화 그래프 가장 낮은 수준의 분석 잘 사용하면 복잡한 분석보다 효율적 빅데이터 분석/탐색적 분석 시각화 필수 SNA(social Network Analy..
-
R 데이터 마트 - reshape 실습자격증/ADsP 03 데이터 분석 2020. 2. 9. 23:09
주석: #006DD7 코드입력: #333333 결과값: #9D9D9D reshape 패키지 melt(): 원데이터 형태로 만드는 함수 cast(): 요약 형태로 만드는 함수 reshape 패키지 설치 방법 install.packages("reshape") > library(reshape) > head(airquality) Ozone Solar.R Wind Temp Month Day 1 41 190 7.4 67 5 1 2 36 118 8.0 72 5 2 3 12 149 12.6 74 5 3 4 18 313 11.5 62 5 4 5 NA NA 14.3 56 5 5 6 28 NA 14.9 66 5 6 > melt(airquality, id=c("Month", "Day"), na.rm=T) Month Day v..
-
R 입출력 실습자격증/ADsP 03 데이터 분석 2020. 2. 9. 21:52
주석: #006DD7 코드입력: #333333 결과값: #9D9D9D 기능 R 코드 비고 키보드로 데이터를 입력 1)데이터 양이 적어 직접 입력 c(): combine 함수 2) 데이터 편집기를 활용하기 빈데이터 프레임 생성 -> 편집기를 불러와서 데이터 편집하고 데이터 프레임에 덮어씌우기 출력할 내용의 자리수 정의 R의 부동소수점 표현: 7자리로 표시 print(pi, digits=num) cat(format(pi,digits=num), "\n") options(digits=num) 파일에 출력하기 cat("출력할 내용", 변수, "\n", file="파일이름", append=T) sink("파일이름") ···출력할 내용··· sink() 파일 목록보기 list.files() list.files(rec..
-
R 기초 실습자격증/ADsP 03 데이터 분석 2020. 2. 9. 19:49
주석: #006DD7 코드입력: #333333 결과값: #9D9D9D # 스크립트로 프로그래밍 된 파일 실행하기 # source("파일명") # 프로그램 파일 # sink(file, append, split)함수 # : R 코드 실행 결과를 특정 파일에서 출력 # file: 출력할 파일명(디렉토리 포함 또는 디폴트 디렉토리) # append: 파일에 결과를 덮어쓰거나 추가해서 출력(디폴트 값(FALSE)는 덮어쓰기) # split: 출력파일에만 출력하거나 콘솔창에 출력 (디폴트 값(FALSE)는 파일에만 실행 결과 출력) # pdf() 함수 # : 그래픽 출력을 pdf 파일로 지정 # dev.off() # : 파일 닫기 # R 데이터 유형과 객체 # 숫자(Number): integer, double # ..