본문 바로가기
Adsp/기출오답정리

3과목 - 데이터 분석 개요, 데이터 마트 (문제)

by 바야바바 2021. 3. 10.

 

** EDA의 또다른? 뜻

EDA :  데이터가 가지고 있는 특성을 파악하기 위해 해당 변수의 분포 등 시각화하여 분석하는 분석방법

 

** 모델링 성능 평가

데이터 마이닝 

- 정확도

- 정밀도

- 디텍트 레이트

- 리프트

시뮬레이션

- Throughput

- Average wating time

- Average queue length

- Time in system

 

** 

ODS : 정제된 데이터

신규시스템 & 스테이지 영역 : 에서 가져온 데이터는 정제되어 있지x

데이터 정제 후 DW, DM과 결합.

 

** EDA의 4가지 주제 (저잔자그)

- 저항성의 강조

- 잔차계산

- 자료변수의 재표현

- 그래프 통한 현시성

 

**

reshape : 변수를 조합해 변수명을 만들고 변수들을 시간, 상품 등의 차원에 결합해 다양한 요약변수와 파생변수를 쉽게 생성하여 데이터 마트를 구성할 수 있는 패키지

rattle : R을 GUI 환경에서 편리하게 사용하도록 돕는 패키지

 

** reshape

melt(data, id=c('그대로고정시킬변수'))

cast(data, '그대로유지(행)' ~ '바꿀데이터(열)')

 

** 결측지

- 해당 칸이 비어있는 경우 결측치 여부는 알기 쉽다.

- 결측지가 20% 이상인 경우에는 해당 변수를 제거하고 분석해야 한다.

complete.cases() -> 결측값: FALSE, 결측값x : TRUE (완전한가? --> 결측값이 있으면 아니요)

is.na() -> 결측값o : TRUE, 결측값x :TRUE (있는가? --> 결측값이 있으면 예스)

 

knnImputation() : NA 값을 k 최근 이웃 분류 알고리즘을 사용해 대치하는 함수로 k개 주변 이웃까지의 거리를 고려하여 가중 평균한 값을 대치해 주는 함수

rfImpute() : 랜덤 포레스트 모형의 경우, 결측값이 있으면 에러를 발생하기 때문에 랜덤포레스트 패키지에서 NA 결측값을 대치하도록 하는 함수

 

이상치 탐지는 사기탐지, 의료, 침입탐지, 등에 활용이 가능하다. (환경파괴에는 적용하기 어렵다.)

 

 

 

'Adsp > 기출오답정리' 카테고리의 다른 글

2과목 - 데이터 분석 기획 (문제)  (0) 2021.03.09
1과목 - 데이터의 이해 (문제)  (0) 2021.03.09

댓글