** EDA의 또다른? 뜻
EDA : 데이터가 가지고 있는 특성을 파악하기 위해 해당 변수의 분포 등 시각화하여 분석하는 분석방법
** 모델링 성능 평가
데이터 마이닝
- 정확도
- 정밀도
- 디텍트 레이트
- 리프트
시뮬레이션
- Throughput
- Average wating time
- Average queue length
- Time in system
**
ODS : 정제된 데이터
신규시스템 & 스테이지 영역 : 에서 가져온 데이터는 정제되어 있지x
데이터 정제 후 DW, DM과 결합.
** EDA의 4가지 주제 (저잔자그)
- 저항성의 강조
- 잔차계산
- 자료변수의 재표현
- 그래프 통한 현시성
**
reshape : 변수를 조합해 변수명을 만들고 변수들을 시간, 상품 등의 차원에 결합해 다양한 요약변수와 파생변수를 쉽게 생성하여 데이터 마트를 구성할 수 있는 패키지
rattle : R을 GUI 환경에서 편리하게 사용하도록 돕는 패키지
** reshape
melt(data, id=c('그대로고정시킬변수'))
cast(data, '그대로유지(행)' ~ '바꿀데이터(열)')
** 결측지
- 해당 칸이 비어있는 경우 결측치 여부는 알기 쉽다.
- 결측지가 20% 이상인 경우에는 해당 변수를 제거하고 분석해야 한다.
complete.cases() -> 결측값o : FALSE, 결측값x : TRUE (완전한가? --> 결측값이 있으면 아니요)
is.na() -> 결측값o : TRUE, 결측값x :TRUE (있는가? --> 결측값이 있으면 예스)
knnImputation() : NA 값을 k 최근 이웃 분류 알고리즘을 사용해 대치하는 함수로 k개 주변 이웃까지의 거리를 고려하여 가중 평균한 값을 대치해 주는 함수
rfImpute() : 랜덤 포레스트 모형의 경우, 결측값이 있으면 에러를 발생하기 때문에 랜덤포레스트 패키지에서 NA 결측값을 대치하도록 하는 함수
이상치 탐지는 사기탐지, 의료, 침입탐지, 등에 활용이 가능하다. (환경파괴에는 적용하기 어렵다.)
'Adsp > 기출오답정리' 카테고리의 다른 글
2과목 - 데이터 분석 기획 (문제) (0) | 2021.03.09 |
---|---|
1과목 - 데이터의 이해 (문제) (0) | 2021.03.09 |
댓글