기출문제 오답

**
정보를 제공하는 분석기술 : 추출
통찰력을 제공하는 분석기술 : 최적화, 모델링, 권고, 시뮬레이션

** 가트너가 제시한 데이터사이언티스트의 역량
데이터 관리
분석 모델링
비즈니스 분석
소프트 스킬

** 분석과제 수행할 때 고려해야할 속성 5가지
데이터 양
데이터 복잡성
속도
정확성, 정밀도
복잡성

**
정형데이터 : 정보시스템
XML : 반정형데이터

표준화 거리 : 각 변수를 해당 변수의 표준편차로 변환한 후 유클리드 거리를 계산한 거리

맨하튼 거리 : 각 방향 직각의 이동 거리 합으로 계산.

유클리드 거리 : 두 점을 잇는 가장 짧은 직선거리

마할라노비스 거리 : 통계적 개념이 포함된 거리. 변수들의 산포를 고려하여 표준화 한 거리.

데이터의 정규성 확인

- shapiro-wilks test

- 히스토그램

- Q-Q plot

durbin watson test : 회귀모형 오차항

** 데이터 마이닝 (데목준가기검)

- 목적설정

- 데이터 준비

- 가공 : 모델링 목적에 따라 목적 변수 정의

- 기법 적용 : 데이터마이닝 기법을 적용하여 정보추출

- 검증

** 연관규칙 (지신향)

- 지지도

- 신뢰도

- 향상도 : a가 구매되지 않았을 때 품목 b의 구매확률에 비해 a가 구매됐을 때 품목 b의 구매확률의 증가비 (향상도가 1보다 크면 결과예측에 우수하다.)

** R programming

- 숫자형 행렬에서 원소 중 하나를 문자형으로 변경하게 되면 해당 행렬의 모든 원소가 문자형으로 변경된다.

- 행렬을 as.vector 함수에 입력하면 열 방향으로 1열부터 차례로 원소를 나열하는 벡터가 생성된다.

p값 : 귀무가설이 실제 관측된 값보다 대립가설을 지지하는 방향으로 검정통계량이 치우쳐서 나타날 확률. & 우리가 내린 판정이 잘못되었을 실제 확률기각역 : 대립가설이 맞을 때 그것을 받아들이는 확률을 의미.

** 결정계수(R제곱) : 총 변동 중에서 설명이 되지 않는 오차에 의한 변동이 차지하는 비율

** 차분(difference) : 시계열 분석을 위해선 정상성을 만족해야 하는데, 현 시점의 자료값에서 전 시점의 자료를 빼는 방법을 통해 비정상시계열을 정상시계열로 바꾸어주는 방법.

**분산분석귀무가설 : 모든 그룹 간 평균동일대립가설 : 모든 그룹 간 평균이 동일하지 않다.

df(자유도) = 집단갯수 - 1

데이터 분석을 위해 정형화가 필수는 아니다.분석을 위한 데이터확보, 유형에 대한 분석이 선행적으로 이뤄져야 한다.

** 데이터 표준화- 표준용어 설정- 명명 규칙 수립- 메타 데이터 구축- 데이터 사전 구축

** 시계열 구성하는 4가지 요소- 계절요인- 순환요인- 추세요인- 불규칙요인

**상관분석에서는 선형관계를 알 수 없다.주성분 분석에서 변수들 사이의 구조는 쉽게 이해하기 어렵다.

** 거리<연속형 변수의 경우>- 유클리디안- 표준화- 마할라노비스- 체비셰프- 맨하탄- 캔버라- 민코우스키
<범주형 변수의 경우>- 자카드 거리- 자카드 계수- 코사인- 코사인 유사도

** 인공신경망역전파 : 예측값과 실제값의 차이인 에러를 통해 가중치를 조정하는 방법.
!변수의 수가 많거나, 복잡한 비선형관계가 존재할 때 유용하다. 잡음에 대해 민감하지 않게 반응!
이상치자료에 민감한 것은 군집분석의 EM알고리즘, K평균 군집분석

** 데이터 설계절차
- 요구사항 분석
- 개념적 설계
- 논리적 설계
- 물리적 설계

** 빅데이터 분석에 대한 키워드
information, Ad hor Report, Alerts, Clean Data

**
이익 < 시급성 결정
3V < 난이도 결정

**
대립가설 : 확실하게 증명하고 싶은 가설, 뚜렷한 증거가 있어야 채택할 수 있는 가설.

** 비모수 검정
- 런검정 : 일련의 연속적인 관측값들이 임이적으로 나타난 것인지 검정하는 방법
- 만-위트니의 U검정
- 부호 검정 : 표본들이 서로 관련되어 있는 경우 짝지어진 두 개의 관찰치들의 크고 작음을 표시하여 그 개수를 갖고 두 분포의 차이가 있는지에 대한 가설을 검증하는 방법.
- 스피어만 순위 상관계수

**
최근접 이웃모형 : 미리 모형을 학습하는 것이 아니라 새로운 자료에 대한 예측 및 분류를 수행할 때 모형을 구성 lazay learing
서포트 벡터기계 : 패턴인식, 자료분석을 위한 지도학습 모델.

** 앙상블
- 모형의 투명성이 떨어져 원인 분석에는 적합하지 않다.
- 각 모형의 상호 연관성이 높을수록 정확도가 떨어진다.

**
랜덤포레스트 : 의사결정나무를 앙상블하는 방법이다.
* 역전파 관련은 인공신경망
포화문제 : 인공신경망 모형에서 역전파를 진행함에 따라 각 노드를 연결하는 가중치의 절대값이 커져 조정이 더 이상 이뤄지지 않아 과소적합이 발생되는 문제
실루엣 게수 : 군집모형 평가 기준 중 하나. 군집의 밀집정도를 계산하는 방법으로 군집 내의 거리와 군집간의 거리를 기준으로 군집 분할의 성과를 평가하는 것.

** 빅데이터 분석 방법론 구성요소 (절방도산 템)
- 절차, 방법, 도구와 기법, 산출물, 템플릿

'Adsp' 카테고리의 다른 글

비전공자 데이터분석 준전문가 (ADsP) 합격수기 (0)	2021.04.22

영차영차

기출문제 오답

'Adsp' 카테고리의 다른 글

댓글

티스토리툴바

기출문제 오답

'Adsp' 카테고리의 다른 글

관련글

댓글

티스토리툴바