본문 바로가기

분류 전체보기75

기출문제 오답 ** 정보를 제공하는 분석기술 : 추출 통찰력을 제공하는 분석기술 : 최적화, 모델링, 권고, 시뮬레이션 ** 가트너가 제시한 데이터사이언티스트의 역량 데이터 관리 분석 모델링 비즈니스 분석 소프트 스킬 ** 분석과제 수행할 때 고려해야할 속성 5가지 데이터 양 데이터 복잡성 속도 정확성, 정밀도 복잡성 ** 정형데이터 : 정보시스템 XML : 반정형데이터 **표준화 거리 : 각 변수를 해당 변수의 표준편차로 변환한 후 유클리드 거리를 계산한 거리맨하튼 거리 : 각 방향 직각의 이동 거리 합으로 계산.유클리드 거리 : 두 점을 잇는 가장 짧은 직선거리마할라노비스 거리 : 통계적 개념이 포함된 거리. 변수들의 산포를 고려하여 표준화 한 거리. **데이터의 정규성 확인- shapiro-wilks test- .. 2021. 3. 12.
군집분석 & 연관분석 ※ 계층적 군집분석 : n개 군집으로 시작해 점차 군집의 갯수 줄여 나가기 최단 연결법 최장 연결법 평균 연결법 와드 연결법 : 편차들 제곱의 합 군집화 ※ 비계층적 군집분석 : n개의 개체를 g개의 군집으로 나눌수 있는 모든 가능한 방법을 점검해 최적화한 군집 형성 - K평균 군집분석 : 분산을 최소화 하는 방식으로 동장 (연속형 변수) 초기 군집수 결정에 어려움이 있음. seed를 정해 seed 중심으로 군집형성 각 데이터를 거리가 가장 가까운 seed 있는 군집으로 분류 각 군집의 seed 값 다시 계산 ※ 혼합분포군집 : 모수와 함께 가중치를 자료로부터 추정하는 방법 사용. - EM 알고리즘 (E : 잠재변수 Z의 기대치 계산, M : 잠재변수 Z의 기대치 이용해 파라미터 추정) 알고리즘 그림 p.. 2021. 3. 11.
3과목 - 데이터 분석 개요, 데이터 마트 (문제) ** EDA의 또다른? 뜻EDA : 데이터가 가지고 있는 특성을 파악하기 위해 해당 변수의 분포 등 시각화하여 분석하는 분석방법 ** 모델링 성능 평가데이터 마이닝 - 정확도- 정밀도- 디텍트 레이트- 리프트시뮬레이션- Throughput- Average wating time- Average queue length- Time in system ** ODS : 정제된 데이터신규시스템 & 스테이지 영역 : 에서 가져온 데이터는 정제되어 있지x데이터 정제 후 DW, DM과 결합. ** EDA의 4가지 주제 (저잔자그)- 저항성의 강조- 잔차계산- 자료변수의 재표현- 그래프 통한 현시성 **reshape : 변수를 조합해 변수명을 만들고 변수들을 시간, 상품 등의 차원에 결합해 다양한 요약변수와 파생변수를 쉽게.. 2021. 3. 10.
2과목 - 데이터 분석 기획 (문제) ** 분석기획 시 고려사항 - 관련데이터 파악 - 비즈니스 케이스 확보 - 장애요소 사전 계획수립 ** 정형데이터 : ERP, CRM, SCM 반정형데이터 : 로그데이터, 모바일데이터, 센싱데이터 비정형데이터 : 영상, 음성, 문자 ** 빅데이터 분석 방법론 분석기획 - 데이터 준비 - 데이터 분석 - 시스템 구현 - 평가/전개 ** 의사결정 방해요소 - 프레이밍 효과 - 고정관념 - 편향된 생각 ** 비즈니스 모델 - 업무 - 제품 - 고객 - 규제, 감사 - 지원 인프라 ** 데이터 타당성 - 데이터 존재여부 - 분석 시스템 환경 - 분석역량 ** 분석 준비도의 진단항목 - 데이터 충분성 - 신뢰성 - 적시성 - 비구조적 데이터 관리 - 외부 데이터 활용 체계 - 기준 데이터 관리 (MDM) ** 과.. 2021. 3. 9.