본문 바로가기
Adsp/2과목 - 데이터 분석 기획

1장. 데이터 분석 기획의 이해

by 바야바바 2021. 3. 3.

1절 분석기획 방향성 도출

※ 분석기획의 특징

  • 분석기획? 실제 분석을 수행하기에 앞서 분석을 수행 할 과제를 정의하고, 의도했던 결과를 도출할 수 있도록 이를                적절하게 관리할 수 있는 방안을 사전에 계획하는 일련의 작업
  • 데이터 사이언티스트의 역량 : 수학 / 통계학적 지식, 정보기술, 비즈니스에 대한 이해와 전문성

※ 분석 대상과 방법

 

 

윗 그림은 외우기 헷갈려서 그림째로 외웠다. OSID...

 

※ 분석 기획시 고려사항

1) 분석의 기본인 가용 데이터에 대한 고려가 필요하다.

  • 분석을 위한 데이터의 확보가 우선적이며, 데이터의 유형에 따라 적용 가능한 솔루션 및 분석방법이 다르기 때문에 유형에 대한 분석이 선행적으로 이루어져야 한다.

2) 분석을 통해 가치가 창출될 수 있는 적절한 활용방안과 유즈케이스 탐색이 필요하다.

  • 기존에 잘 구현되어 활용되고 있는 유사 분석 시나리오 및 솔루션을 최대한 활용하는 것이 중요하다.

3) 분석 수행시 발생하는 장애요소들에 대한 사전계획 수립이 필요하다.

  • 일회성 분석으로 그치지 않고 조직의 역량으로 내재화하기 위해서는 충분하고 계속적인 교육 및 활용방안 등의 변화관리가 고려되어야 한다.

※ 참고

종류 정형 데이터 반정형 데이터 비정형 데이터
특징 - 데이터 자체로 분석가능
- RDB구조의 데이터
- 데이터베이스로 관리
-데이터로 분석이 가능하지만 해석이 불가능하며 메타정보를 활용해야 해석가능 -데이터 자체로 분석이 불가능
- 특정한 처리 프로세스를 거쳐 분석데이터로 변경 후 분석
유형 - ERP, CRM, SCM 등 정보시스템 - 로그데이터, 모바일데이터, 센싱데이터 - 영상, 음성, 문자 등

~정리하자면~

정형 : 데이터 분석 O

반정형 : 데이터 분석 O, 해석 X (메타정보 활용 해석 O)

비정형 : 데이터 분석 X (특정처리 프로세스 후 변경 후 분석O)

 

2절 분석 방법론

※ 기업의 합리적 의사결정을 가로막는 장애요소 : 고정관념, 편향된 생각, 프레이밍 효과

 

※ 방법론의 생성과정

 

 

※ 방법론의 적용 업무의 특성에 따른 모델

  • 폭포수 모델 (Waterfall Model) : 단계를 순차적으로 진행하는 방법. 이전 단계가 완료되어야 다음 단계로 진행될 수 있다. (피드백 과정이 수행됨)
  • 프로토타입 모델 (Prototype Model) : 고객의 요구를 완전하게 이해하고 있지 못하거나 완벽한 요구 분석의 어려움을 해결하기 위해 일부분을 우선 개발하여 사용자에게 제공한다. (결과를 통한 개선작업)
  • 나선형 모델 (Spiral Model) : 반복을 통해 점증적으로 개발하는 방법. 처음 시도하는 프로젝트엔 적용이 유리하지만 관리체계를 효과적으로 갖추지 못한 경우 복잡도가 상승하여 진행이 어려울 수 있다.

※ KDD 분석 방법론

KDD (Knowledge Discovery in Database) : Fayyad가 프로파일링 기술을 기반으로 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스

데이터마이닝, 기계학습, 인공지능, 패턴인식, 데이터 시각화 등에서 응용 될 수 있는 구조를 갖고 있다.

 

 

※ KDD 분석 절차

 

 

 

1) 데이터셋 선택 (Selection)

  - 분석대상의 비즈니스 도메인 이해

  - 프로젝트 목표 설정 필수 == 분석에 필요한 데이터를 선택하는 단계

  - 데이터마이닝에 필요한 목표데이터 구성

 

2) 데이터 전처리 (Preprocessing)

  - 잡음, 이상치, 결측치 식별하여 데이터셋 정제

 

3) 데이터 변환 (Transformation)

  - 분석 목적에 맞게 변수를 생성, 선택

  - 데이터의 차원을 축소하여 데이터에 변경하는 단계

  - 학습용 데이터와 검증용 데이터로 분리

 

4) 데이터 마이닝 (Data Mining)

  - 분석 목적에 맞는 마이닝 기법을 선택하고 데이터 마이닝 알고리즘 선택

  - 데이터의 패턴을 찾거나 데이터를 분류/예측하는 등의 마이닝 작업 수행

  - 필요에 따라 데이터 전처리, 데이터 변환 프로세스를 병행하여 수행

 

5) 데이터 마이닝 결과 평가 (Interpretation/Evaluation)

  - 결과에 대한 해석과 평가 그리고 분석 목적과의 일치성 확인

  - 데이터 마이닝을 통해 발견한 지식을 업무에 활용하기 위한 방안 마련

 

※ CRISP-DM 분석 방법론

CRISP-DM (Cross Industry Standard Process for Data Mining) 

 

CRISP-DM의 프로세스 

6단계로 구성되어 있으며, 각 단계는 단방향이 아닌 단계 간 피드백을 통해 단계별 완성도를 높이게 되어있음.

 

 

업무이해 (Business Understanding)

  - 프로젝트의 목적과 요구사항을 이해하기 위한 단계

  - 도메인 지식을 데이터 분석을 위한 문제정의로 변경하고 초기 프로젝트 계획을 수립하는 단계

  수행업무 : 업무목적 파악, 상황파악, 데이터 마이닝 목표 설정, 프로젝트 계획수립

 

데이터 이해 (Data Understanding)

  - 분석을 위한 데이터 수집, 데이터 속성을 이해하기 위한 단계

  - 데이터 품질에 대한 문제점 식별, 숨겨져 있는 인사이트를 발견하는 단계

  수행업무 : 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인

 

데이터 준비 (Data Preparation)

  - 수집된 데이터에서 분석기법에 적합한 데이터를 편성하는 단계

  수행업무 : 분석용 데이터 셋 선택, 데이터 정제, 분석용 데이터 셋 편성, 데이터 통합, 데이터 포맷팅

 

모델링 (Modeling)

  - 다양한 모델링 기법과 알고리즘을 선택하고 모델링 과정에서 사용되는 파라미터를 최적화하는 단계

  - 모델링 결과를 테스트용 데이터 셋으로 평가하여 모델의 과적합 문제를 확인

  수행업무 : 모델링 기법 선택, 모델 테스트 계획 설계, 모델작성, 모델평가

 

평가 (Evaluation)

  - 모델링 결과가 프로젝트 목적에 부합하는지 평가

  - 데이터마이닝 결과를 최종적으로 수용할 것인지 판단

  수행업무 : 분석결과 평가, 모델링 과정 평가, 모델 적용성 평가

 

전개 (Deployment)

  - 완성된 모델을 실 업무에 적용하기 위한 계획을 수립하는 단계

  - 모니터링과 모델의 유지보수 계획 마련

  수행업무 : 전개계획 수립, 모니터링과 유지보수 계획수립, 프로젝트 종료보고서 작성, 프로젝트 리뷰

 

 KDD vs CRISP-DM

 

 

 

빅데이터 분석 방법론 - 5단계

 

 

1) 분석기획 (Planning) : 비즈니스 도메인과 문제점을 인식하고 분석 계획 및 프로젝트 수행계획을 수립하는 단계

 

2) 데이터 준비 (Preparing) : 비즈니스 요구사항과 데이터 분석에 필요한 원천 데이터를 정의하고 준비하는 단계

 

3) 데이터 분석 (Analyzing) : 다양한 분석 기법과 알고리즘을 이용하여 데이터를 분석하는 단계

 

4) 시스템 구현 (Developing) : 분석기획에 맞는 모델 도출, 이를 운영중인 가동시스템에 적용하거나 시스템 개발을 위한 사전 검증으로 프로토타입 시스템 구현

 

5) 평가 및 전개 (Lesson Learned) : 데이터 분석 및 시스템 구현 단계수행 후 프로젝트의 성과를 평가하고 정리하거나 모델의 발전 계획을 수립하여 차기 분석 기획으로 전달, 프로젝트 종료

3절 분석 과제 발굴

※ 분석과제 발굴 방법론

하향식 접근 방식 : 분석 과제가 주어지고 이에 대한 해법을 찾기 위하여 각 과정이 체계적으로 단계화되어 수행하는 방식
상향식 접근 방식 : 문제의 정의 자체가 어려운 경우 데이터를 기반으로 문제를 지속적으로 개선하는 방식


※ 하향식 접근 방식
문제 탐색 ▶ 문제정의 ▶ 해결방안 탐색 ▶ 타당성 평가

1) 문제 탐색 - 하향식 접근법 1단계

  • 비즈니스 모델외부 참조 모델이 존재
  • 세부적인 구현 및 솔루션의 초점보다 문제를 해결함으로서 발생하는 가치에 중점으 두는 것이 중요하다.

비즈니스 모델 기반 문제 탐색

업무(operation), 제품(product), 고객(customer), 규제와 감사(regulation&audit), 지원 인프라(IT&human resource) 등 5가지 영역으로 기업의 비즈니스를 분석.

분석 기회 발굴의 기회 확장

외부 참조 모델 기반 문제 탐색

유사, 동종 사례를 벤치마킹을 통해 분석 기회를 발굴.

기업에 적용할 분석테마 후보 목록을 워크숍 형태의 브레인스토밍을 통해 빠르게 도출하는 방법이다.

 

2) 문제 정의 - 하향식 접근법 2단계

식별된 비즈니스 문제를 데이터의 문제로 변환하여 정의하는 단계.

 

3) 해결방안 탐색 - 하향식 접근법 3단계

분석역량(who), 분석기법 및 시스템(how)으로 해결 방안 탐색 비즈니스 모델 기반 문제탐색 

업무(operation), 제품(product), 고객(customer), 규제와 감사(regulation&audit), 지원 인프라(IT&human resource) 5가지 영역으로 기업의 비즈니스 분석.

 

4) 타당성 검토 - 하향식 접근법 4단계

도출된 분석 문제나 가설에 대한 대안을 과제화하기 위해서는 경제적타당성이나 데이터 및 기술적 타당성과 같은 다각적인 타당성분석이 수행되어야 한다.  ▶  분석역량

 

※ 상향식 접근 방식

1) 정의

  • 기업이 보유하고 있는 다양한 원천 데이터로부터 분석을 통하여 통찰력과 지식을 얻는 접근방법.
  • 다양한 원천 데이터를 대상으로 분석을 수행하여 가치있는 모든 문제를 도출하는 일련의 과정

2) 상향식 접근법의 특징

  • 하향식 접근법은 논리적 단계별 접근법으로 최근의 복잡하고 다양한 환경에서 발생하는 문제를 해결하기 어렵기 때문에 디자인적 사고 접근법을 통해 WHY > WHAT 관점으로 존재하는 데이터 그 자체를 객관적으로 관찰하여 문제를 해결하려는 접근법을 사용
  • 상향식 접근법은 비지도 학습 방법으로 수행되며, 데이터 자체의 결합, 연관성, 유사성을 중심으로 접근.
  • 시행착오를 통한 문제해결 : 프로토타이핑 접근법

 

4절 분석 프로젝트 관리 방안

※ 분석과제 관리를 위한 5가지 주요 영역

※ 분석 프로젝트의 특성

  • 분석가의 목표 : 개별적인 분석업무 수행 뿐만 아니라 전반적인 프로젝트 관리 또한 중요하다.
  • 분석가의 입장 : 데이터 영역과 비즈니스 영역의 현황을 이해하고, 프로젝트의 목표인 분석의 정확도 달성과 결과에 대한 가치 이해를 전달하는 조정자로서의 분석가 역할이 중요하다.
  • 분석 프로젝트는 프로토타이핑 방식의 Agile 프로젝트 관리방식에 대한 고려도 필요하다.

 

'Adsp > 2과목 - 데이터 분석 기획' 카테고리의 다른 글

2장. 분석 마스터 플랜  (0) 2021.03.09

댓글