본문 바로가기
Adsp/3과목 - 데이터 분석

군집분석 & 연관분석

by 바야바바 2021. 3. 11.

<군집분석>

※ 계층적 군집분석 : n개 군집으로 시작해 점차 군집의 갯수 줄여 나가기

  • 최단 연결법
  • 최장 연결법
  • 평균 연결법
  • 와드 연결법 : 편차들 제곱의 합
  • 군집화

※ 비계층적 군집분석 : n개의 개체를 g개의 군집으로 나눌수 있는 모든 가능한 방법을 점검해 최적화한 군집 형성

- K평균 군집분석 : 분산을 최소화 하는 방식으로 동장 (연속형 변수) 초기 군집수 결정에 어려움이 있음.

  1. seed를 정해 seed 중심으로 군집형성
  2. 각 데이터를 거리가 가장 가까운 seed 있는 군집으로 분류
  3. 각 군집의 seed 값 다시 계산

※ 혼합분포군집 : 모수와 함께 가중치를 자료로부터 추정하는 방법 사용.

- EM 알고리즘 (E : 잠재변수 Z의 기대치 계산, M : 잠재변수 Z의 기대치 이용해 파라미터 추정)

알고리즘 그림 p,430

  • K평균 군집분석과 유사하지만 확률분포를 도입
  • 이상치 자료에 민감 (해킹탐지)

※ SOM (Self Organizing Map) : 코호넨에 의해 제시, 개발되었으며 코호넨 맵이라고도 알려져 있다. 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화한다.

  • 입력변수의 위치 관계를 그대로 보존 = 실제 공간의 입력 변수가 가까이 있으면 지도상에도 가까운 위치에 있게됨.
  • 입력층 : 입력 변수의 개수와 동일하게 뉴런 수가 존재.
  • 경쟁층 : 입력벡터의 특성에 따라 벡터가 한 점으로 클러스터링 되는층, 

BMU : 입력 층의 표본 벡터에 가장 가까운 프로토타입 벡터를 선택.

 

 

 

<연관분석>

연관성 분석은 흔히 장바구니분석 또는 서열분석 이라고 불린다.

 

※ 연관규칙의 형태 : 조건과 반응의 형태 (if-then)

 

※ 연관규칙의 측도

  • 지지도 (support) : 전체거래 중 항목 A와 항목 B를 동시에 포함하는 거래의 비율로 정의한다.
  • 신뢰도 (confidence) : 항목 A를 포함한 거래 중에서 항목 A와 항목 B가 같이 포함될 확률이다. 연관성의 정도를 파악할 수 있다.
  • 향상도 (Lift) : A가 구매되지 않았을 때 품목 B의 구매확률에 비해 A가 구매됐을 때 품목 B의 구매확률의 증가 비이다.

※ 순차패턴

  • 동시에 구매될 가능성이 큰 상품군을 찾아내는 연관성분석에 시간이라는 개념을 포함시켜 순차적으로 구매 가능성이 큰 상품군을 찾아내는 것.
  • 연관성분석에서의 데이터 형태에서 각각의 고객으로부터 발생한 구매시점에 대한 정보가 포함된다.

※ apriori 알고리즘 : 어떤 항목집합이 빈발하다면, 그 항목집합의 모든 부분집합도 빈발하다는 원리로 연관규칙 알고리즘

 

※ FP-Growth 알고리즘 : apriori 알고리즘의 약점을 보완하기 위해 고안된 것. 후보 빈발항목집합을 생성하지 않고, FP-Tree를 만든 후 분할정복 방식을 통해 apriori알고리즘 보다 더 빠르게 추출할 수 있다.

'Adsp > 3과목 - 데이터 분석' 카테고리의 다른 글

시계열 분석 이해하기 [2]  (0) 2021.02.25
시계열분석 이해하기 [1]  (0) 2021.02.25

댓글