본문 바로가기

Adsp/3과목 - 데이터 분석3

군집분석 & 연관분석 ※ 계층적 군집분석 : n개 군집으로 시작해 점차 군집의 갯수 줄여 나가기 최단 연결법 최장 연결법 평균 연결법 와드 연결법 : 편차들 제곱의 합 군집화 ※ 비계층적 군집분석 : n개의 개체를 g개의 군집으로 나눌수 있는 모든 가능한 방법을 점검해 최적화한 군집 형성 - K평균 군집분석 : 분산을 최소화 하는 방식으로 동장 (연속형 변수) 초기 군집수 결정에 어려움이 있음. seed를 정해 seed 중심으로 군집형성 각 데이터를 거리가 가장 가까운 seed 있는 군집으로 분류 각 군집의 seed 값 다시 계산 ※ 혼합분포군집 : 모수와 함께 가중치를 자료로부터 추정하는 방법 사용. - EM 알고리즘 (E : 잠재변수 Z의 기대치 계산, M : 잠재변수 Z의 기대치 이용해 파라미터 추정) 알고리즘 그림 p.. 2021. 3. 11.
시계열 분석 이해하기 [2] www.youtube.com/watch?v=bt6dSJDPC0A 정상성은 비정상성 시계열과 정상성 시계열로 나뉜다. 비정상성 시계열 : 시계열 분석하는데 다루기 어려운 시계열 자료를 말한다. 정상성 시계열 : 비정상 시계열을 핸들링해 다루기 쉬운 시계열 자료로 변환한 것을 말한다. 정상성을 만족하려면 모든 시점에 대해 일정한 평균을 가진다. 분산도 시점에 의존하지 않는다. 공분산(두 변수의 관계를 나타내는 양)은 단지 시차에만 의존하고 실제 어느 시점 t,s에는 의존하지 않는다. 이를 모두 만족하면 정상성이라 하며 하나라도 만족하지 못 할 경우에는 비정상 시계열(대부분) 이라 한다. 주어진 자료가 폭발적으로 증가하는 추세 ▶ 평균이 일정하지 x , 시간에 .. 2021. 2. 25.
시계열분석 이해하기 [1] 출처는 유튜브 datarian로 이걸로 공부했다! https://youtu.be/d3eU9kEjICc 시계열 자료란? 시간의 흐름에 따라 관찰된 값들을 뜻함 여기에 분석을 더한다면 시계열 분석이 되는 것이다. 연속 시계열 : 자료가 연속적으로 생성, 실제로 많은 시계열들이 연속적으로 생성됨. 이산 시계열 : 이산적 시점에서 자료가 생성, but 일정한 시차를 두고 관측되므로 이산시계열의 형태를 지니는 경우가 많음. 이산적 = 값들이 연속적 x ==> 계열자료를 분석할 때 관측시점들 간의 시차 (time lag)가 중요한 역할을 함 현상을 시간에 따라 추적 ▶ 현상에 대한 풍부한 사실을 파악하는 것이 가능하다. 미래의 값 예측 시계열 자료 특성파악 : 경향, 주기, 계절성,.. 2021. 2. 25.