이상값 + 예측: 데이터에서 이상값 찾아내기

  • 업데이트 시간

핵심 메트릭은 빠르게 변할 수 있습니다. 그런데 이러한 변화가 유의미하며 조사할 가치가 있는지 또는 아무런 의미도 없는 무작위성 변화인지를 파악하기는 어렵습니다. Amplitude의 이상값 + 예측 기능은 과거 데이터를 기반으로 메트릭에 대한 예상 값에서 통계적으로 유의미한 편차를 강조 표시합니다. 이를 통해 변화가 실질적으로 유의미한지 파악하고, 계측 오류를 식별하고, 계절적 추세를 이해하고, 제품 출시의 효과를 모니터링할 수 있습니다.

예측 기능을 사용하면 메트릭을 미래에 대해 예측하여 팀과 제품에 대해 현실적인 목표를 설정할 수 있습니다.

시작하기 전에

이상값 + 예측 기능을 시작하기 전에 알아야 할 내용이 있습니다.

먼저, 이 기능은 현재 Growth, Enterprise, Scholarship 플랜을 사용하는 고객에게만 제공되는 베타 기능입니다.

이상값 감지 및 예측은 Amplitude의 시계열 데이터에만 적용할 수 있습니다. 따라서 이벤트 분할 분석, 시간에 따른 전환, 사용자 세션, 시간에 따른 잔존율, 시간에 따른 밀착도 차트에만 지원됩니다. 

이벤트 분할 분석 차트에서는 이동 기간, 이동 평균, 성장 백분율 및 시계열 분석을 지원하는 맞춤 수식과 함께 작동합니다.

이상값 탐지는 누적 시계열 차트, 또는 두 개의 다른 기간을 비교하는 차트에서 작동하지 않습니다.

시간별 구간을 사용하는 경우 이상값 + 예측 기능은 최대 하나의 그룹화 기준을 지원합니다.

이상값 탐지 설정하기 

이상값 + 예측에서 사용되는 이상값 탐지 기법은 광범위한 테스트를 거친 오픈 소스 도구 Prophet을 기반으로 합니다. 이는 누락된 데이터 포인트, 추세 변화, 대규모의 이상값에 효과적인 시계열 데이터를 예측하는 절차입니다. 

메인 차트 영역 바로 위 왼쪽에서 이 기능을 관리할 수 있습니다. 차트에 이상값 + 예측 기능이 지원되지 않는 경우, 버튼이 회색으로 표시됩니다.

이상값 탐지를 설정하려면 다음 단계를 따릅니다.

  1. Anomaly + Forecast를 클릭하여 기능을 활성화합니다. 기능이 활성화되면 버튼이 주황색으로 변합니다.
  2. Anomaly + Forecast 버튼의 오른쪽 드롭다운 화살표를 클릭합니다.

anomaly_1.png

  1. 모드를 선택합니다. agile, robust, custom 옵션 중에서 선택할 수 있습니다. Agile 모드는 차트의 날짜 범위가 시작되기 전 120일 분량의 훈련 데이터와 95% 신뢰도 구간을 사용하여 최근 추세를 더 빠르게 반영합니다. Robust 모드는 안정적인 메트릭에 가장 적합합니다. 1년 동안의 추가 훈련 데이터를 통합하므로 계절적 특성을 더 잘 반영할 수 있기 때문입니다. Custom 모드에서는 특정 요구 사항에 따라 신뢰 구간과 훈련 기간을 변경할 수 있습니다. 유의 수준이 높을수록 차트에 표시되는 이상값이 더 적을 수 있습니다.

    참고: 계절적 특성은 각 모드에서 자동으로 탐지됩니다. 계절적 특성이 적용되는 기간은 모델을 훈련하기 위해 사용되는 데이터의 양에 따라 달라집니다. 일반적으로 Agile 모드에서는 일간 및 주간의 계절적 특성을 사용하는 반면, Robust 모드에서는 월간 및 연간의 계절적 특성을 반영합니다. 데이터가 충분하지 않은 경우 계절적 특성을 탐지하거나 적용하기 어려울 수 있습니다.

  2. 원하는 경우 예측을 추가합니다. 예측 기능은 메트릭을 미래에 대해 예측하는 반면, 이상값은 과거 데이터 내에서만 탐지됩니다. 예측을 추가하려면 Forecast Period 필드에 예측을 연장할 개월 수를 입력합니다.
  3. Apply를 클릭하여 이상값 탐지를 시작합니다.

결과 해석하기

열이 하나인 차트에서는 실제 데이터를 나타내는 파란색 실선 옆에 예상 값을 나타내는 파선과 밝은 파란색 밴드(신뢰 구간 밴드)가 표시됩니다. 탐지된 이상값은 신뢰 구간 밴드 외부에 주황색으로 표시됩니다. 이상값은 다음과 같이 표시될 수 있습니다. "120일 분량의 훈련 데이터를 기반으로 하여, 95%의 신뢰도로 이 데이터 포인트가 예기치 못한 변화를 나타낸다고 말할 수 있습니다."

주황색 점이 나타나지 않는 경우 모든 데이터 포인트가 신뢰 구간 안에 있는 것입니다.

여러 열이 있는 차트에서도 이상값 + 예측 기능을 실행할 수 있습니다. 하지만 신뢰 구간 밴드를 보려면 각 열에 마우스 커서를 올려야 합니다(모두 다른 색상으로 표시됨).

예측의 경우, 실제 데이터를 나타내는 실선과 현재 날짜까지의 신뢰 구간이 표시됩니다. 여기에서 예측 기능은 예상되는 미래 값을 나타내는 파선만 표시합니다.  Prophet은 과거에 관찰된 변화의 규모와 빈도가 미래에도 비슷하고 어느 정도 신뢰도가 있다고 가정하여 메트릭을 예측합니다. 

Forecast 결과는 다음과 같이 나타날 수 있습니다. '지난 120일 분량의 데이터에서 관찰된 추세를 기반으로 하여, 95%의 신뢰도로 이 메트릭이 [a future date]에 [high value] 및 [low value] 사이일 것으로 예측됩니다.'

이상값의 원인 파악하기

이상값을 식별하는 것은 가장 첫 번째 단계일 뿐입니다. 이러한 이상값이 처음에 왜 발생했는지 파악하세요.

몇 가지의 관련 메트릭을 참조하여 해당 메트릭에서도 이상값이 관측되는지 알아보세요. 특히 퍼널의 해당 단계 전후로 실행된 이벤트를 살펴보는 것이 좋습니다. 또한 속성에 대한 그룹화 기준을 사용하여 이상값이 발생한 이유에 대한 인사이트를 추가로 얻을 수 있습니다.

세 번째 옵션은 이상값에 관련된 비즈니스 세부 정보를 조사하는 것입니다. 예를 들면, 해당 날짜에 신규 기능이 출시되었나요? 이러한 점이 이유가 될 수 있을까요?

마지막으로, Amplitude의 근본 원인 분석 기능을 사용하면 이상값의 원인을 효과적으로 추적할 수 있습니다.

훈련 데이터 

Amplitude는 서로 다른 시간 구간 및 모드에 각자 다른 기본 훈련 기간을 사용합니다. custom 모드에서는 이를 설정할 수 있으며, 이러한 내용은 차트 날짜 범위에도 추가됩니다. 

예를 들어 일간 구간을 사용하며 차트에서 지난 30일간의 데이터를 참조하는 경우, 일간 차트의 기본 훈련 데이터 기간은 차트 날짜 범위 시작 전의 120일입니다. 이 경우 Amplitude는 총 150일 분량의 데이터를 사용하여 모델을 훈련합니다.

agile 모드에서 Amplitude는 다음과 같은 기본 데이터 훈련 기간을 사용합니다.

>차트에 사용되는 시간 구간 기본 훈련 기간
실시간 사용 불가

시간별

7일

일간

120일

주간

26주

월간

6개월

분기별

2분기

 

robust 모드에서 Amplitude는 다음과 같은 기본 데이터 훈련 기간을 사용합니다.

>차트에 사용되는 시간 구간 기본 훈련 기간
실시간 사용 불가

시간별

7일

일간

365일

주간

52주

월간

12개월

분기별

4분기

 

각 구간에 사용되는 훈련 데이터의 상한(이전 기간 + 차트 기간)은 다음과 같습니다.

>차트에 사용되는 시간 구간 훈련 기간 제한
실시간 사용 불가

시간별

14일

일간

395일

주간

56주

월간

13개월

분기별

5분기

agile이나 robust 모드에서는 제공되지 않는 특정 훈련 기간을 사용하려면 custom 모드를 선택하여 설정할 수 있습니다.

이상값에 대한 알림을 받으려면 Amplitude의 인사이트 패키지를 사용하여 자동 및 맞춤 모니터링 알림을 받을 수 있습니다. 여기에서 패키지에 대해 자세히 알아보세요.

동영상 학습