컴퍼스 차트 해석하기

  • 업데이트 시간

이 문서에서는 다음 항목을 안내합니다.

  • 컴퍼스 차트 읽기 및 해석하기
  • 상관 관계 이해 및 컴퍼스 차트에서 상관 관계를 사용하는 이유 파악하기

Amplitude의 컴퍼스 차트는 신규 사용자의 이벤트 실행이 해당 사용자의 리텐션과 어떤 상관 관계가 있는지 보여 줍니다. 어떤 사용자 이벤트가 잔존으로 이어지는지 이해하는 것은 지속 가능한 제품 성장을 주도하는 데 매우 중요합니다.

시작하기 전에

이 문서를 살펴보기 전에 컴퍼스 차트 작성에 관한 문서를 확인하세요. 그러지 않으면 이 문서를 이해하기 어려울 수 있습니다.

컴퍼스 차트를 읽는 방법

컴퍼스 차트를 처음 실행할 때는 어떤 이벤트가 잔존율을 높일 가능성이 가장 큰지에 대한 특정 가설을 세우고 있을 수 있습니다. 하지만 그렇지 않은 경우 컴퍼스를 통해 가설을 개발할 수 있습니다.

이전 문서에서는 왼쪽 모듈에서 Any Event를 선택한 경우, 컴퍼스에서 사용자 이벤트와 상관 관계의 히트 맵을 기본으로 생성한다는 점을 알아보았습니다.

compass_1.png

타겟 코호트로 전환하는 기본 코호트 구성원과 가장 상관 관계가 높은 이벤트에 대한 간략한 요약입니다. 아직 데이터가 많지 않은 경우 여기에서 시작하는 것이 좋습니다.

참고: 상관 관계에 대해 익숙하지 않은 경우 이 문서 끝에 있는 간략한 설명을 확인하세요.

상단에 있는 날짜 레이블을 클릭하면 특정 날짜에 대해 오름차순 또는 내림차순 상관 관계로 표를 정렬할 수 있습니다. 특정 셀을 클릭하면 팝업이 뜨며, 여기에는 선택한 이벤트/일 조합에 대해 더 세부적인 정보가 나와 있습니다.

 

interpret_compass_1.gif

이 요약 보고서는 데이터를 한눈에 파악하는 데 유용합니다(상단에 있어야 하는데 그렇지 않은 이벤트 확인).

중점적으로 살펴볼 이벤트를 선택하고 나면 컴퍼스에서 히트 맵 보기를 더 세부적인 분석 데이터로 변경합니다.

예를 들어 신규 사용자가 된 후 첫 7일 이내에 'AddFriend' 이벤트를 실행하는 것이 2주 잔존율과 어떤 상관 관계를 갖는지 알아보고, 컴퍼스에서 생성된 보고서의 다양한 구성 요소를 살펴보겠습니다.

Screen_Shot_2017-04-14_at_5.14.29_PM.png

왼쪽에는 이벤트의 상관 관계 점수가 나타나는데, 사용자가 이벤트를 실행한 빈도를 기준으로 정렬되어 있습니다. 기본적으로 보고서에는 상관 관계가 가장 높은 빈도가 표시됩니다. 여기에서는 'AddFriend'를 두 번 이상 실행한 사용자의 상관 관계 점수가 가장 높았기 때문에, 2주차 잔존율 코호트에 포함될 가능성이 가장 높다는 사실을 알 수 있습니다.

참고: 상관 관계와 인과 관계는 서로 같지 않다는 점을 분명히 알아 두어야 합니다. 높은 상관 관계 점수는 두 이벤트 사이에 일종의 인과 관계가 있음을 시사할 수 있지만, 이는 각 이벤트가 아직 확인되지 않은 다른 이벤트와 높은 상관 관계가 있음을 의미할 수도 있습니다.

버킷을 클릭하면 해당 이벤트/빈도 조합에 대한 자세한 분석 데이터를 볼 수 있습니다.

오른쪽에서 (a) 특정 빈도의 해당 이벤트 및 (b) 타겟 코호트에 대한 상관 관계 점수를 볼 수 있습니다. 일반화하기는 어렵지만, 경우에 따라 각 사용자의 더 적은 초기 일수를 볼 때 0.2만큼 낮은 상관 관계도 고려할 수 있습니다.

Amplitude는 상관 관계 점수를 다음과 같이 범주화합니다.

  • Highly Predictive: 상관 관계 >= 0.4
  • Moderately Predictive: 0.4 > 상관 관계 >= 0.3
  • Slightly Predictive: 0.3 > 상관 관계 >= 0.2
  • Not Predictive: 상관 관계 <= 0.2

결과를 통해 코호트 생성하기

위의 예시로 돌아가 보면, 처음 7일 동안 'AddFriend' 이벤트를 두 번 이상 실행한 사용자는 신규 사용자였습니다. Create Cohort를 클릭하여 코호트를 만들 수 있습니다. Amplitude는 자동으로 이들의 잔존율을 신규 사용자 잔존율과 비교합니다.

interpret_compass_3.png

Correlation Table 옆의 Show를 클릭하면 세부 정보가 담긴 분할 표가 표시됩니다. 여기에는 네 가지 카테고리(True Positive, False Positive, False Negative, True Negative) 각각의 기본 코호트에 포함된 사용자 수가 나타납니다. 

마찬가지로 Detailed Statistics 옆의 Show를 클릭하면 코호트에 대한 세부적인 통계 정보를 확인할 수 있습니다.  

여기에서 통계 정보를 더 자세히 알아보세요.

다른 메트릭 선택하기

컴퍼스는 기본적으로 상관 관계 점수를 보여 주지만, 분석 요구 사항에 다른 메트릭이 더 적합하다면 해당 메트릭을 선택할 수 있습니다. Correlation 드롭다운 메뉴에서 원하는 메트릭을 선택하세요.

interpret_compass_2.png

사용 가능한 메트릭은 다음과 같습니다.

  • Correlation
  • Correlation with errors
  • Positive predictive value only
  • Negative predictive value only
  • Sensitivity only
  • Specificity only
  • Proportion above threshold only

통계적 유의성 확인하기

컴퍼스에서는 상관 관계의 95% 신뢰 구간을 설정 및 해제할 수 있습니다. 표의 오른쪽에 있는 파란색 숫자 텍스트를 클릭하면 왼쪽 막대 차트에 해당 구간이 표시됩니다.

95Percent_Toggle.png

상관 관계 이해하기

상관 관계는 두 개의 통계 변수가 서로 어떻게 관련되어 있는지를 측정하는 방법입니다. 값은 -1부터 1까지일 수 있으며, 점수가 0인 경우 변수 사이에 전혀 통계적 관련성이 없다는 의미입니다. 1점은 완전한 양의 상관 관계를 나타내는 반면 -1점은 완전한 음의 상관 관계를 나타냅니다.

컴퍼스 차트에서 상관 관계가 있는 두 변수는 다음과 같습니다.

  • 사용자가 해당 이벤트를 특정 횟수 이상 실행했나요?
  • 사용자가 타겟 코호트에 유지되었나요?

상관 관계의 다양한 변형과 정의를 접해 보셨을 것입니다. 잘 알려진 예시로는 매튜 상관 관계, 피어슨 상관 관계, 파이 계수, R값 등이 있습니다. 이 사례에서는 모든 방법이 동일한 결과를 생성합니다. 컴퍼스가 이진 무작위 변수 쌍을 보기 때문입니다.

상관 관계는 인과 관계가 아니며, 따라서 컴퍼스 분석을 통해 수립하는 가설은 실제로 반드시 테스트와 검증을 거쳐야 합니다.

상관 관계에 대한 더 기술적인 정의를 살펴보세요.

  1. X와 Y의 상관 관계는 X와 Y의 공분산을 분산의 기하 평균으로 나눈 것입니다.
  2. 각각 최소 제곱 평균 제곱근 오차를 갖는 상황에서 X가 Y의 아핀 함수로 모델링되고 Y가 X의 아핀 함수로 모델링되는 경우, X와 Y의 상관 관계는 이 두 함수에 대한 예측 계수의 기하 평균입니다.

이때 상관 관계가 어떻게 좋은 메트릭으로 작용할 수 있을까요?

사용자가 제품의 이점을 깨닫는 순간을 포착하는 메트릭을 찾을 때, 특정 임계값을 초과하는 대부분의 사용자는 계속 유지되고 임계값 미만의 사용자 대부분은 결국 유지되지 않는 결과를 도출하는 메트릭이 적합할 것입니다. 이러한 메트릭은 PPV(양성 예측 값)NPV(음성 예측 값)의 양호한 임계값을 갖습니다. Amplitude 블로그 포스트에서 어떤 이벤트가 성장으로 이어지는지 결정하는 데 도움이 되는 팁을 얻어 보세요. 

그러나 해당 임계값을 초과하는 방향으로 사용자를 얼마나 쉽게 유도할 수 있는지도 고려해야 합니다. 강력한 PPV 및 NPV를 갖는 임계값을 찾았지만 사용자를 유도하기가 어렵다면, 해당 메트릭은 사용자 기반을 확장하는 데 별로 도움이 되지 않습니다. 사용자 중 몇 명이 임계값을 넘었거나 거의 모든 사용자가 이미 임계값을 넘었다면 이를 좋은 신호로 활용할 수 있습니다. 물론 항상 그런 것은 아니지만 더 구체적인 정보가 없다면 일반적으로 이를 통해 양호한 가정을 내릴 수 있습니다.

그렇기 때문에 컴퍼스는 상관 관계를 사용하여 이러한 임계값을 찾습니다. PPV, NPV 및 임계값을 초과하는 비율을 통해 상관 관계를 알 수 있습니다. PPV가 더 높거나 NPV가 더 높거나 임계값을 초과하는 사용자 비율이 50%에 가까워지면 상관 관계도 더 높아집니다. 마찬가지로, PPV가 더 낮거나 NPV가 더 낮거나 임계값을 초과하는 사용자 비율이 50%에서 더 멀어지면 상관 관계가 더 낮아집니다.

참고: 음의 상관 관계에 관해서는 명확성이 조금 떨어지지만, 컴퍼스를 사용할 때는 일반적으로 음의 상관 관계를 보지 않습니다.

 

동영상 학습