스케일: 동적 행동 샘플링을 통한 이벤트 볼륨 관리하기

  • 업데이트 시간

Amplitude는 스케일 추가 기능을 통해 고유의 비용 관련 문제를 겪는 대규모의 고객을 위한 동적 행동 샘플링을 지원합니다. 샘플링을 통해 분석의 정확성을 저해하는 일 없이 데이터 비용을 관리 가능한 상태로 유지할 수 있습니다.

사용자 수준에서 Amplitude의 알고리즘 샘플링 프레임워크는 사용자 ID를 기반으로 이벤트를 샘플링합니다. 이는 추적된 사용자의 전체 이벤트 스트림을 보존하여 이들의 행동을 보관합니다. 또한 Amplitude 데이터의 무결성을 보장하는데, 잠재적으로 불완전한 데이터를 제공할 가능성이 있는 무작위 이벤트 수준의 샘플링과는 반대입니다.

샘플링이 활성화되면 Amplitude는 메트릭을 업샘플링하여 모든 차트와 모든 분석에 대해 매우 정확한 추정치를 제공합니다.

단순화하면, Amplitude가 이벤트와 사용자에게 (100% / sampling rate)의 값과 동일한 샘플링 인수를 곱한다는 의미입니다.

예를 들어 10%로 샘플링하는 경우 Amplitude는 추적된 이벤트에 10을 곱해 실질적인 이벤트 볼륨의 정확한 추정치를 제공합니다. 이렇게 하면 Amplitude의 모든 최종 사용자가 샘플링 레이트를 신경 쓰지 않고 분석에 집중할 수 있습니다. 

참고: 이 문서에서 설명하는 기능은 스케일 추가 기능을 구매한 Enterprise 고객에게만 제공됩니다.

각 Amplitude 차트에는 적용된 샘플링 레이트가 표시되어 효율적인 샘플링 레이트를 투명하게 전달할 수 있습니다. 

Scale_-_Transparent_Communication_chart.png

또한 지난 달과 이번 달의 프로젝트에서 발견된 원시 이벤트 및 샘플링 후의 이벤트 횟수를 확인할 수 있습니다. 여러분은 이를 통해 이벤트 볼륨에 실시간으로 액세스할 수 있습니다. 

Screen_Shot_2017-09-07_at_5.04.57_PM.png

참고: PROPCOUNT 결과에는 샘플링이 적용되지 않습니다.

샘플링 설정하기

샘플링 관련 변경 사항을 적용하려면 Amplitude 조직에서 운영자여야 합니다.

샘플링을 설정하려면 다음 단계를 따릅니다.

  1. Settings > Projects에서 확인하고자 하는 프로젝트를 선택한 다음 Sampling을 클릭합니다.

scale_1.png

  1. 모달이 열리면 dynamic sampling rate를 설정합니다.

scale_2.png

동적 샘플링 레이트를 통해 쿼리되는 데이터에 대한 빈도를 지정할 수 있습니다. 예를 들어 매년 5천만 명의 활성 사용자가 있고 10%의 동적 샘플링 레이트를 설정한 경우, 쿼리된 데이터는 매년 5백만 명의 활성 사용자를 포함하게 됩니다. 이벤트 비용은 훨씬 낮지만 그래도 매우 정확한 분석을 생성하기에 충분한 데이터가 있습니다.

  1. 다음으로 필요한 경우 user property inclusion list를 설정합니다.

scale_3.png

이 목록은 샘플링 프로세스에서 소규모의 주요 하위 집단을 제외하는 안전 리스트 역할을 합니다. 이러한 집단에 포함되는 사용자는 샘플링에서 제외되며, 항상 데이터에 표시됩니다. 이 집단은 여러분이 이 단계에서 선택하는 사용자 속성과 값에 따라 정의됩니다.

참고: 이 프로세스는 소급적으로 적용되지 않습니다. 또한  amplitude_logo.pngUser ID, amplitude_logo.pngID, amplitude_logo.pngDevice ID 속성은 사용자 속성 포함 리스트에 의해 지원되지 않습니다.

정확도 벤치마크

Amplitude는 백분율 오류 또는 95% 양측 신뢰 구간의 상대 표준 편차 측면에서 샘플링된 결과의 정확도를 벤치마킹합니다. 이는 표준 오차와 샘플링되지 않은 실제 결과의 함수입니다.

볼륨이 큰 고객(DAU 1천만 이상)은 5% 샘플링 레이트로 0.62%의 정확도 수준 내에서 결과를 얻을 수 있습니다. 또한 Amplitude는 특정 분석이 이러한 결과를 얻기 위해 DAU의 10%만 고려하면 된다고 가정합니다. 일반적으로 범위가 높을수록 정확도도 높아집니다.

다음 표에는 다양한 DAU 볼륨의 샘플링 레이트에 걸친 95% 신뢰 구간에서 백분율 오차를 보여 줍니다. 

DAU | 샘플링 레이트 25% 10% 5% 2% 1%
500,000 1.73% 2.76% 3.91% 6.19% 8.76%
1,000,000 1.22% 1.95% 2.76% 4.38% 6.19%
5,000,000 0.55% 0.87% 1.24% 1.96% 2.77%
10,000,000 0.39% 0.62% 0.87% 1.38% 1.96%
20,000,000 0.27% 0.44% 0.62% 0.98% 1.39%
50,000,000 0.17% 0.28% 0.39% 0.62% 0.88%

예를 들어 10,000,000명의 사용자의 10%를 샘플링하는 경우 모든 메트릭에서 0.62% 이상의 오류를 발견할 가능성은 극히 낮습니다. 따라서 잔존율이 16%인 경우 다음과 같은 분산을 얻게 됩니다.

+/- 0.62% * 16% = +/- 0.1%