AmplitudeのA/Bテスト機能は、標準的な統計技術に依存し、ベースラインを上回る可能性と統計的意義を特定します。この記事では、これらの計算について説明します。
ベースラインを超える改善
ベースラインを超える改善は、平均ベースライン(B)を超える平均バリアント(A)の割合です。
上回る可能性
Amplitudeは、ベイジアン法を使用して、ベースライン(B)を上回る可能性を計算します。この確率は、相違B –Aの分布に基づきます。BとAの個々の分布が通常の分布であると仮定された場合、相違B –Aは、平均と分布のあり方を示す正常分布(Gaussian)となります
。
AがBを超える可能性を見つけるには、Amplitudeは、0の右側に来る曲線の下の領域を決定します。
曲線または累積分布の下の領域は、エラー関数erfで表現できます。これは、μの平均とσの分布です。
Erfは数値近似で計算できます。Amplitudeは、上回る可能性を計算する同じアプローチを組み込んでいます:
erfが決定されたら、BがAよりも優れている可能性を計算する最後の数式は、次のようになります。
(ソース:AaronのO'Connell、 Aaron。「分割テストの数学パート2:より良い可能性」)
統計的意義
A/Bテストビューは、チャートの左上隅で統計的意義が達成されたかどうかを示します。Amplitudeは、95%の信頼性インターバルで2つの尾状のp値を使用して、結果を判断することができます。また、最高のパフォーマンスバリアントのみを参照します。
Amplitudeは、97.5%を超える可能性が重要なしきい値とみなします。2.5%の可能性も重要な結果ですが、これはパフォーマンスを低下させる可能性が大きいことを示しています。
誤検出を減らすために、Amplitudeは、重要性を宣言する前に、最小サンプルサイズを設定します。現在、この最小サイズは30のサンプルと5つのコンバージョンに設定されています。
30未満のサンプルサイズは、自動的に統計的意義がないとみなされます。
テストが統計的意義に達した場合、この緑色のテキストが表示されます:
そうでない場合、次の赤色のテキストが表示されます: