期間推定ツールを利用して実験を計画する

  • 更新

 

この記事のテーマ:

  • 期間推定ツールのコンポーネントを理解する
  • 期間推定ツールを使用して、統計的有意性を得るために必要な実験サンプルサイズと実行時間を計画する

期間推定ツールは、Amplitude Experimentで統計的有意性を得るために必要なサンプルサイズと実験の実行時間を特定し、実験を行う価値があるかどうかを判断するのに役立ちます。

注:Amplitude Experimentは逐次検定をサポートしますが、期間推定ツールは、T検定のサンプルサイズの決定のみをサポートしています。こちらをクリックして、逐次検定とT検定の違いの詳細をお読みください。

開始する前に

期間推定ツールを使用する際に考慮すべき点がいくつかあります。例えば、アクティブデプロイ、含まれるバリアント数またはユーザー割り当て(ロールアウトパーセンテージ)、関連する相互排除、ホールドアウト、またはルールに基づくターゲティングなどです。これらの変数は、実験の実行日数と、対象となるユーザー数に直接影響を与える可能性があります。

期間推定ツールは、実験の理想的な段取りを判断するために、計画段階と構成段階で使用することができます。期間推定ツールを使用する前に、少なくとも次の設定を行ってください。

  • 実験の主要指標を選択する
  • デフォルトの方向(増加)とデフォルトのMDE(2%)を確認し、必要に応じて変更する
  • ゼロ以外のロールアウトパーセンテージを設定する

実験の設定を増やすほど、推定が正確になります。[Plan](計画)タブと[Configure](設定)タブの項目をすべて完了すると、より良い見積もりを得ることができます。

期間推定ツールを使用する

期間推定ツールは、Amplitude Experimentの任意のタブからアクセスできます。最低限必要な設定が完了したら、次のステップに従って、実験の期間を推定します。

  1. 期間推定なしをクリックして、期間推定ツールを開きます。

durationEstimator.png

  1. 表示されるモーダルで[Exposure](露出)をクリックして、プロキシ露出イベントを追加します。プロキシイベントは、ユーザーが実験を受けると同時に開始します。主要指標の露出イベントと非常に類似しています。
  2. 必要に応じて、[+ where](+場所)をクリックして、プロキシ露出イベントにプロパティを追加します。
  3. 次に、推定する期間に必要なコンポーネントを確認します。期間推定ツールでは、固有のビジネスニーズと関連する履歴データに基づき、さまざまな指標を入力できます。これらの値は、デフォルトのまま使用するか、手動で調整することができます。変更は、統計的有意性に達するために必要なサンプルサイズと実行時間に影響を与える可能性があります。より大きなサンプルサイズでは、より長い実行時間が必要になります。

下の表は、期間推定値の生成に関係するコンポーネントを記載しています。

コンポーネント名とデフォルト設定 定義とデータ検証 統計的有意性に必要なサンプルサイズとの関係
信頼度レベル:95%

信頼度レベルは、実験を何度も行っても同じ結果を受け取ることができる確信度を示します。例えば、信頼度レベル95%は、そうではないのに結果が統計的に有意であると誤って解釈する(偽陽性)可能性が5%あることを意味します。

Amplitudeは、最低80%を推奨します。そうしないと、実験の結果が信頼できなくなる可能性があります。

0%と100%を選択することはできません。

信頼度レベルが大きいほど、サンプルサイズが大きくなる
コントロール平均:主要指標を選択すると、自動的に計算されます

コントロール平均は、プロキシ露出イベントを完了したユーザーの過去7日間(今日を除く)に選択した主要指標の平均値です。

過去7日間の平均に影響を与えた可能性のある、特別なイベントまたは休日が最近あった場合は、平均を調整することを検討します。

指標タイプに関係なく、0にすることはできません。コンバージョン指標では、これは1にすることはできません。コンバージョン指標では、.5は50%であり、.5%ではないことに注意してください。

コントロール平均が小さいほど、サンプルサイズが大きくなる
標準偏差:主要指標を選択すると、自動的に計算されます

標準偏差は、データの分散またはばらつき(各データポイントの平均からの隔たりの大きさの平均)を示します。数値指標にのみ表示され、バイナリや0~1コンバージョン率には表示されません。自動計算は、プロキシ露出イベントを完了したユーザーの過去7日間(今日を除く)にわたる主要指標の標準偏差に基づいています。

任意の正数。

標準偏差が大きいほど、サンプルサイズが大きくなる

検出力:80%

検出力は真の陽性の%であるため、変更のエラー率を測定するのに役立ちます。

実験の正確性がどの程度必要か、または潜在的な誤った結果に対してどのようなリスクを取ることができるか、という観点から検出力を考えてください。

0%と100%を選択することはできません。70%未満に設定しないでください。

検出力が大きいほど、サンプルサイズが大きくなる

テストタイプ:両側検定

片側検定は、平均と比較した変化の増加または減少を確認します。一方、両側検定は、増加と減少の両方を探します。 両側検定は、片側検定よりも大きなサンプルサイズが必要です
最小効果(MDE):2%

MDE、すなわち最小目標または最小効果サイズは、主要指標のコントロール平均を相対的に示します。絶対でも標準でもありません。例えば、コントロールのコンバージョン率が10%である場合、MDE2%は、コンバージョン率が9.8%から10.2%の範囲外になった場合に変化が検出されることを意味します。

MDEの値は、実験のコンテキストに左右されます。実験が成功するか判断するのに役立てるため、可能な限り最小の変化を使用します。

正のパーセンテージ。0%を選択することはできません。

MDEが小さいほど、サンプルサイズが大きくなる

推定結果の解釈

すべてのコンポーネントが入力されると、期間推定ツールが結果を表示します。これは、実験を実施する際に統計的有意性に達するために必要な推定日数です推定詳細には、実験を実施するために必要な総期待ユーザー数も表示されます。この総トラフィック推定は、過去7日間にプロキシ露出イベントをトリガーしたユーザーに基づいています。

期間推定ツールの結果が最適と考えられる30日よりも大きい場合に、1つまたは2つのバリアントの削除などのソリューションを提供します。結果が組織にとって合理的な時間枠以内の場合、期間推定ツールは、推定日数が「実験を実行するのに最適な時間」であると宣言します。

primeResults.png

実験の実行時間の削減

期間推定ツールの結果が、希望より長い実行時間を示すことがあります。その場合は、以下を検討して、実験の実行時間を短縮してください。

  • エラー率を変更して、必要なサンプルサイズを減らす。
  • 主要指標と露出イベントを変更する。
  • ターゲットユーザーを増やす。
  • 外れ値の重みを減らすために、標準偏差を変更する。
  • 最後に、実験が実行時間の価値があるかどうか、または中止すべきかどうかを判断する。

結局、期間推定ツールを使用して実験を計画する際に役立つ値は、ビジネス目標に応じた固有のニーズと、実験を実行する上で負うことのできるリスクに基づいています。実験設計段階について詳しくは、こちらをクリックしてご覧ください。

デバッグ

推定ツールを実行しようとしたが、エラーメッセージが表示された場合は、warningIcon.png(警告)アイコンを参照し、以下のステップを試してデバッグします。

  1. プロキシ露出イベントのデータがあることを確認します。
  2. プロキシ露出イベント後に計量を行った人がいるなど、指標データがあることを確認します。
  3. プロキシ露出イベントが選択されましたか?
  4. コントロール平均が0または1になっていませんか?
  5. MDEが0%になっていませんか?
  6. 信頼度レベルが0%または100%になっていませんか?
  7. 検出力が0%または100%になっていませんか?
  8. パーセンテージロールアウトがゼロでないことを確認します。
  9. デプロイのための割り当てイベントはありますか(例えば、新しいデプロイを作成したばかりなど)?デプロイをいったん削除し、期間推定を再実行し、デプロイに再び追加してみてください。