この記事のテーマ:
|
実験が設計され、ユーザーにロールアウトされて、新しいバリアントとやり取りするのに十分な時間が与えられました。これで、仮説が正しいかどうかを確認することができます。
[分析]パネルでは、実験が統計的に重要な結果をもたらしたかどうか、そしてそれらの結果が実際に何であるかを一目で知ることができます。Amplitude Experimentは、デザインとロールアウトフェーズで提供した情報を取り出し、自動的にプラグインします。そのため、労力が節約できます。バリアントごとに結果を分解し、便利で詳細なテーブルの内訳を提供します。
注意: この記事は、実験のローリングに関するヘルプセンターの記事に続くものです。まだ読んでなく、説明のプロセスに従っていない場合は、次のステップに進む前に、読んでください。
各バリアントが100人の訪問と25のコンバージョンを持つまで、Amplitudeは、バイナリ指標(固有のコンバージョン)を使用する実験の統計計計算を生成しません。非バイナリ指標を使用する実験は、バリアントごとに100人の訪問に到達する必要があります。
実験結果を生成して表示するには、次のステップに従ってください:
- [分析]パネルにスクロールして、使用する分析タイプを選択します。
- 実験のエクスポージャーイベントを選択します。このイベントは実験に含まれる前にユーザーが発行しなければなりません。注意: エクスポージャーイベントは、割り当てイベントと同じではありません。たとえば、価格ページで実験を実行している場合、実験のホームページで評価される可能性があります。しかし、価格ページにアクセスしていない場合、実際に公開されることはありません。そのため、このユーザーは実験の一部であるとみなされるべきではありません。
- 実験情報の残りの部分(成功メトリクス、バリアント、成功メトリクスが測定される方法)は、すべて既に実験に記入されていなければなりません。それでも、再確認を怠らないでください。
- [実験設定]ドロップダウンパネルで、実験の信頼度レベルを設定します。デフォルトは95%です。
注意: 実験の信頼度レベルを下げると、実験が統計的な意義を達成する可能性が高くなりますが、その反面、実験の誤陽性の可能性も高くなることがあります。 - 事前に設定された期間の選択または日付ピッカーを開いてカスタム日付範囲を選択し、実験分析の時間フレームを設定します。
この時点で、チャートは実験結果を自動的に計算します。求めるものは、予測方向での統計的に重要な結果です。
結果を分析する
実験が初めての場合は、この記事の統計用語が難解であるかもしれません。実験プログラムを成功させるには、用語を理解する必要がありますが、それらの用語は見た目ほど複雑ではありませんので、心配しないでください。詳しく見てみましょう。最も重要な用語から始めます: 統計的意義です。
実験は、ランダムな可能性のために結果が発生する可能性が低いと確信することができる場合、統計的に重要であると言えます。(厳密に言うと、ヌル仮説を拒否する場合にそうなります。)これはかなり主観的なものに聞こえるかもしれません。「非常に可能性が低い」と思えるが、統計に固く基づいているとはどいうことでしょうか。Stats sigは、バリアントのp値に依存します。これは、バリアントとコントロールに違いがないと仮定したときに、私たちが見るデータを観察する可能性のことです。この確率が特定のしきい値を下回る場合(統計学者はこのしきい値をアルファと呼びます)、実験が統計的意義を達成したと考えられます。
アルファの値は、上記ステップ4で選択した信頼度レベルによって決定されます。たとえば、信頼度レベルが95の場合、αの値は1 - [ confidence_level / 100]、またはこの場合、0.05になります。p値がこれより低い場合、バリアントとコントロールに実際に違いがあると結論付けられます。信頼度が高く、より小さなアルファが提供されます。これにより、偽陽性(誤検出)のリスクが低くなります。しかし、意義を達成する前に、これにはより大きなサンプルサイズが必要になります。
関連するコンセプトは、信頼性インターバルです。これは、測定しようとしているパラメーターを含むさまざまな値としてみなすことができます。この場合、バリアントとコントロールの手段の違いです。これは確率ではありません。そうではなく、次のように解釈されます: この実験を実行して、信頼度レベルが95に設定されている場合、パラメーターの真価が少なくとも95回以内に落ちることが期待されます。
結果にスクロールすると、上部に意義インジケーターが表示されます。これにより、実験が統計的意義を達成したかどうかを知ることができます。達成した場合、最高パフォーマンスを達成するバリアントがハイライトされます。実験がまだ意義を達成していない場合は、結論付けるためにテストにさらに多くのデータが必要であるというメッセージが表示されます。
次に、各バリアントのサマリー統計です。他よりも大きい、上位の数字は、成功メトリクスイベントを発行したバリアントを参照するユーザーの割合を表しています。小さな数字は、コントロールバリアントに相対するそのメトリックの変化です。
同じ情報は、付属のチャートに表示されます。
以下は実験の結果表です。これには、実験の各バリアントの次の情報が含まれています:
- バリアントにエクスポーズされたユーザーの数。
- ベースラインに相対する主要メトリックのパフォーマンス。たとえば、成功メトリックの値がコントロールで2で、バリアントでは4である場合、この列は「4 (+2)」となります。
- 比例した変化を表す%リフト。前の例では、この列は「200%」となります。
- バリアントの信頼性インターバル。
- バリアントが達した意義レベル。
- 統計的意義に達するためにバリアントにさらされる必要がある追加ユーザーの数(まだそうなっていない場合)。
最後に、このモジュールの下部にさらに2つのチャートがあります。左側は実験の期間にわたって成功メトリクスが移動する信頼性インターバルを表示するチャートです。このチャートは、一度に1つのバリアントの結果のみを表示します; 表示するバリアントは、ドロップダウンメニューから選択してください。
右側は実験の期間中の各バリアントの1日のエクスポージャー率を表したチャートです。これは、QAに役立ち、実験のバリアントが期待した形で配布されることを保証するものです。
お疲れさまでした!実験の設計、ロールアウト、分析を正常に完了しました。
次へ進みましょう。
最初に、実験が失敗ではないことを覚えておくことが重要です。希望の結果が得られなかった場合でも、テストがstats sigに達していなくても、プロセスから何かを学ぶことができます。結果を踏み台として、変更や結果、顧客が製品に何を期待するか、また、それをどのように提供するかについての難しい質問に答えることができるようにしてください。
一般に、次のステップでは、別の実験を行うために仮説を立証するより多くの証拠を取集するか、または最高の結果を提供するバリアントを得てそれを実装するかどうかを決定する必要があります。実験は、Amplitude Analyticsで実験分析にエクスポートして、より深く探求することもできます。そこでは、ユーザーをセグメントして、より便利なインサイトを生成することができます。