カイ二乗検定
Keywords
- 統計学
Contents
- 1. データを読むということ
- 2. 観測度数と期待度数
- 3. 統計的仮説検定
- 4. 参考資料
データを読むということ
Webサービスの企画・開発をしているシーンを想定します。
CV数の向上の一環で、CTAボタンのデザインを変更し、リリース前の一週間とリリース後の一週間とでCVの数を比較したところ、変更後はCVが15増加していました。
旧デザインのCTAボタンでCVした人: 45
新デザインのCTAボタンでCVした人: 60
この結果をみて、新デザインのCTAボタンの方が前より良いと言えるでしょうか?
実際は、CVしていない人の数も必要です。
下記のように、CVしていない人のデータも取得してみると、変更前のCVRは75%(45/60)で、変更後のCVRは60%(60/100)です。
旧デザインのCTAボタンでCVした人: 45
旧デザインのCTAボタンでCVしていない人: 15
新デザインのCTAボタンでCVした人: 60
新デザインのCTAボタンでCVしていない人: 40
このように率を考慮することが重要です。
しかし、だからと言って率だけ考慮しても意味はありません。たとえば、下記のようなデータだとしたらどうでしょうか。
旧デザインのCTAボタンでCVした人: 3
旧デザインのCTAボタンでCVしていない人: 1
新デザインのCTAボタンでCVした人: 6
新デザインのCTAボタンでCVしていない人: 4
確かに、旧デザインのCVRは75%(3/4)で、新デザインのCVRは60%(6/10)となり、率は変わりませんが、数が全然足りないと思わないでしょうか?この量のデータで違いがあるといえるのでしょうか?
本稿では、旧デザインのCTAと新デザインのCTAのCV数に、統計的な有意差があるかどうか判断する方法を説明します。
大きな流れは下記となります。
- 実際のデータ(観測度数)の取得
- 旧デザインと新デザインとでCVに影響がないと仮定したデータ(期待度数)の算出
- 観測度数と期待度数に差がないと仮定(差がないということは、旧デザインと新デザインとでCVに影響がないということ)
- 観測度数と期待度数に差を表すx2統計量を算出
- x2統計量をもとに、よくあることなのかめったに起きないことなのか算出
- めったに起きない事象であるため、[観測度数と期待度数に差がない]という仮定を棄却
- 観測度数と期待度数には統計学的に違いがあり、その結果、旧デザインと新デザインではCVに違いがあるということがわかる。
観測度数と期待度数
- 観測度数
観測度数は、先ほどのデータのことです。わかりやすいように表にしました。
- 期待度数
期待度数とは、旧デザインと新デザインとでCVへの効果がなかったと仮定して、CVとCVしていない人を計算したものです。旧デザインと新デザインのCTAの変更を無視すれば、65.625%(105/160)の人がCVしているので、変更前の合計60に105/160を掛けると39.375という数値がでます。同様に、それぞれ計算しました。
旧デザインのCV: 60 * (105/160)
旧デザインのCV: 60 * (55/160)
新デザインのCV: 100 * (105/160)
新デザインのCV: 100 * (55/160)
実際に観測した観測度数と、変更を無視した期待度数の差が大きければ、CTAボタンの変更によってCV数が変わると言えます。
統計的仮説検定
次は、これらを使って統計的仮説検定を行います。
帰無仮説として、観測度数と期待度数には差がないとします。
この差は、下記の式で算出することができ、X2統計量と呼びます。
Oijはi行j列の観測度数で、Eijは期待度数です。
実際に計算してみると、下記のようになります。
X2 = (45 - 39.375)^2 / 39.375
+ (15 - 20.625)^2 / 20.625
+ (60 - 65.625)^2 / 65.625
+ (40 - 34.375)^2 / 34.375
X2 = 3.74025974
この統計量は自由度1のX2分布に従うことが証明されています。
また、カイ二乗分布表で、確率変数と確率の関係を読み取ることが可能です。
有意水準を5%ととした場合は、棄却域は3.84より大きい値となります。 統計量は3.74のため、棄却域には入らないことがわかります。
つまり、観測度数と期待度数には差がないという帰無仮説は棄却できず、新デザインと旧デザインとで違いはみられない、ということになります。
有意水準を10%ととした場合は、棄却域は2.71より大きい値となります。 統計量は3.74のため、棄却域に入ることがわかります。
つまり、観測度数と期待度数には差がないという帰無仮説は棄却でき、新デザインと旧デザインとで違いはみられる、ということになります。