統計学からウェブマーケティングを考える(仮説検定)

  • このエントリーをはてなブックマークに追加
  • Pocket
  • LINEで送る

直近ひそかに注目を集めているキーワード。それが「統計学」です。Kindleの書籍上位にも統計学に関する本がどんどん上がってきている様です。この統計学、さわりを知っているだけでもウェブマーケティングにいい影響を与えられます。今回は統計学のさわりと、統計学から考えるウェブマーケティングの考え方について自分なりにまとめてみましたので書いてみますね。

統計を使ってウェブマーケティングがどうなるの?

まず、統計というキーワードですがどういう意味なのでしょうか。

統計学は、経験的に得られたバラツキのあるデータから、応用数学の手法を用いて数値上の性質や規則性あるいは不規則性を見いだす。統計的手法は、実験計画、データの要約や解釈を行う上での根拠を提供する学問であり、幅広い分野で応用されている。

とGoogle先生からはありました。

要するに「様々なデータを分析することで、ある法則を導き出す」ことです。

ウェブマーケティングで言えばサイトへの流入の分析を行い、例えば〇〇のユーザーが多い、〇〇という興味関心を持っているユーザー多い だから 〇〇という内容をもっと押し出そうという様に、分析から仮説を立て実行を移すための計画を立てるための道標です。
統計というと、数字を整理して、きれいなグラフにする、というようなレポートをイメージされるかもしれませんが、ウェブマーケティングで統計を活用する、というような話の場合、大きく以下の2つに分類されます。

  1.  仮説検定を用いて、ABテストの結果を評価する。
  2. 多変量解析を用いて、売上などに寄与する要素を分解する。

※他にも、2つの数字の間の関係性を調べる(ピアソンの積率相関係数)などありますが、今回はこれら2つに限定します。

仮説検定ってなに?

バナーAのクリック率が10%、バナーBのクリック率が20%、よってバナーBはより良い!というような評価をしている企業もあるかと思いますが、実は、これは正しくありません。

ウェブ系のセミナーでも、よくこういう間違いを、堂々と発表される恥ずかしい方がいるので、このような恥ずかしいことは避けてもらえれば記事を書いた意味があります。
例えば、このクリック率の結果が、10回の結果に基づいているとしましょう。つまり、以下のような感じです。

バナーA バナーB
imp(表示回数) 10 10
click(クリック数) 1 2
CTR(クリック率) 10% 20%

この表をみて、統計的に違和感はありませんでしょうか…?

その疑問、正解です。

おそらく違和感を覚える人の考えは「表示回数が少なすぎて、これらのクリック率が単なる偶然の結果であることを否定できないでしょ。」という考えがあるんじゃないでしょうか。

では、実際にどのくらいの表示回数があれば、妥当性のある数字なのか?

「そんなの、適当に数多くすればいいじゃん。」というのが、いけてない会社の反応ですね、こういう担当者とは付き合わない方がいいです。

このような、適当さを排除して、『○○回以上表示回数があれば、このクリック率は偶然の結果ではなく、必然の結果である。それは統計学として出てますから。』と、はっきりした答えを提供できるのが、統計の力なのです!

すごいと思いません?少なくとも私は、このような考えが可能なことを初めて知ったときは、エクセルでvlookupを初めて知った時と同じくらいの感動を受けました。
因みに、今回のケースだったら、それぞれの表示回数が200回くらいあって、クリック率が10%と20%の結果であれば、統計的に意味のある結果を言えそうです。

なぜimp(表示回数)が200なのか詳しい解説は末尾に書きますね。

最近の大手のウェブマーケティング戦略

最近では、このような統計分析をプログラミングに組み込み、統計的にお墨付きを得た結果のみを残していくような自動最適化が、24時間365日、動き続けています。

これこそ、ITの技術と、統計が融合した、今の時代のウェブマーケティングです。客観的に正しい数字で、しかも自動で休むことなく改善、PDCAを続けていく今のやり方に、旧来の勘・経験・ドンブリ勘定(略して、KKDというらしいです)のやり方が、敵う訳がありません。

ただ、今のマネジメント層にいる人間が、勘と経験で上のポストにのし上がってきたようなバカな人間が多いので「ビジネスの機微は、そんな数字だけじゃわからん!」というような態度でこのような取り組みが一蹴されることがあるのが、残念でならないです。

確かに、統計自体も分析の手法などで勘と経験が役に立つ場面はよくあるので、それを全て否定している訳ではありません。

もちろん消費者の心情などを見るために、数字ではなく実際の現場で肌感覚でしか捉えられないようなことも、確実にあります。ただ、「バナーのABテスト」などで、数字は出ているのに、「やっぱりこっちのバナーの方が、いけているから、こっちだ」というような、全く数字を見ないで、特定の人間の『意見』だけで、方針が決まっていくようなことは客観性を少しでも持っている人間であれば、腹落ちしないことかと思います。

私も、その一人です。

「この数字で、なんでその結論になる?」と思って、意見もするのですが、「デザインが~」などという抽象的な意見で一蹴されてしまうものです。その『デザイン』の結果が、数字に表れているから、数字が全てを物語っていると思うのですがね。

まあ、そういう担当者とは時間と労力の無駄なので仕事はすべきでは無いです。

少しでも統計が一般的になればきっと変わってくるかもしれませんね。

次回は、多変量解析を用いて売り上げの要因分解を行う、を解説したいと思います。
※バナーの表示回数の統計分析の解説(数式などが出てくるので、苦手な方は読み飛ばしてもらっても構いません。)

統計を用いたバナー効果の解説

今回利用した手法は、「χ(カイ)二乗検定」という手法です。

先ほどのバナーの効果に関しての回答をさせていただきます。

まず、誤りの例とした出した表示回数10回の場合、バナーAのクリック率は10%なので、クリック数は1回、バナーBのクリック率は20%なので、クリック数は2回となります。

そして、バナーAとバナーBを合わせた、クリック数全体の期待値は、

(1+2)/(10+10)=15%となります。

期待値を一言で表すと「確率的に考えて、起きる筈の値」でしょうか。あくまでも起きる「筈の」値であって、「必ず起きる」訳ではありません。
例えば、サイコロを1回投げて、出る目の期待値を求めます。

1~6の目が出る確率はそれぞれ1/6なので、
1*1/6+
2*1/6+
3*1/6+
4*1/6+
5*1/6+
6*1/6

21/6=3.5
ということになり、サイコロを振った際の期待値は3.5となります。

 
 クリック数(実数値)   クリック数(期待値)
バナー A  1 1.5
バナー B   2 1.5

ここで、
{バナーAクリック数(実数値)-バナーAクリック数(期待値)}^2 / バナーAクリック数(期待値)

{バナーBクリック数(実数値)-バナーBクリック数(期待値)}^2 / バナーBクリック数(期待値)

を計算すると、

χ二乗値、0.33が出てきます。

今回のケースでは、自由度1ですから、上限有意確率0.455で既にp値が0.5なので、このクリック率の差は、統計的に有意とは言えません。
参考:χ二乗分布表
http://www3.u-toyama.ac.jp/kkarato/2015/statistics/handout/chisqdist.pdf

これで、バナー表示回数を各200回にすると、上限有意確率0.01以上のχ二乗値となるので、このくらいの表示回数で、このクリック率の差(10%と20%)なら、統計的に有意な差であると言えます。

やっぱり統計って、面白い!

もっと知りたい方はこちらをぜひ読んでみてくださいね。

  • このエントリーをはてなブックマークに追加
  • Pocket
  • LINEで送る

SNSでもご購読できます。

コメント

コメントを残す

*