デジタルマーケティングに役立つ!統計入門【②ふんわり知識編】

前回の記事では、マーケティングに統計学が必要となる理由について解説しました。
例えば、「顧客の趣味・嗜好の傾向がわからない」といった課題は、通販サイトの「この商品を買った人はこんな商品も買っています」のように、統計を活かして解決することができます。

とはいえ、具体的にどういった知識があれば統計学をうまく使えるのかあの記事だけではわからないと思います。(むしろ、わかる方はこれ以降読む意味ないです)

ということで、今回はマーケティングで必要となる統計の知識についてふんわりと説明していきます。「t検定」だの何だのといった用語を説明しても長くなり、また世間には素晴らしい参考書が溢れているため、今回は説明しません。

どんな本にも絶対載っていて、なおかつ知らないとその後の勉強に支障が出る概念だけを解説します。本当にふんわりなのでさらに深掘りしたい方向けに専門書も最後にご紹介します。

 

マーケティングの理想と現実

まず、マーケティングの「理想」を考えてみましょう。

例えば、食品会社の人が消費者の動向を知りたいなら、日本中のスーパーやコンビニに調査員を配置し、自社製品を購入した人にもしなかった人にも年齢・趣味嗜好・味の評価などなどあらゆる情報を追跡調査すれば、ヒット商品を作るヒントが得られるでしょう。すなわち、この状況なら、得られたデータがそのままマーケットの実態を表します。

この状況は言い換えれば、データが無制限に得られるとも言えます。この時の値を「真値」と呼びます。現実には、無制限にデータが得られることはコスト面・時間面から考えて現実的でないので、データ集計・分析のミソは

① いかにして得られたデータ(実測値と呼びます)を真値に近づけるか

② 仮に得られたデータが予想した値とズレていた場合、どう説明するか

ということになってきます。それぞれの考え方を簡単に説明すると

① いかにして得られたデータを真値に近づけるか

突然ですが、お手元に携帯がある方はストップウォッチで5秒測ってみてください。

この記事を読んでいる皆さんはおそらく人間だと思うので、微妙な力の加え方の違い(外乱・ノイズと称されます)で結果は毎回きっちり5秒ではなく、バラバラになるはずです。

こういうズレを誤差と呼びますが、誤差が許容範囲に収まっているか知りたいな〜〜〜という時に役に立つのが検定です。検定は他にも色々役立ちますが、どんなものかものすごく大雑把に言うと、「仮説を否定する材料の有無をチェックする」ことです。次の章で詳しくご説明します。

② 仮に得られたデータが予想した値とズレていた場合、どう説明するか

理論値や予想と違っていた時、その原因は二通り考えられます。

  1. 単なる計測ミス
  2. 考慮していない要因があった

このどちらだったかを考えて、得られたデータは一般化できるものかどうか吟味してみましょう。簡単なクイズを出してみます。

Q. 例えば、甘党の人は酒嫌いという都市伝説がありますが、実際調査してみるとそんなことありません。これはサンプルの取り方がまずかったのか、それとも別の要因があったのか?取りうる対策を考えてみましょう。

 

・・・

 

A. 参考例を二つほど挙げてみます。

  1. サンプリングの妥当性を検討する場合
    性別や年代に偏りがなかったか・調査した数(サイズ)は適切かなどを再検討する
  2. 別の要因を考察する場合
    アルコールを分解するときに糖分を使うから、それが関係しているかも?などといった仮説が考えられます。

おつまみとしてカマンベールに蜂蜜を垂らして提供するお店がありますが、これは経験的に甘党でも酒嫌いとは限らないことを知ったからかもしれませんね。こうした経験的な知識を定量的に裏付けられるのが統計の強みです。

今まで経験的にこういう傾向があるよね〜って言われていたものやぱっと見では説明のつかない事象を、データで明示できることが統計のメリットです。統計的なものの見方がわかれば「プロの経験」を言語化することもできますし、業務引き継ぎの際のゴタゴタを減らせます。さらには、消費者のインサイトをも可視化できるかもしれません。

検定って何?

要は「仮説検証のためのツール」なのですが、特徴的なのは「仮説の正誤を確かめるために、もう一つ仮説を用意する」ことです。例えば、「3000円以上のお買い上げで5%オフ」という施策Aと「5000円以上のお買い上げで最高1万円分のギフト券が当たるクジが引けます」という施策Bどちらがコンバージョンに有効か調べたいとき、期待する仮説は「施策A, B間で違いがある」ことです。

ですがこの仮説が正しいかどうかで検定することは不適切です。なぜでしょうか。それは、証明するのが面倒だからです。今回のサンプルサイズが変化したら、結果はどうなるでしょうか?もしかしたら今回得られたデータは単にサンプルが偏っていただけで、サイズが変化すると結果も変わるかもしれません。

では、「施策A, B間で違いがない」という仮説を検討してみるのはどうでしょうか。サンプルサイズが適切だった場合も「たまたま違いがなかった」という可能性は低そうですし、偏っていてかつ「違いがない」というデータが得られる確率も低そうですから、この仮説が否定できないということは、我々が考えて来なかったものを考慮する必要がありそうです。

このように、否定しやすい仮説をあえて打ち立て、検証し、違いがあった場合は「元々否定しやすいものがありうるという結果=期待していた仮説が違った可能性が高いのでは(注1)」と言えますし、なかった場合はなかった場合で「元々否定しやすい(と思われる)仮説だったし今回は期待していた結果を覆しうる証拠は出せなかったってことだよね(注2)」と言えることになります。

ですから、検定は絶対の正解を得るというよりは、期待する結果が成り立たない場合を考え、それがどれくらい起こりうるか検証するというイメージです。数学に「背理法」という敢えて証明したい事柄と逆のことが成り立つと仮定し、その仮定の元だと矛盾が生じることを示して逆説的に証明したい事柄の正しさを示す方法がありますが、それと似たようなものです。

(注1)想定していないデータが得られたとき、それが偶然ではないとみなす基準を有意水準と呼びます。この基準は分析者が自由に設定でき、5%や1%にすることが一般的です。注意しないといけないのは、計算前に有意水準を設定しておく必要があることです。もし仮に有意水準を後から変えられるなら、極端な話全ての検定が有意になります。例えば何かの大会で◯点以上じゃないと予選突破できないと言われていたのに、後から期待してた結果じゃなかったからやっぱり□点に引き上げると言われたらずるいですよね。あれと似たようなものだと考えてください。

(注2)得られた結果がどのくらいの確率で正しいかを示す時、信頼区間という概念が用いられます。何度も書いていますが母集団そのものの特性を調べることは普通困難なので標本調査を行いますが、標本から得られたデータと母集団が持つデータが完全に一致するとは限りません。信頼区間は標本から得られたデータがどれくらい母集団の持つそれと一致しているか示すものです。

データとモデリング

たくさんの変数を同時に動かしたいときはモデリングに頼ります。ただ、人間の脳は同時に3つ以上のものが操作しようとしてもコントロールできないので、こうしたデータの扱いは専門家に任せた方が無難です。参考までにご紹介します。

回帰分析

差があるかどうかだけ知りたいなら検定で十分ですが、データ全体の構造を知りたいこともしばしばあります。特に、ある変数が他の変数に従っているかどうかを検討したいときは回帰分析と呼ばれる分析を用います。(変数が増えると「重」回帰分析になります。)

一般化線形モデル

データ全体の構造が知りたい場合も、例のごとく生のデータを扱うことは一般に難しいので、モデリングして分析することになります。線形(=大雑把に言うと、初期値さえわかればその後の挙動も解析可能)なモデリングは数学的に表現しやすいこともあり、正規分布だけでなく二項分布やポアソン分布(に近い形)も扱える一般化線形モデルがよく使われます。さらに発展したものだと階層ベイズモデルなどがあります。

おすすめ書籍

『統計学が最強の学問である』西内啓(ダイヤモンド社)

とても読みやすいのが特徴です。後半は数式が多いので、じっくり思考を整理しながら読むのがオススメです。具体例も豊富でバランスが良いです。

実践編・ビジネス編も合わせてどうぞ。

『ビジネスに活かす統計入門』内田学, 兼子良久, 矢野佑樹(日本経済新聞出版社)

数式が平易で、図も豊富です。

『マーケティング・サイエンスのトップランナーたち~統計的予測とその実践事例』朝野 熙彦(東京図書)

具体例が豊富でイメージしやすいです。今回ほとんど解説していない回帰分析についての知識が必要ですが、巻末に説明がついています。どのような場面で使われているのかわかるので勉強のモチベーションを保ちやすいのも◎

『統計学入門(基礎統計学Ⅰ)』東京大学教養学部統計学教室(東京大学出版会)

眠くなりますが(笑)厳密にやりたいならマスト。理論をきっちり学びたい方向け。

Related 関連記事

まずはお問い合わせください

お問い合わせ