3. 「統計的に有意」とは?

「統計的に有意」とはどういうことか。解説の前に「効果」とは何かについてお話しします。

効果:一言でいうと、差のこと

例えば、「このマシンを1ヶ月使用すると平均で2kg体重が落ちます」「このシステムを導入すると平均コンバージョンが10%上がります」といった広告の文言は、効果があることをうたっているものですよね。こうした効果を客観的な数字によって表し、消費者に信用してもらおうとするものについて、近年はその書き方が問題となっています。その代表例が広告です。私自信、広告代理店の方などから「論文を書くわけでもないのに統計的な証明も必要なのか?」という相談を受けることも多いのですが、判断する側(じゃあこのサービス使ってもいいかな?)と商品・サービスを提供する側(このエビデンスで十分なのか?)の双方にとって、統計的な証明は必要です。

判断する側でいえば、例えば広告出稿者がWEB広告を実施するときに、デザインAかデザインBで迷っていたとします。このとき、反応率はAの方がよかった、つまりAとBで差があったので効果があると考えるかもしれません。しかし、果たしてその差は誤差ではないのか、またサンプルサイズは適切な量かという点を明らかにしなければなりません。

この点について、効果があるかどうかの見極め方を簡略化してお伝えすると、

効果量:効果の大きさ(差)
サンプルサイズ:その差は誤差ではないかどうか

の両面に着目することで、効果があるかどうかを判断できます。その判断基準となる値を

有意確率(p値)

といいます。統計的に分析したレポートや論文のほとんどにはこの値が掲載されています。この有意確率は0~1の値をとるのですが、この値が小さければ小さいほど、「統計的に有意」といえます(多くの場合、0.05未満で「有意」と判断します)。

ではもう一方の商品・サービスを提供する側、広告代理店が統計的な証明を必要とする例でいうと、ランディングページの審査が年々厳しくなってきており、ビフォーアフターを載せる際などは外れ値を使用しにくくなっていることが挙げられます。外れ値ではなく、広く一般にも当てはまるような確率的に無理のない範囲で掲載することが必要なのです。動画ではダイエット広告を例に説明していますので、気になる方は動画を参照してみてください。

つまり、数字を載せているからといってそれがエビデンスとは一概にはいえない。それは統計的に正しいのか?と疑ったり、提示することが必須の時代となってきていることを意識しておくようにしましょう。

上で述べた有意確率についても、効果の大きさが同じでもサンプルサイズが大きいほど有意確率が小さくなり、「統計的に有意」になりやすくなってしまうという数学的なトラップがあります。この性質を逆手にとって、主張を裏付けるために有意確率が小さくなるまでデータを集め続けるような行為はおすすめしません。大切なのは、有意確率だけではなく、そもそもどれくらいの効果があるのかという指標である効果量も併せてチェックするということです。最後に、この効果量の指標の中で分かりやすいものを1つだけ紹介したいと思います。

4. 相関関係と因果関係

相関とは、2つの値の関係性の度合いを表します。「この数字には相関がありまして…」といった言葉は皆さんもどこかで聞いたことがあると思います。例えば、身長と体重を散布図に表したとき、右肩上がりに直線的な傾向が見られたとします。このとき、身長と体重には正の相関があるといえます。逆に、一方が上がれば一方が下がるという直線的な傾向は負の相関といいます。

またこのように相関がある関係について、相関の強さを数値化したものを相関係数といいます。この相関係数こそ、効果の大きさを表す指標である効果量の一つです。相関係数はマイナス1から1の値をとり、絶対値が1に近づくほど相関が強いということを表します。目安としては、0.4~0.5以上で相関が強いというように捉えることが多いです。

アイスコーヒーの注文数と気温の関係

相関係数はビジネスの場面で多用されることが非常に多いのですが、注意すべき点が1つあります。それは、

相関関係≠因果関係

ということ。あくまで相関関係は2つの値の連動性の指標であり、一方の値を変化させるともう一方の値も変化する因果関係とは異なります。例えば、警察官の多い都道府県は犯罪件数が多いというデータを見ると、警察官数を減らせば犯罪件数が減るってこと?と考えてしまう方もいるかもしれません。しかし言い方を変えて、警察官の数を減らすという原因によって、犯罪件数が減るという結果が起きるのかといえば、そうではありません。こういった例を、

疑似相関:2つの事象に因果関係がない(かもしれない)のに、見えない要因(潜伏変数)によって因果関係があるように推測されること

と表します。この見えない要因とは、警察官数と犯罪件数の例でいえば人口に該当します。人口が多いということは必然的に警察官も犯罪件数も多くなるので、実は警察官数と犯罪件数、そして人口の3者の間で相関関係があったということです。相関関係は調べればすぐ分かるのですが、それが必ずしも因果関係になっているとは限らないので解釈には注意してください。

警察官数の多い都道府県は、犯罪数が多い?

では、相関関係が確認されたら何をすればいいのか。それは

そこからどんな仮説が立つだろうか?を考えること

です。データから分かることのほとんどは相関関係であり、逆にいうと相関関係しか分からないことが多いです。なので、そこから因果関係の仮説を立ててみることをおすすめします。仮説や課題の立て方については、LESSON2をご覧いただければと思います。また、実際に相関関係と因果関係の検証についてはテクニックがあるのですが解説が長くなってしまうので、気になる方は別途教材をご覧ください。

今回のレッスンは以上になります。ありがとうございました。