仮説検定と回帰分析——統計を「使える道具」にする

結論から言います。統計の真価は、「仮説を数字で証明する(検定)」と「何が結果を左右しているかを読み解く(回帰分析)」の二つで発揮されます。前回の統計学1の記事では、ばらつき・正規分布・Z値・母集団の推定という土台を作りました。今日はその続編として、t分布、仮説検定、そしてマーケティング分析の本丸である相関と回帰分析を、私ニックナカタニがエクセルを叩きながら一気に仕上げます。ここまでやると、勘ではなくデータで戦略を切れるようになります。

t分布——サンプルが少ないときの「補正版」正規分布

前回、母集団の平均を推定する例題で「本来はt分布を使う」と予告しました。まずはそこから片づけましょう。

t分布は、正規分布よりも少し「潰れた」形をしています。潰れるというのは、真ん中の山が尖らず横に広がるイメージです。サンプル数が少ないとばらつきが大きくなるので、その分を補正してくれるのがt分布です。目安として、標本数が30より小さいときはt分布、30より大きいときは正規分布(Z)を使います。

ここで「自由度」という言葉が出てきます。これは潰れ具合を決める値で、自由度=標本数−1。自由度5なら一番潰れていて、15ならそこそこ、30を超えるとほぼ正規分布に肉薄します。実際、95%に対応する値は、正規分布なら1.644ですが、t分布だと自由度10で1.812、自由度30で1.697(約1.66)。少しずつ正規分布の値に近づいていくのが分かります。

そして大事なのが、t分布は「母分散が分かっていないとき」に使う、ということ。前回も触れた通り、現実には「母平均は不明なのに母分散だけ分かっている」状況はほぼあり得ません。だから母集団の平均を推定するときは、たいていt分布を使う、と決まっています。

計算の流れはZのときとほとんど同じで、二つだけ違います。ひとつはZ値をt値に置き換えること。もうひとつは標準偏差です。Z(正規分布)では STDEVP を使いましたが、t分布では「不偏標準偏差」を表す STDEVA を使います。ここだけ取り違えないでください。

前回の宿題、30人のクラスから5人を選んだ化学テストの例題を、今度はt分布で解き直してみましょう。平均は81、自由度は5−1で4、t値は自由度4・有意水準5%のもの、標準偏差はSTDEVAで算出。すると答えは60〜約101になります。Z版の67〜94より幅が広がりましたね。サンプルが少ないぶん、t分布がしっかり補正をかけて「広めに見ておきなさい」と教えてくれているわけです。考え方はZと同じ。違うのはt値とSTDEVAだけ、と覚えてください。

仮説検定——「逆」を棄却して証明する

次は検定(英語でハイポセシス・テスティング)です。これは「ある主張が正しいと言えるか」を、線引きをして検証する手法です。

ポイントは、証明したい仮説の「逆」を立てて、それを棄却するという、ちょっとひねった作法にあります。これを帰無仮説(ヌルハイポセシス)と呼びます。たとえば、「A店のラーメンの平均価格は他より高い」と示したいなら、「安い(差がない)」を仮説に立てて、それを棄却する。「この薬には効果がある」と示したいなら、「薬を飲んでも差がない」を仮説に立てて、それを棄却する。回りくどく感じますが、書き方の問題で、「逆を立てて否定できればOK」というのが検定の流儀です。

検定では「有意水準」というしきい値の確率(α)を設定します。これは前回のZ値と同じ考え方です。標本の平均が全体の平均からどれだけ離れているかを、標準偏差と標本サイズから統計量に変換する——これもZ値の計算そのものです。たとえばZ値が1.64より大きければ帰無仮説を棄却して「高い」と言える。低ければ「少ない」となる。有意水準5%というのは、95%の範囲に収まれば「差があるとは言えない」、外側に出れば「棄却できる(差がある)」と読む、というだけのことです。

片側か両側かは、仮説の立て方で決まります。「高い」「低い」のように一方向を問うなら片側検定、「差がない(=同じ)」を仮説にするなら、高すぎても低すぎても棄却なので両側検定になり、Z値は1.96を使います。これは前回の母集団推定で見た通りですね。確率を扱う場合は、これもまた p や 1−p が出てくる似た形の式になります。

なお検定では、標本数が100より小さいときに正規分布ではなくt分布を使います(推定のときの境界は30でしたが、検定はより大きい幅で見るので100です)。細かい使い分けはありますが、「Z値とt値で、どちら側に入るかを検証するのが検定」という幹を押さえておけば十分です。

相関係数R——2つのデータの連動を数字にする

ここからマーケティング分析の本丸です。まずは相関から。相関係数R(コリレーション・コエフィシエント)は、2つのデータがどれだけ連動しているかを示します。Rが0.7〜1なら強い正の相関、0付近ならほぼ関係なし、マイナスなら負の相関(片方が上がると、もう片方は下がる)です。

これがビジネスで効くのは、たとえば「40代の人は◯◯が多い」という仮説があるとき。40代のデータを持ってきて相関係数を取れば、その仮説を数字で裏づけられます。「20代と40代では好みが真逆」なら、年齢と好みに負の相関が出る、といった具合に、関係性を目に見える形にできるわけです。

エクセルでの求め方は二通り。身長と体重のデータがあるとして、散布図を描き、近似曲線を追加して「グラフにR²(R-squared)を表示」を選ぶと、Rの2乗の値が出ます。あるいは計算で直接、CORREL関数に2つのセル範囲を入れればRが出ます。実際にやると0.84。これは強い正の相関がある、ということですね。

R²はRの2乗で、グラフに出る値と一致します。2乗するとより厳しい方向(1に近いほど良い)に評価されるので、R²で見ることもあれば、Rで0.7以上を強い相関の目安にすることもあります。近似は線形(直線)で十分。指数近似などもできますが、話が複雑になるので、まずは線形でいきましょう。

回帰分析——線形回帰で「予測」する

相関が分かると、次は回帰分析です。回帰分析とは、ある変数y(結果)の変動を、別の変数x(原因)の変動で説明・予測・影響を検討する手法。マーケティングで顧客データを分析し、相関を調べるときの定番です。

いちばん基本の線形回帰(リニアリグレッション)は、データを直線で近似し、傾きと切片を求めます。たとえば「身長が1cm増えると体重が1.5kg増える」という傾きが出れば、その直線の式から「身長180cmの人はだいたい80kgくらいだろう」と予測できる。これは難しくないですね。

重回帰分析の実践——Excelの分析ツールでマーケティングを読む

ひとつの原因だけでなく、複数の原因を同時に扱うのが重回帰分析(マルチプル・リグレッション・アナリシス)です。たとえば顧客の満足度に対して、平均単価・年齢・性別がどう効いているかを見ていきます。

エクセルでやってみましょう。まずアドインの「分析ツール」を入れます(ツール→エクセルアドイン→分析ツールにチェック→OK)。すると「データ」タブに「データ分析」が現れ、その中に「回帰分析」が入っています。

満足度を結果(y)に、平均単価を原因(x)に入れ、ラベルをオンにしてOKを押すと、説明力は67%。平均単価と満足度には、まあまあ相関があります。そこに年齢も加えると95%に上がる。年齢も満足度に効いている、ということです。さらに性別を加えると97%に上がる。性別も関係している、と分かります。

要素を足すと説明力が上がることもあれば、下がることもある。下がったなら、その要素は満足度とあまり関係がない、という判断になります。そして、どちらの方向に効いているか——たとえば満足度が高いのは男性か女性か——は、出力された係数の中身を見て読み解いていく。あとはこれをひたすら繰り返すだけです。市販のマーケティング分析ツールは、この作業を自動でやって提案までしてくれますが、仕組みはこの重回帰そのもの。だから自分の手でも十分にできます。

統計をビジネスでどう使うか

重回帰の本当の使いどころは、「誰が満足度を高くしているのか」をビッグデータから切り分け、その理由づけに使うことです。たとえば30歳だけに絞って回帰をかけ、その層と何が相関しているかを見る。30代女性が買っていて20代男性が買っていない、といった複合的な相関も見える。2つの変数だけで足りるならCORRELで済みますし、多変数ならデータ分析の回帰でガシガシ回す。こうして「30代の満足度が高そうだ」と当たりをつけたら、そこを狙って施策を打つ——これが統計を使ったマーケティングの実像です。顧客を正しく切り分けるセグメントの話とも、ぴたりとつながります。

セールスの現場でも同じです。営業の売上トレンドを統計で検証すれば、「強気の予測が信頼区間に収まっているか」を機械的にチェックできる。100社・1000社の予測を一つずつ鉛筆をなめて読むより、統計に任せたほうが正確で速い——これはセールスマネジメントの記事で詳しく扱った通りです。

まとめ——検定と回帰で、数字が語り出す

今日のポイントを整理します。サンプルが少ないとき(推定で30未満、検定で100未満)はt分布を使い、計算はZと同じでt値とSTDEVAだけが違う。検定は「証明したい仮説の逆(帰無仮説)を棄却する」作法で、有意水準と片側・両側の見方さえ押さえれば怖くない。そして相関係数R(CORREL)と回帰分析(線形・重回帰)を使えば、何が結果を左右しているかを数字で突き止められます。

前回の統計学1で作った土台と、今回の検定・回帰。この二つがそろうと、在庫管理からマーケティング、セールス予測、そしてのちに学ぶポートフォリオ理論やデリバティブまで、ビジネスのあらゆる意思決定が「数字で語れる」ものに変わります。世界がデータで見えてくると、行動が変わります。

スターバードでは、こうしたMBAのエッセンスを「世界の見え方が変わる」順番で体系的にお届けしています。統計のような実務直結のテーマも、エクセルを叩きながら手を動かして学べるのが特長です。「MBAに行かない人のための無料メール講座」では、本記事のような講義のエッセンスを少しずつお届けしています。よかったら、こちらからご登録ください。