結論から言います。統計学は、少ない情報からより良い意思決定をするための「フレームワーク」です。そしてこれは、AIや機械学習が当たり前になったいまの時代に、ビジネスパーソンが持つべき最強の武器のひとつになりました。スターバードでも、統計学はMBAの一番最初に学びます。なぜなら、このあと出てくるマーケティングの分析、ポートフォリオ理論、デリバティブの基礎理論(ブラックショールズ式)——どれも統計の要素が土台になっているからです。いわゆる「MBAの理系科目」ですが、構えなくて大丈夫。今日は私ニックナカタニと一緒に、エクセルを叩きながら一歩ずつ進めましょう。
統計学は「最もセクシーな職業」——AIと機械学習の正体
「これから10年、統計学は最もセクシーな職業だ」。こう言い続けているのが、Googleのチーフエコノミスト、ハル・ヴァリアンさんです。
セクシーという表現はピンとこないかもしれませんが、たとえとしては分かりやすい。90年代、まだ誰もパソコンの価値を分かっていなかった頃、スティーブ・ジョブズやウォズニアックがコンピューターを作っていて、それが「最もセクシーな仕事」と言われていました。誰も見向きもしなかった領域が、時代の中心になった。いま、それにあたるのが統計学だ、というわけです。AIの時代だからこそ、統計学が猛烈に注目されている。
では、よく聞く「機械学習」と統計学は何が違うのか。統計学は、少ないサンプルから全体を予想する「推測統計」を使います。一方の機械学習は、大量のデータからより良い意思決定をするアルゴリズムです。一見、別物に見えますが、「データを使ってより良い意思決定を行う」という本質は同じ。どちらも「未来は過去とほぼ同じで、過去によく見られたパターンが将来も起こる」という仮定の上に計算しています。アルゴリズムの組み方まで、かなり重なっている。だから統計学を押さえておくと、AIや機械学習の理解も一気にラクになるんですね。
たとえば、全人口の一部であるサンプルから全体の数値を推定する、欠品しないために在庫をどれだけ持てばいいか決める、何人にアンケートを取れば仮説を証明できるか割り出す——こうした「何かを決めなければならない場面」で、より良い判断のよりどころを提供してくれる。それが統計です。AIが私たちの代わりに考えてくれるのも、根っこは同じ推測統計のテクニックです。
今日扱うのは、ばらつき、正規分布、信頼区間、そして相関と回帰分析の入口まで。仮説検定やt分布、回帰分析の本格的な実践は、続編の統計学2の記事に送ります。
ばらつき——分散と標準偏差で「ブレ」を数字にする
まずは「ばらつき」から。実用的な例で考えましょう。ある商品の4か月の出荷数の推移から、欠品しない在庫数を考えてみます。
ケースA:52、48、52、48。平均は50ですね。このとき欠品しない在庫数は、最大値の52です。
ケースB:60、40、60、40。平均は同じ50。でも欠品しない在庫数は60になります。平均は同じなのに、必要な在庫が違う。これがばらつきの正体です。
ここで「分散(バリアンス)」という言葉を覚えてください。求め方は、それぞれの値から平均を引き、それを2乗して、平均をとる。ケースAなら、52−50=2、48−50=−2。これを2乗すると、どちらも4。プラスとマイナスを打ち消すために2乗するわけですね。平均すると分散は4になります。
そして、この分散のルート(平方根)をとったものが「標準偏差(スタンダードデビエーション)」、記号はシグマです。ケースAなら、分散4のルートで標準偏差は2。先ほど答えてもらった「欠品しない在庫の上振れ分」とぴったり一致しますね。ケースBも同じように計算すると標準偏差は10。やはり一致します。
つまり標準偏差を求めれば、「平均からだいたいどれくらいバラついているか」が分かる。平均が同じでも、ばらつきが大きいほど標準偏差は大きくなります。エクセルでは関数 STDEVP(スタンダード・デビエーション・P)で一発で出せます。ここだけ押さえてください——ばらつきは標準偏差(シグマ)で表す。
正規分布——Z値と偏差値を使いこなす
次は正規分布です。あのベル(鐘)の形をした曲線、ベルカーブですね。身長やテストの点数は、ほぼ正規分布に従うと言われています。
自然界のものは、中心(平均)付近にたくさん集まる。日本人の身長なら170cm前後の人が大多数で、2mの人も150cmの人も少ない。この「真ん中に偏る」形が正規分布です。計算式では描けない曲線ですが、「そういうもの」と受け入れてください。
ここで偏差値です。テストの偏差値は、平均点を50点、標準偏差を10点として計算し直した値です。だから平均点が70点のテストでも、偏差値は50を基準に変換されます。そして偏差値70というのは、正規分布の中心(平均)から「Z値=2」だけ離れた場所のこと。Z値とは、正規分布で中心からどれだけ離れているかを示す値です。偏差値70=Z値2、と私たちは決めて読んでいるわけですね。ちなみに偏差値72くらいが東大に行けるレベルで、これはおおよそトップ1%。それだけ偏った成績の人が入れる、ということです。
信頼度とZ値で、在庫数を計算する
もうひとつ「信頼度」という言葉を入れます。95%の確率でその範囲に収まる、というのは、ベルカーブの全面積を100としたときの95%分の面積を指します。この95%の面積に対応するZ値は、もう決まっていて1.64。99%なら2.33です。
これを使うと、在庫数を確率付きで計算できます。式は、必要数 x = 平均μ + Zα × 標準偏差σ。Zαが「何%の信頼度か」に対応する値です。
例を見ましょう。平均50(偏差値50相当)、標準偏差5、信頼度95%のとき。50 + 1.64 × 5 = 58.2。つまり59個あれば、95%の確率で在庫切れが起きません。信頼度を99%にすると、1.64を2.33に変えて、50 + 2.33 × 5 = 61.6。62個あれば99%大丈夫、となります。95%で59個か、99%で62個か——どこまでの安全を取るかを、過去の数字を見ながら自分で設定できる。これは本当に実用的で、うちの会社でも在庫管理に使っています。
Z値そのものもエクセルで出せます。関数 NORMSINV を使い、95%と打てば1.6448、99%と打てば2.3263。「1.64」「2.33」というのは、この計算値を丸めたものだったんですね。これは「何%の面積がどのZ値に対応するか」を変換する関数です。
ポイントは、正規分布はZ値を使いこなせ、ということに尽きます。
母集団の推定——標本から全体を読む3つのパターン
ここからが推測統計の核心です。標本(サンプル)から母集団(ポピュレーション、全体)を推定します。代表的なものが3つあります。
推定では「両側検定」という考え方を使います。先ほどのZ値は「これ以上なら高い」という片側でしたが、推定では「この範囲に収まればOK、外れたらNG」と、高すぎても低すぎてもダメな両側で見る。だから95%の信頼区間なら、両端に2.5%ずつ割り振ることになり、対応するZ値は1.96になります(片側95%の1.64と区別してください)。
ひとつ目は平均の推定。たとえば自校の平均点から全国学力テストの平均を推定する、アンケートの満足度の平均から東京全体の満足度を推定する、といった場面です。式は在庫数のものと似ていますが、母集団の数で補正する「ルートN」が入ります。調べる数が多いほど(極端には全員調べれば)推定の幅はゼロに近づき、少ないほど幅が広がる。ルートNで補正されているわけです。
ふたつ目は確率の推定。標本の支持率から、選挙候補者の当選確率(全体の支持率)を推定するような場合です。イエス・ノーの割合を全体に引き伸ばすので、平均ではなく確率Pを使い、ばらつきの部分が P(1−P) という形に変わります。
例題で感覚をつかみましょう。あるクラス30人からランダムに5人を選び、化学テストの結果から、クラス全体の平均点の95%信頼区間を求めます(テストは正規分布に従い、母分散は既知と仮定)。両側95%なのでZ値は1.96(NORMSINVに97.5%と入れる値)、標準偏差はSTDEVPで算出、標本サイズは5。計算すると、答えは67〜94。サンプルが5個しかないので、ずいぶん幅が広いですね。
なお現実には「母平均は分からないのに母分散だけ分かっている」という状況はほぼあり得ません。本来こうした平均の推定にはt分布を使うのですが、ここではZの正規分布で考え方を体に入れるために、あえて母分散を既知と仮定しました。t分布での解き直しは統計学2の記事で扱います。
必要なサンプル数は何個か——マーケティング調査の実務
マーケティング調査でいちばん気になるのが、「どれくらいサンプルがあれば、その結果は確からしいと言えるのか」。無限に調べるわけにはいかず、お金もかかり、回答も全部は返ってこない。だから必要数の目安が欲しいわけです。
確率を問う場面が多いので、満足度80%を証明したい、といったケースを想定して計算します。例として、母集団1000社、標準偏差50%、標準誤差5%、信頼区間95%のとき。計算すると384、これを母集団1000で補正すると277になります。母集団を1万にすると369、10万にすると383。つまり母集団がいくら大きくなっても、384個くらい取れば、ほぼ確実に確からしいと言える。これはサーベイモンキー(SurveyMonkey)の必要サンプル数の計算とも一致します。
ここで標準偏差50%というのは、「YESかNOかが五分五分だった」場合を指します。回答がどちらか分からないときは50%で見ておけばいい。逆に、すごく偏っているときは証明がしやすい。10人に聞いて9人が「いい」と言うなら、もっと少ないサンプルで証明できる。同じ条件でも、90%に偏っていれば必要数は400人から192人に減ります。ざっくり、母集団1000なら270前後、1万なら370前後、精度を極めたいなら384くらい——この目安を覚えておくと実務でとても役立ちます。
相関と回帰分析——次回への入口
最後に、続編につながる入口だけ触れておきます。相関とは、2つのデータがどれだけ連動しているかを示すもので、相関係数R(コリレーション・コエフィシエント)で表します。Rが0.7〜1なら強い正の相関(片方が上がると、もう片方も上がる)、0付近ならほぼ関係なし、マイナスなら負の相関(片方が上がると、もう片方は下がる)です。エクセルでは関数 CORREL で計算できます。
この相関を土台に、満足度・平均単価・年齢・性別といった複数の要素から「何が結果を左右しているか」を読み解くのが回帰分析であり、マーケティング分析の本丸です。実際にエクセルの分析ツールで重回帰分析を回すと、要素を足すたびに説明力(あてはまり)が変わっていく——このあたりの実践は統計学2の記事でガッツリやります。
まとめ——統計は「より良い意思決定」の道具
今日のポイントを整理します。統計学は、少ないサンプルから全体を推定し、より良い意思決定をするためのフレームワークで、AI・機械学習とも本質を共有しています。ばらつきは標準偏差(シグマ)で表し、正規分布ではZ値を使いこなす。標本から母集団を推定する代表パターンは3つ(平均・確率・必要サンプル数)で、いずれもZ値の考え方が背骨になっています。
統計を身につけると、在庫管理(欠品しない数)も、アンケートの必要人数も、マーケティングのターゲット選定も、勘ではなく数字で語れるようになります。これはセールスのトレンド分析を統計で検証する話や、のちに学ぶポートフォリオ理論・デリバティブにもそのままつながっていきます。世界が数字で見えてくると、行動が変わります。
スターバードでは、こうしたMBAのエッセンスを「世界の見え方が変わる」順番で体系的にお届けしています。統計のように一見とっつきにくいテーマも、エクセルを叩きながら「使える形」で学べるのが特長です。「MBAに行かない人のための無料メール講座」では、本記事のような講義のエッセンスを少しずつお届けしています。よかったら、こちらからご登録ください。