ブログ

以下の記事はMedium上のDatafrens.sgの出版物から取られています。ChatGPT 4.0を使用して日本語に翻訳されました。

Article

ベータ分布は、離散的な結果を持つデータのための連続確率分布です。例を用いて理解を深めましょう。地元のスーパーマーケットの店長が閉店前にバスケット内の残りの青リンゴと赤リンゴの在庫をカウントしたとしましょう。過去1ヶ月間、毎日午後6時に店長はバスケット内の全てのリンゴに対する青リンゴの割合と赤リンゴの割合を記録しました。これらの割合をx軸に、数をy軸に配置すると、数値はグラフ上を連続的に走ります。このように連続している場合、この分布を連続確率分布と呼びます。

次の仮定を置きます:

(1) 補充後、一日の終わりにはリンゴの総数は同じである。
(2) 青リンゴまたは赤リンゴのいずれかに対する季節的なプロモーションはない。
(3) 青リンゴや赤リンゴの販売は他の外部要因によって影響を受けない。
(4) 赤リンゴや青リンゴの販売数がバスケット内のリンゴの総数を超えることはない。
(5) データは正規分布によって特徴付けられない(例えば、現実には高い売上が毎日起こるわけではなく、低い売上が頻繁に起こる。これは商品販売においてよく観察される特徴です)。

スーパーマーケットは以下のデータを記録しています(赤リンゴの割合の一部サンプルのみ):

赤リンゴの割合 —
2023年9月1日:200/1000(バスケット内の全ての1000個のリンゴのうち200個が赤リンゴ)
2023年9月2日:330/1000
2023年9月3日:400/1000
2023年9月4日:350/1000
2023年9月5日:420/1000
2023年9月6日:740/1000
2023年9月7日:480/1000
2023年9月8日:550/1000
2023年9月9日:80/1000
2023年9月10日:200/1000

これらの割合を比率に変換すると:

2023年9月1日:20%
2023年9月2日:33%
2023年9月3日:40%
2023年9月4日:35%
2023年9月5日:42%
2023年9月6日:74%
2023年9月7日:48%
2023年9月8日:55%
2023年9月9日:8%
2023年9月10日:20%

ここで、これらは比率であって確率ではないことを明確にしておきます。

このデータと上記の仮定を基に、赤リンゴの販売が50%になる確率を知りたいと思います。しかし、これをヒストグラムにプロットすると、以下のような頻度プロットが得られます。

さて、これは右に尾を引いた(右に歪んだ)頻度プロットです。赤リンゴの販売が通常の正規分布に従わないことは確かです。高い売上を観察する機会は、低い売上と比べて不均衡であることがわかります。高い売上よりも低い売上を観察する方が容易です。それでも、分布の左尾と右尾が偶然によって特徴付けられているとは言えません。

気づいたかもしれませんが、私はデータから偶然を観察することに基づいて論じています。偶然と非偶然についてもっと理解するために、私が投稿した科学哲学に関する記事に時間をかけてください。

ベータ分布は私たちの質問に答えることができます。これは、αとβという2つのパラメータによって制御される分布です。両方のパラメータ値が同じであり、それらが1より大きい場合、下に凸の曲線になります。そして、両方のパラメータ値が同じであり、それらが1より小さい場合、上に凸の曲線になります。両方のパラメータ値が1である場合、それは直線になります。

Image taken from https://study.com/academy/lesson/concave-down-definition-function-graph.html

αの値を減らすと、パラメータ値が1より大きい場合は右に歪んだ分布になり、1より小さい場合は左尾が平らになります。

要するに、2つのパラメータ値を使用してデータの分布を作成できるということです。

では、どのようにしてαとβの値を決定するのでしょうか?これらの値を特定するためのいくつかの方法があり、その一つが最尤推定法(MLE)です。さあ、楽しい部分に入っていきましょう!

この場合のMLE法は、基本的に微分技術であり、私たちが微積分で学んだものです。思い出していただけると、微分技術は方程式の未知変数を0に等しい状態で見つける方法です。しかし、ここでは2つの未知変数があります—未知のパラメータと呼ぶべきでしょうか。この場合、MLE法は偏微分技術と呼ばれます。

MLE法を使用するためには、関数が必要です。基本的には、0に設定されたときに微分を計算できる数学的な公式です。ベータ分布においてMLE法に従う場合、対数尤度関数を使用します。(はい、いくつかの方はもうアドビルを手に取っているのが見えます!)私たちの目標は、この対数尤度関数を最大化することです。そこから、αとβの値を得るのです。

この関数についてもっと共有したいのですが、今後の議論に残しておきます。対数尤度関数についての議論は非常に技術的なものにならなければなりません。αとβの値を見つけたと仮定しましょう:

α = 5

β = 11

このチャートでは、x軸は先ほど述べた割合を指します。これらは販売された赤リンゴの比率です。y軸は確率密度関数です(ここでもう少しアドビルが必要かもしれませんね!)。この形、見覚えがありませんか?ガウス分布のように見えますね!

さて、αとβの値がわかりましたので、「赤リンゴの販売が50%になる確率はどれくらいか?」という質問に答えたいと思います。

この質問に答えるために、次のことを見つける必要があります:

P(x ≥ 0.5)

これを達成するためには、ベータ関数の逆数を使用し、それを0.5の(5-1)乗に掛け、(1-0.5)の(11-1)乗に掛ける必要があります。ベータ関数の説明は今後の議論に残しておきます。これはガンマ関数を含む数式なので、非常に技術的になるからです。(ああ!今すぐ医者に見てもらわないと!)

今はオンライン計算機を使用しましょう。赤リンゴの販売が50%に達する確率(厳密に言えば50%という単一点ではなく、少なくとも50%になる確率)は19.4%です。

Photo by JK Sloan on Unsplash

結論として、上述のデータに基づくと、赤リンゴの販売が50%以上になる確率は19.4%です。それほど楽観的ではないかもしれませんね。

赤リンゴの売上を伸ばす時が来ましたね!

Comment are closed.