暇人日記

アラフォーおっさんのコーセラの機械学習の課題を解こうと頑張っています!

『差がある』といえるか-統計学-前編

Deep Learning Specializationをうけるためには、

Pythonを理解したほうがいいと思い、このコースに取り組んでいます。

www.udemy.com

 

主目的はPythonに習熟したいだったんですが、コースの1/3を終えても

Pythonは出てこずひたすら確率/分布/統計の勉強となっています。

 

でも統計もやってみたいと思っていたので面白いです。

 

なぜ確率/分布/統計をやるかというとデータサイエンスには

土台として必要なようです。

f:id:omoshiroamericanews:20210117213150p:plain

出典;Udemy

 

肌感覚としては土台として必要というところがわからない点もあります。

ただ、Signateで取り組んだ課題のようにデータが5000のうち347が『1』で

他が『0』という圧倒的に『0』が大きいようなデータの分布が

NeuralNetworkの精度に影響したんではないかと思っていたので面白いです。

 

特に面白いと思っているのが『差がある』といえるか、

どうかの統計学的な裏付けです。

 

とある薬を飲むと血中マグネシウム度が上昇する、

ということを10人の被験者で効果があったかどうか『差がある』といえるかどうか

という問題がありました。

 

f:id:omoshiroamericanews:20210127213508p:plain

出典;Udemy

 

平均だけをみると投薬後が投薬前より増えているから

『効果があった!』と思うのですが、

平均はあくまで平均でデータのばらつきをみながら判断するべきというのが

統計学の考え方のようです。

 

統計学では

①母集団は正規分布

かつ

②2つの母集団(投薬前と投薬後)は従属=標本数は同じ

かつ

③母集団の分散は不明

 

のときは下記の式を用いて投薬後-投薬前の差についての

<信頼区間>なるものを計算します。

f:id:omoshiroamericanews:20210127213925p:plain

出典;Udemy

 

式の詳細はおいといて、<信頼区間>は上限と下限があり

この例では 95%の精度で信頼区間は0.01-0.65となります。

 

つまり投薬後-投薬前は95%の精度で0.01~0.65で+なので

効果がある『差がある』といえるという論理でした。

 

もしも信頼区間が-0.2~5.5であればプラスもマイナスもあるため、

効果があるとは言えない状態となります。

 

-0.2というのは投薬後が投薬前より血中マグネシウム度が下がっているので、

薬が効いていないということになるからです。

 

信頼区間の式を私なりに説明したものです。

f:id:omoshiroamericanews:20210127215552p:plain

理解に時間がかかったのが<t値>と<差異の標本標準偏差>です。

 

t値を理論も何もなく求める方法を先に書きます。

t値は↓の表で定められています。

縦軸が<n-1>です。今回の場合は標本数が10なので9になります。

横軸がα/2です。今回は95%精度なので1-0.95=αなのでα/2は0.025になります。

f:id:omoshiroamericanews:20210127221334p:plain

なので、今回のt値は2.262となります。
精度が95%ではα=0.025でしたが

精度が99%ではα=0.005になりt値は3.250となります。

この場合は信頼区間は-0.14~0.80となります。

信頼区間の幅は0.94です。

95%の信頼区間0.01~0.65だったので幅が0.64です。

 

精度が95%とは95%の確率で平均値は信頼区間の間にあるということを

意味しています。

95%の確率で差異の平均はプラスだから『差がある』といえたわけです。

 

精度99%にすると99%の確率で平均値が信頼区間の間にあるということなので、

確率をあげるために幅が大きくなっていきます。

なので95%の幅は0.64ですが、99%の幅は0.94と大きくなっています。

結果99%では差の平均がプラスにもマイナスにもなりえるので、

『差がある』とはいえなくなりました。

 

違う見方をすると90%の精度では『差がある』といえるけど、

95%の精度ではいえない、というように○○%の精度なら『差がある』といえる、

というように使えるのかなと思いました。

 

t値の理論的な話です(私の理解できる範囲ですが)

t値はスチューデントのt分布に基づいています。

絵は↓になります。

f:id:omoshiroamericanews:20210127222030p:plain

出典;Udemy

スチューデントのt分布は正規分布とよく似た形をしていますが、

両端が正規分布より大きくなっています。

これはスチューデントのt分布は標本数が少ないことを前提にしているため、

外れ値やイレギュラーな値の影響を正規分布より大きくうけることを表しています。

標本数が大きくなれば大きくなるほど外れ値やイレギュラーな値は

1/100000とかになって無視できるような割合になりますが、

標本数が少なく1/10や1/20になるとt分布になるということです。

 

t値は標本数が少ないときに使うものですが、

標本数が多いときはz値を使います。

 

おそらく標本数が少ない≒母集団の分散が不明となっていて

③母集団の分散は不明なとき

はt値を使うとレクチャーで言っているように思いました。

 

母集団の分散がわかっているときはz値を使うということだと思います。

 

次に<差異の標本標準偏差>です。

f:id:omoshiroamericanews:20210127215552p:plain

標準偏差というと↓の式と高校の時に習ったのですが

f:id:omoshiroamericanews:20210127224030p:plain

標本の標準偏差というと↓の式になるということです。

f:id:omoshiroamericanews:20210127224056p:plain

 なぜ分母がn-1になるのかわからないのですが、

とにかく母集団全数でなく部分、つまり標本のときはこの式を用いるようです。

 

今回はここまでです。

 

次回は講座内にあった

NYのリンゴの価格とLAのリンゴの価格ではどちらが高いか、ということを

NY10個のサンプル、LA8個のサンプルをもとに考えるという課題の要約に

取り組みます。

 

①2つの母集団が正規分布

かつ

②2つの母集団は独立

かつ

③2つの母集団の分散は不明

かつ

④標本数が異なる

 

どいう条件になります。

 

また次回頑張ります。