暇人日記

アラフォーおっさんのコーセラの機械学習の課題を解こうと頑張っています!

信頼区間を図で考えてみる

『差がある』といえるか-統計学-前編で書いた

式の詳細はおいといて、<信頼区間>は上限と下限があり

この例では 95%の精度で信頼区間は0.01-0.65となります。

 を図で考えてみたいと思います。

 

まず、信頼区間の意味です。

 

精度が95%とは95%の確率で平均値は信頼区間の間にあるということを

意味しています。

 

95%の信頼区間とは図にすると ↓で、平均値が95%の面積の中に

あることを意味しています。

 

f:id:omoshiroamericanews:20210204225717p:plain


これに

この例では 95%の精度で信頼区間は0.01-0.65となります。

の要素を加えます。

 

f:id:omoshiroamericanews:20210204230341p:plain

95%の精度で下限が0.01で、上限が0.65というのは↑のように

表現されると思います。

 

なので平均は0.01~0.65の間に95%の確率で存在することになります。

この0.01~0.65は投薬後-投薬前の差なので差がプラスのため、

効果があったと『差がある』ことになります。

 

99%の場合を考えてみます。

同じ課題を99%の信頼区間で考えた結果が↓でした。

精度が99%ではα=0.005になりt値は3.250となります。

この場合は信頼区間は-0.14~0.80となります。

 

図にすると↓になります。

f:id:omoshiroamericanews:20210204232436p:plain

99%の精度では下限が-0.14で、上限が0.80というのは↑のように

表現されると思います。

 

なので平均は-0.14~0.80の間に99%の確率で存在することになります。

投薬後-投薬前の差なので差がプラスだけではなくマイナスの可能性があるため、

効果があったとはいえない、『差がある』とはいえないということになります。

 

 

最後にz値とt値の95%の信頼区間を横並びにしてみてみたいと思います。

 

f:id:omoshiroamericanews:20210204232753p:plain

95%という同じ信頼区間ですが、図には違いがあります。

t値は標本数が少ないときに用いるものでしたので、

イレギュラー値の影響を色濃くうけて両端が上がるという話でした。

(図ではあんまりそう見えませんが。。。)

なので、両端が盛り上がっていて面積2.5%分を確保すると、

信頼区間の上限/下限の分岐点はz値より端によっていきます、と理解しています。

 

とりあえずこの理解で仮説検定に進んでいってつじつまがあわなくなったら

戻ってきたいと思います。

 

今回はここまでです。また次回頑張ります!