暇人日記

アラフォーおっさんのコーセラの機械学習の課題を解こうと頑張っています!

仮説検定 前半

仮説検定は今まで書いてきた『差がある』といえるかと信頼区間を足した内容

だと思いました。

 

投薬は血中マグネシウム度上昇に効果があったのか、というのは

投薬後の血中マグネシウム度 - 投薬前の血中マグネシウム度がプラスだったら、

『効果がある』といえます。

 

ただ、投薬後の平均 - 投薬前の平均 だけで言い切ってはだめで、

↓のように95%の確率で平均値はプラスだから『効果がある』といえます。

 

f:id:omoshiroamericanews:20210204230341p:plain

基本的には差が信頼区間で95%だったり、99%だったりの部分に入るか入らないか

を基準としていると思います。

 

仮説検定の面白い点は帰無仮説と対立仮説という1セットの考え方だと思いました。

 

採用したくない、こうあってほしくない、という説を帰無仮説にして、

↑の図で信頼区間の外だと証明して、帰無仮説はあてはまってないから、

その反対の説=対立仮説が正しいというようにもっていくのが

仮説検定の考え方という説明でした。

 

血中マグネシウム度の問題で考えてみます。

 

帰無仮説は採用したくない、こうあってほしくないサイドの仮説なので、

「薬は血中マグネシウム度に関係ない」になります。

こうあってほしい仮説は「薬は血中マグネシウム度に関係ある」だからです。

(薬を開発した人からすると関係あっていてほしいはずです)

 

「薬は血中マグネシウムに関係ない」を数式で表すと、

投薬後の血中マグネシウム度 - 投薬前の血中マグネシウム度 = 0

となります。

 

ここで一度データを振り返ります。

f:id:omoshiroamericanews:20210127213508p:plain

 

とても差が0には見えませんが、統計学上はそれをどう説明するかに

興味がありました。

 

まず、Tスコアなるものがでてきます。

 

f:id:omoshiroamericanews:20210208211840p:plain

 

これはTの値が↓の図でどこに位置しているかを表しています。

f:id:omoshiroamericanews:20210208212017p:plain

95%の確率=有意水準である↑の場合であれば、Tが-2.262以下や2.262以上だったら、

信頼区間の外側にいるので、仮説が正しいといえないとなります。

 

考え方自体は『差がある』といえるかと信頼区間を足した内容だと思ったのは

この部分でした。

 

ではこのTスコアは何を意味しているかです。

 

f:id:omoshiroamericanews:20210208211840p:plain

 

f:id:omoshiroamericanews:20210208212524p:plainは投薬前平均と投薬後平均の差なので0.33です。(↑のデータ参照)

f:id:omoshiroamericanews:20210208212658p:plainは標本標準平均/サンプル数の平方根=標準誤差で0.14です。

f:id:omoshiroamericanews:20210208212911p:plainは仮説の平均です。

  ここでは投薬後の血中マグネシウム度 - 投薬前の血中マグネシウム度 = 0

  となります。

 

計算するとTスコアは(0.33-0)/0.14=2.29となります。

 

t値はサンプル数によって値が変わります。

今回のサンプル数は10なので↓の図となります。

 

95%だと2.29は信頼区間外なので帰無仮説を棄却、つまり

「薬は血中マグネシウム度に関係ない」と95%の有意水準でいえない、となります。

なので「薬は血中マグネシウム度に関係ある」となります。

f:id:omoshiroamericanews:20210208214953p:plain

 

一方、99%の確率の場合は2.29は信頼区間内となります。

「薬は血中マグネシウム度に関係ない」と99%の有意水準でいえる、となります。

f:id:omoshiroamericanews:20210208215037p:plain

なので、帰無仮説を棄却するのは有意水準を恣意的にいじればできるので、

実務ではどのようにしているのだろうと思いました。

 

次回は「薬は血中マグネシウム度を向上させる」という仮説検定に

取り組みたいと思います。

 

今回はここまでです。また次回頑張ります!