暇人日記

アラフォーおっさんのコーセラの機械学習の課題を解こうと頑張っています!

『差がある』といえるか-統計学-中編

NYのリンゴの価格とLAのリンゴの価格ではどちらが高いか、ということを

NY10個のサンプル、LA8個のサンプルをもとに考えるという課題の要約に

取り組みます。

 

①2つの母集団が正規分布 <--前回の日記と同じ

かつ

②2つの母集団は独立 <--前回の日記と異なる

かつ

③2つの母集団の分散は不明 <--前回の日記と同じ

かつ 

④標本数(=サンプル数)が異なる <--前回の日記と異なる

 

①③は前回と同じで、②④が異なります。

 

 

この差がどう影響を与えるかというと信頼区間の式が↓こうなります。

f:id:omoshiroamericanews:20210131210842p:plain

出典;Udemy
 

前回とかなり見た目が違います。

 

前回と並べてみます。

 

f:id:omoshiroamericanews:20210131211404p:plain

 

『差の平均』±『t値』X 『○○』という構図は同じで

『○○』の部分が違う感じに見えます。

 

なぜ違うかというのは講義でも触れられていませんでしたが、

『〇〇』の部分は差異の分散に関することなので、ここの求め方が異なる、

と理解しました。

 

なぜ『○○』の部分が違うのかは④標本数が異なるだからではないかと

実問題を解いていて思いました。

 

f:id:omoshiroamericanews:20210131212454p:plain

出典;Udemy

 

NYのリンゴの10個のサンプルの平均は$3.94で

LAの8個のサンプルの平均は$3.25で平均の差は$0.70です。

平均の差としてはこれが正解です。

 

ただ、差異の分散がどうなっているかと考えたときに

NYとLAでサンプル数が異なっているのはどう考えればいいのだろうと思いました。

 

というのはサンプル数=標本数が10と8のため、

差異が10にもならないし、8で考えるのも不自然になるからです。

 

これがサンプル数が同じ数の前回の日記のような場合だと

サンプル数10同士なので、差異のデータも10個になって、

ばらつき=分散がどうなってるといえますがサンプル数が異なっていると

差異の数が10とも8とも言い難くなると思いました。

 

試しに無理やり差異を10個にしてみました。

 

f:id:omoshiroamericanews:20210131213040p:plain

差異の平均がさっきは$0.70だったのに、今回は$1.345になり

明らかに間違いです。

 

なので無理やり差異を10個、もしくは8個作るのが無理だと思いました。

そうすると差異のデータがそもそもないのでばらつき=分散を考えれないので、

『プールした分散』が出てきたのだと思いました。

f:id:omoshiroamericanews:20210131213255p:plain

 

つまり<④標本数(=サンプル数)が異なる>だと↑の式になるのだと思います。

そして<②2つの母集団は独立>のときに<④標本数(=サンプル数)が異なる>が

起こる可能性が出てくるのだと思います。

前回の日記のように②2つの母集団(投薬前と投薬後)は従属のときは

<④標本数=サンプル数は同じ>になるのだと思いました。

 

今回の日記のパターン

①2つの母集団が正規分布②2つの母集団は独立③2つの母集団の分散は不明

④標本数が異なる

 

 

前回の日記のパターン

①母集団は正規分布②2つの母集団(投薬前と投薬後)は従属=標本数は同じ

③母集団の分散は不明

 

が実務上は一番多いのかと思って日記に書きました。

 

母集団の分散なんて不明なことが多いだろうと思ったのと、

今回の日記は日本とアメリカの○○動向の違いのような地域別分析のようなケースで

使うかなと思いました。

前回の日記はテストマーケティングの前後のようなケースで使うかなと思いました。

 

今回はここまでです。

 

また次回頑張ります!