手段としてのソフトウェア

作りたいものが見つからず不安なので,せめて何か蓄積したいと思いました。

手段としての統計

さて。

あまりに数学的に理解できず恥ずかしくて涙が出そうだけれども,まずは使っていきたいなと思う内容を書いておこう。なかなかPythonの勉強まで進まない。とほほである。

 

分散,標準偏差

データがどのあたりに散らばっているのかを掴むために使う。二つの要因を比較するときにも使えたりする。明らかにグループ間で分布が違うよね,みたいな。見ればわかることなんだけれども,まずは裏付けになる。

正規分布とは,データのうちの95%が±2SD (標準偏差) の範囲に収まっている状態を指す。

標準誤差

有限個のデータを収集し平均値を調べたいというときに,真の平均値がどの範囲に存在するかを推定するのに使える。また,誤差範囲はどの程度まで許容できるかを最初に定義しておけば,標準誤差は計算で求められるので,誤差が許容範囲内に収まるようにサンプルサイズを設計するのにも役立つ。

 

検定 (z検定,t検定,正確検定など)

ある仮説を検討する際,その仮説に対する帰無仮説が成立する確率 (つまり,仮説が大外れである確率) がどの程度かを推定するために使う。

データ数が1,000件以上得られるようならz検定を用いて問題ないが,数十程度であればt検定を用いたほうが無難である。また,データ数が多い場合にt検定を用いるのは問題ない。結果はz検定と一致する。

回帰分析

ある要因が,結果に対してどの程度影響があるかを調べるのに使う。結果をy (縦) 軸,調べたい要因を x (横) 軸に取ってデータを散布図にプロットしたとき,この x, y の関係を仮定して数式化した一次式 (y = ax + b) による回帰直線を考える。実際のデータから得られた x, y の値と,そのときの x を一次式に代入して計算される y の値の差,つまり「実データと回帰直線のy方向でのズレ」の2乗(=分散)の合計が最小になる (=最小二乗法) ような直線が回帰直線である。  

ここで重要なのは傾き (a) である。調べたい要因の変化が,得られる結果にどの程度影響しているかを示している。

 

回帰係数の標準誤差

前述の傾きの標準誤差を考える。これは,使用したデータのうちの1件が変化したときに,それが回帰係数にどの程度影響を与えるのかを見積もる作業と考えていい。

だから,同じデータ数であっても,x軸の値がどの程度ばらついているか,ということも考慮に入れる必要がある。十分間隔が離れていれば,あるデータ1件のy軸の値が1変化した,といった場合でも,他のデータとの間でΔxが1だった場合と,100だった場合とでは,得られる回帰直線の傾きへの影響は全然違う。だから,この計算は残差平方和(回帰直線から予測されるy値と実際のy値のずれの2乗の合計をデータ件数で割ったもの)を,実データのx値(=説明変数) の偏差平方和 (x値の平均値からのズレの2乗の合計)にデータ件数をかけたもので割って算出する。

 

重回帰分析

単回帰分析では一見相関がなさそうに見えるものでも,さらに説明変数を増やしてみて,グループ分けして考えてみると相関が見えてくる場合がある。こういう,複数の説明変数について一気に分析するのが重回帰分析。

説明変数は,それが例えば「男女」のような質的変数の場合は,0と1のダミー変数にして考える。