『完全独習　統計学入門』小島寛之

内容

統計学

統計学は、2つのパーツから成り立っています。

記述統計というのは、要するに、得られたデータからその特徴を抜き出すためのテクニック

推測統計というのは、統計学の手法と確率理論をミックスして、「全体を把握しきれないほど大きな対象」や「まだ起きておらず未来に起きること」に関する推測を行うものです。

これは、 20世紀になって確立された方法論で、「部分から全体を推測する」

統計というのは、観測されたデータの集まりですから、「過去に起きたことに関する記述」です。

他方、確率というのは、「未来に起きることに関する記述」

標準偏差

標準偏差というのは、「データが平均値の周辺にどのくらいの広がりや散らばりを持っているか」ということを表す統計量

標準偏差は、データたちの平均値からの離れ方を平均化したものである。

標準偏差は、まさに偏差の二乗平均となっている量です。

「バスは平均的には時刻表より1分遅れで到着するのだが、実際の到着時刻はその前後におおよそ2.6分ほど散らばっている、と認識していい」

１セットのデータの中におけるあるデータの偏差が、S. D.で測って±１個分前後であれば、それは「月並みなデータ」であるといえる。

また、±2個分の外側のデータである場合は「特殊なデータ」だといえる。

株取引にとっては、収益率の平均値だけでなく、そのS. D.も重要であることがわかりました。

だから、このS. D.には、特別な専門用語が割り当てられており、それをボラティリティ（volatility）といいます。

ボラティリティを日本語に訳せば「予想変動率」です。

つまり、平均値からどの程度の幅でブレが生じるか、それを意味する言葉だといえます。

つまり、株の収益率のS. D.＝ボラティリティは、株取引のリスクの指標だと考えることができます。

シャープレシオ

（Ｘのシャープレシオ）＝｛（Ｘのリターン）－（国債の利回り）｝÷（Ｘのリスク）

おおまかにいうと、シャープレシオは分数になっていて、分子がリターンの評価、分母がリスクの評価です。

したがって、分子（リターン）が大きければ、シャープレシオは大きくなり、また、分母（リスク）が小さくなっても、シャープレシオは大きくなります。

相対度数

各階級の度数の、全体の中に占める割合を計算する。

これを「相対度数」と呼ぶ。相対度数は足すと1になる。

標準正規分布

標準正規分布の性質

（＋1）〜（－1）の範囲のデータ（平均からS. D. 1個以内の範囲のデータ）の相対度数は0.6826（＝70パーセント弱）

（＋2）〜（－2）の範囲のデータ（平均からS. D. 2個以内の範囲のデータ）の相対度数は0.9544（＝95パーセント強）

一般の正規分布のデータセットは、単に標準正規分布のすべてのデータに一定数を掛けて、そのあと一定数を加える

データｘが平均値がμ、S. D.がσの一般正規分布のデータであるとき、ｚ＝（ｘ－μ）÷σという加工をすると、データｚは標準正規分布のデータになる。

正規分布は、平均値μと標準偏差σを与えると一種類に決まる。

統計学では、的中確率をできるだけ95パーセントぴったりにとろうとします。

したがって、余分な0.44の分を取り除くため、区間を若干狭めて「－1.96以上＋1.96以下」という範囲を「95パーセント的中」の予言区間ととるのが約束ごととなっています。

一般正規分布の95パーセント予言的中区間

平均値がμでS. D.がσの正規分布の95パーセント予言的中区間は、

（μ－1.96σ）以上（μ＋1.96σ）以下

一般正規分布を標準正規分布に直す公式

データｘが平均値がμでS. D.がσの一般正規分布のデータであるとき、

ｚ＝（ｘ－μ）÷σ

という加工をすると、データｚは標準正規分布のデータになる。

一般正規分布の95パーセント予言的中区間：不等式表示

データｘが、平均値がμでS. D.がσの正規分布に従う場合の95パーセント予言的中区間は、不等式

－1.96≦（ｘ－μ）÷σ≦1. 96

を解いて得られる範囲である。

「N枚のコイン投げで出る表の枚数」は近似的に「平均値が（N÷2）でS. D.が（√N÷2）の一般正規分布」になります。

たとえば、「100枚のコインを同時に投げたとき出る表の枚数」を多数回繰り返し観測して相対度数のヒストグラムを作成すると、「平均値が100÷2＝50で S. D.が√100÷2の一般正規分布」のヒストグラム＝5

先ほど紹介した法則より、「（μ－1.96σ）以上（μ＋1.96σ）以下」を予言すればいいわけですから、μ＝50、σ＝5を代入すればよく、

「（50－1.96×5）以上（50＋1.96×5）以下」＝「40. 2以上59. 8以下」

が95パーセント予言的中範囲となります。

つまり、「40枚から60枚が表になる」と予言しておけば、おおよそこの予言は当たります。

平均値＝（階級値×相対度数）の合計

偏差＝（データの数値）－（平均値）

分散＝｛（偏差の2乗）×相対度数｝の合計

標準偏差＝√分散

大数の法則

1つの母集団から、ｎ個のデータを観測しその標本平均ｘ－を作る。

このとき、ｎが大きければ大きいほど、標本平均は母平均μに近い数値をとる可能性が高くなる。

正規母集団からの標本平均の性質

正規母集団の母平均をμ、母標準偏差をσとするとき、そこから観測されるデータｘのｎ個に対する標本平均ｘ－の分布は、やはり正規分布である。

ｘ－の分布の平均値はμのままだが、標準偏差は（σ÷√n）となって、母集団に比べて√n分の１に縮む。

標本分散

観測データ（標本）から計算される分散を、「標本分散」と呼びます。

標本分散を計算するステップは以下のようになります。

ステップ1 まず、標本平均を計算する。

ステップ2 次に各標本から標本平均を引いて、偏差を作る。

ステップ3 各偏差を2乗して合計し、標本数で割り算する。

自由度ｎのカイ二乗分布をするＶ

標準正規母集団からのｎ個の標本ｘ1、ｘ2、… ｘnに対して、

V＝ｘ12＋ｘ22・・・ｘn2のように統計量Ｖを作ると、Ｖは自由度ｎのカイ二乗分布をする。

一般正規母集団からのカイ二乗分布するVの作り方

母平均μ、母標準偏差σの正規母集団からｎ個の標本x1、x2、…xnを観測し、

という形でVを計算すると、統計量Vは自由度ｎのカイ二乗分布をする。

統計量T

ステップ1 ｎ個のデータの標本平均ｘ－を計算します。

ステップ2 ｎ個のデータの標本標準偏差ｓを計算します。

ステップ3 標本平均ｘ－から母平均μを引いて、標本標準偏差ｓで割り、データ数から１を引いた数のルートである√n-1を掛けます。

これが統計量Ｔとなります。

ｔ分布の定義

ｔ分布の正式な定義は次のようになります。

標準正規分布するデータｚと、（それと独立で）自由度ｋのカイ二乗分布をするデータＷから

T＝（z√k÷√W）

と計算される統計量Ｔは自由度ｋのｔ分布をする。

面白かったポイント

難しい式がないので、初心者が統計の基礎について知ることができる良書。

初心者に統計を教える時にこの本をベースにするとうまく伝えられそうです。

満足感を五段階評価

☆☆☆☆☆

『完全独習 統計学入門』小島 寛之

内容

統計学