模試を受けたときの自分の成績を評価する際や、受験でどこの大学を受けるか決める際に指標となるもののひとつに「偏差値」があります。
勿論、成績や受験において偏差値が全てではありません。
今回は、テストを受けた後に与えられる数としてではなく、統計学において定義され、数学的考察をする対象であるひとつの値として扱ってゆきたいと思います。
ただの数を「数学モード」で眺めることで何がわかるのか、見てゆきましょう。
本記事では記述を簡単にするために、前回の記事「ベクトルで理解するデータの分析 〜平均値から相関係数までの求め方〜」で説明したベクトルによる記法を採用します。
偏差値を定義しよう
偏差値を考えるモチベーション
\(n\) 人がテストを受けたものとし、それぞれの獲得点数 \(x_1,x_2,\cdots,x_n\) を縦に並べた数ベクトルを
$$
x=\left[\begin{array}{c}
x_1\\ x_2\\ \vdots\\ x_n
\end{array}\right]
$$とおきます。
このとき、データ \(x\) の平均 \(\overline{x}\) と標準偏差 \(s\) は
\begin{align*}
\overline{x}&=\langle x, \mathbf{1} \rangle,\\
s&=\|\widetilde{x}\|\quad(\widetilde{x}\ \mbox{は “偏差ベクトル’’})
\end{align*}と計算できます。
この平均と標準偏差によって、データの分布をヒストグラムで書いたときの山の位置と広がりが決まります。
例えば、
のような分布は平均と標準偏差が異なります。
その位置と広がりがどうであれ、成績や受験において重要なのは
「自分がその山のどの位置にいるのか」
という自分の相対的なポジションです。
それを一々「山の位置がどうだ」「山の広がりがどうだ」と言ったように考えるのは面倒なのです。
そこで、
ヒストグラムの山が「正規分布」と呼ばれる分布に概ね従う
という前提の下、その山をいつも同じ位置と同じ広がりの山に変換し、山の中の自分の相対的なポジションを簡単に表してやろうと試みます。
正規分布とは自然や社会で頻繁に観測されるデータの分布で、その分布は次のような左右対称な山の形をしています。
上で見たヒストグラムは、共に正規分布に従う分布を表しています。
変量を変換して山の位置と広がりを揃える
データ \(x\) に対して、\(c>0\) と \(x_0\) を定数として
\begin{align}
u=\frac{x-x_0\mathbf{1}}{c}\tag{1}
\end{align}と変換すると、データ \(u\) の平均 \(\overline{u}\) と標準偏差 \(s_u\) は
\begin{align*}
\overline{u}&=\frac{\overline{x}-x_0}{c},&
s_u=&\frac{s}{c}
\end{align*}となります。
ここで、基準にしたい山として「平均値 \(50\), 標準偏差 \(10\) の山」を考えます。
(縦軸が非常に小さい値なのは、グラフと横軸が挟む領域の面積を \(1\) にするためです。確率の考えに基づきますが、ここでは深入りしません。)
まず、\(\displaystyle \frac{s}{c}=s_u=10\) より
$$
c=\frac{s}{10}
$$となります。
次に、\(\displaystyle \frac{\overline{x}-x_0}{c}=\overline{u}=50\) より
$$
x_0=\overline{x}-50c
$$となります。
これを式 (1) に代入して整理すると
\begin{align}
u=\frac{10}{s}(x-\overline{x}\mathbf{1})+50\mathbf{1}\tag{2}
\end{align}となります。
以上より, 式 (2) によってデータ \(x\) を \(u\) に変換すると、\(u\) は平均値 \(50\), 標準偏差 \(10\) の新しいデータとなるのです。
これが偏差値です!
上記のデータ \(x\) と、それに対して式 (2) で変換されたデータ \(u\) を考えます。
\({\rm A}_1\) さんの得点 \(x_1\) に対して、\(\displaystyle u_1=\frac{10}{s}(x_1-\overline{x})+50\) の値を \({\rm A}_1\) さんの偏差値といいます。
\({\rm A}_2\) さんの得点 \(x_2\) に対して、\(\displaystyle u_2=\frac{10}{s}(x_2-\overline{x})+50\) の値を \({\rm A}_2\) さんの偏差値といいます。
\({\rm A}_i\) さんの得点 \(x_i\) に対して、\(\displaystyle u_i=\frac{10}{s}(x_i-\overline{x})+50\) の値を \({\rm A}_i\) さんの偏差値といいます。
これが偏差値です!
偏差値とは
自分の得点を平均 \(50\), 標準偏差 \(10\) に規格化したもの
と表現することができますね。
偏差値のとりうる値とは
偏差値って \(100\) を超えるの?
高い偏差値をとるためには、簡単に言えば、みんな \(0\) 点なのに自分だけ \(100\) 点をとれば良いですね。
そんなテストを設定してみましょう。
– – – – –
フェルマーの最終定理を証明せよ。
(\(100\) 点満点で部分点なし。)
– – – – –
フェルマーの最終定理というのは1637年に書き表された数学の定理で、300年以上証明がなされず、1995年にワイルズという数学者が初めて証明を与えました。(フェルマーは証明を与えてはいないものとします。)
1995年に上記の問題を全世界に出題すれば、ワイルズ唯一人が \(100\) 点、他の人々は皆 \(0\) 点となりますね。
1995年時点の世界の人口は約57億人ですので、\(n=5,700,000,000\) としてワイルズの大体の偏差値を計算してみましょう!
\(x_1=100\), \(x_i=0\) (\(i=2,\cdots,n\)) として \(u_1\) を求めます。
式 (2) より
\begin{align}
u_1=\frac{10}{s}(100-\overline{x})+50\tag{3}
\end{align}であるので、\(x\) の平均 \(\overline{x}\) と標準偏差 \(s\) が必要です。
凡その値を求めたいだけなので、あまりにも \(n\) が大きいことから
\begin{align*}
\overline{x}
&=\frac{100+0+\cdots+0}{n}\\
&\sim0\\
s
&\sim\sqrt{\frac{(100-0)^2+(0-0)^2+\cdots+(0-0)^2}{n}}\\
&\sim0.001
\end{align*}と見做すことができます。(\(\sim\) は近似できるという意味で用いています。)
これらを式 (3) に代入すると
\begin{align}
u_1\sim\frac{10}{0.001}(100-0)+50=1000050
\end{align}となります。(他の人の \(u_i\) は \(\sim50\) ですね。)
偏差値 \(100\) 万!!
なんという結果でしょうか。
極端なテストをすれば偏差値は余裕で \(100\) を超えるのですね。
ただ、注意してくださいね。
偏差値を考えるモチベーションを話したときの前提「ヒストグラムの山が「正規分布」と呼ばれる分布に概ね従う」は崩壊しています。
右端の小さい四角がワイルズです。
ヒストグラムと関数のグラフ、とても同じものを表しているとは言えませんよね。
これは見やすさのため縮尺をいじっているので、本当は、もっと、もっと、もっとかけ離れています。
このように、前提が崩れると偏差値が意味をなさなくなってしまいます。
テストを作成する際の、この前提の重要性が少しは伝わったでしょうか。
偏差値ってマイナスになるの?
同様に、前提が崩れるほどの極端なテストを作って、実際にマイナスになる偏差値を計算してみましょう!
これはみなさんに課題として残したいと思います。
最後に
今回は、偏差値の定義の説明からから始めました。
偏差値が \(100\) を超える例を通して、前提である「正規分布に従うこと」が必要であることも感じていただけたかと思います。
偏差値のような正規分布を前提とする値を用いるときは、試験を事前にテストする必要があるかもしれませんね。
成績や受験における指標として与えられる単なる数として偏差値を捉えるのではなく、そこに疑問を持ち、数学的な考察をする対象として扱う。
そのような数学的な視点や姿勢を養えると、ものの見方が変わってきます。
コメント