数字に強くなったほうがよい理由 −統計やってみませんか?−

数字に強くなったほうがよい理由なんて書いてみようかと。(^^;)

私は、中学校卒業までに、統計学をきちんとやっておいて欲しいなって思っています。
現代社会において、生きる知恵としての統計学を、義務教育中に学んで欲しいと思っています。
生活の知恵ですよ。
それが義務教育内で受けられるんであれば良いな〜と思いません?奥さん。

だってね、世の中、いろんな操作された情報が飛び交ってるじゃないですか。
例えば、

 ●●誌読者によるアンケートで一番欲しい化粧品No.1に選ばれました

というキャッチコピーとかね

 ▲▲新聞:■■省の調査でサラリーマンの○%が▼▼を支持している

というニュースとかね。
「統計」という数学的な情報を中途半端に使うことで、
数字を使うことであたかも正しい情報と思わせるよう、
人の意識をコントロールできるわけですよ。

そんなコントロール、されるよりは、されないほうがいいと思いません?
いや、多少は影響受けちゃうのはしょうがないとして、
できれば、変な情報に騙されたりすることが減ってくれれば、うれしいと思いません?

じゃあ、どういう知識を持っておけばよいか、
例を挙げて説明してみましょう〜。

例えば、
 日本人の80%が花粉症で苦しんでいます。
という情報があった場合、
 1) 平日に渋谷駅辺りにいる100人を対象にして行った調査
 2) 全都道府県から任意に選んでもらった100人、総計4700人を対象にして行った調査
 3) 日本国籍を持つ全員に対して行った調査

のどれが一番信用できる情報でしょうか?

3が一番信用できる情報ですよね。
なんたって、日本人全員に対して行っているんですから…。

しかし、実際問題として、全員からアンケートの結果をもらうというのは無茶です。
だって、アンケートめんどいって人とか、海外にいてどこにいるのかわからない人とか
どうやってアンケート集めるんでしょうか。
オマケに、そのアンケート結果を集める方法はどうしたらいいんでしょうか。
その集める方法もアンケートを出してくれる人に対してあまり負担のかからない方法を
とか考えたら、
 ・調査員を派遣して、一人一人聞いて回る
 →何年かかるやら&何人必要だ&重複しちゃうかも(汗)&人件費は馬鹿にならんぞ
 ・郵送でお知らせ&返信してもらう
 →返してくれない人が出る&郵便費用結構莫大&1世帯あたり何人分用意すりゃいいの?
…かなりたくさんの問題がありそうですよ。

…そういうことをいろいろと考え出すと、
  全員から回答を得るのは実質不可能
なんて結果になっちゃうんですよね。(^^;)

じゃあ、どうするか。
全員から回答をもらわなくてもいいや〜って開き直る方法があります。(^^;)

でもね、その「開き直り方」にもコツが必要になります。

例えば、
 テキトーでいいじゃん、あちこち回るのも面倒だし、数多かったらメンドクサイ
といって、1の「平日の渋谷駅前の100人を対象」とする方法をとったとします。
私自身、渋谷には数回しか行った事ありませんが、
午前中・午後・夜とで、訪れる人たちにばらつきはあるものの、
 ・比較的年齢層が偏っている(若めの人が多い)
 ・首都圏に住む人間が訪れる確率が高い

という感じがあります。
そういう状態で、約1億2600万人いる日本人口(2005年11月現在)に対して、
若い年齢層(おそらく首都圏に住む)の100人を対象としたところで、
本当に日本全国の花粉症の人たちをカバーできているのか?
という疑問が出てくると思います。

さて、ここでようやく出てくる統計のただ数を数えて割合を出す以外の知識。(^^;)

基本的にある集団(これを母集団と言います)に対しての統計調査を行いたいとき、
いろんな理由で母集団のすべてに対して調査が出来ない場合には、
標本調査という調査を行い、
母集団での統計の結果を推定すると言う手法をとることがあります。

標本調査というのは、ある集団(母集団)の一部をピックアップ(これを標本と言います)し、
その標本に対してだけ、統計調査の元ネタとなるアンケートに答えてもらうと言う形になります。

このとき、問題になるのが

 標本の選び方
 標本の数

の2点です。

標本が、母集団に対して満遍なくとられているのであれば、かなり信憑性が高いと言えます。
逆に、母集団に対して偏って取られているのであれば、マユツバモになってしまいます。

そして、標本の数が母集団の数に対して少なすぎれば、母集団の結果の誤差が大きくなります。
標本の数が母集団の数に近ければ近いほど、母集団の結果の誤差が小さくなります。
ただ、標本の数をたくさん取るのは大変ですね。
少なすぎると標本からデータを回収する意味があるのか?と言うことから問題に。
ですので、適切な標本数がどれぐらいになるのかを決める必要があります。

では、この母集団に対して「満遍なく、適切な数の標本をとる」にはどうしたらいいのでしょうか。
これが問題。

まず標本の選び方から。
標本の選び方で気をつける点は、統計対象の代表となるような標本を選ぶことです。
選び方にはいくつか方法がありますので、そのうちの何点かを書いてみましょう。
 ・くじや乱数表を使う方法(単純無作為抽出法)
 ・一定間隔で選ぶ方法 ただし、間隔は最初に乱数表などで選んでおく(系統中抽出法)
 ・上記のいずれかを段階的に複数回繰り返す方法(多段抽出法)
 ・カテゴリ分けをしたうえで、カテゴリごとに上記いずれかを行う方法(層別抽出法)

つぎに、標本数の決め方です。
標本数を決める時に気をつける点は、統計対象の誤差をどこまで許容するかです。
誤差を許容した上で、標本数を決めるには、ここにある式…はちょっと複雑に見えるので、(^^;)
ここにある式などで計算できます。
例えば、95%程度の精度で、日本人1億26000万人分の標本統計を取ろうとすると、
回答を回収できない人がでてくることも考えて、

 1500人程度〜2000人程度

の標本数にすればよいことになります。

………………
さて、ここで気がついた人がいるかな。
95%程度の精度…というコトは、何人の人が統計からあふれることになるでしょうか。

 126,000,000 × 0.05 = 6,300,000

はい、約630万人の人があふれます
標本数より、明らかに多いですね。つーか、多すぎですね。
標本数に対して、誤差の数、3150倍の差があります。
約630万人という人数がどれぐらいかというと、
東京都の人口・約1256万人(2006年3月1日現在)の約半分になります。
東京都民の声、半分無視状態ってぐらいの数です。(^^;)

こんなに誤差の数が多い状態で、
こんな標本数で、正しい統計結果がでるといえるのでしょうか。(^^;)

国も、自治体も、マスコミも
大体この95%程度の精度でいいや、ってことで、
2000人程度の標本数でアンケートとったり、調査をしたりしているようですよ。
2000人程度のアンケートや調査の結果で、
 この国はこういう傾向があるんだ!
とか
 この国の総意はこうである!
とか決め付けられちゃう世の中なんです。

こわいですね。
いいのか、それで、って思っちゃいますね。

あ、そんなこと知りたくなかったですか。(^^;)
あ、そうですか。
でも、数字を使ったマジックに引っ掛からないためには、
やっぱり数字に強くなっておいたほうがいい
と思いませんでしたか?

…この話、もうちょっと続きます。また次回にw

■統計関連のリンク集
 統計でうそをつく方法
 世論調査におけるサンプリング数の決定
 統計基礎知識/標本調査の誤差と誤差情報の見方
 母集団と標本
 標本調査における標本抽出と標本誤差・標本数(PDF)

 日本人口に関しては、人口推計月報を参考にしました。
 東京と人口に関しては、 東京都の人口(推計)を参考にしました。