ある生物学者の不可思議な心臓

先天性心疾患をもつ生物学者が命についてつづるよ。

妖しき統計

 おいらが専門にしている生態学は、生物学の中で最も統計を駆使する分野である。生物学には、生理学、発生学、細胞学などほとんど統計を用いない分野もあれば、生態学、系統分類学、遺伝学のように統計を使いまくる分野もある。実際、おいら自身も日々の研究活動の中で、さまざまな統計を使っている。だから、世間的に見ればおいらは統計に詳しい専門家と思われるかもしれない。

 今、国の統計不正問題が大きく騒がれており、その背景には、景気を良く見せようとした、組織ぐるみの隠蔽があるみたいだ、政権がからんでいるかもしれない、いやいや官僚の忖度だ、といった様々な疑惑が浮かび、虚無感が社会を覆う事態になってしまった。こんな時こそ、統計に詳しい人物の出番である。でも恥ずかしながら、おいらはそれらの疑惑を検証できるほどの証拠も知識も持っていないので、残念ながら真偽はわからない。とはいえ、それでは今まで学んできたことが何の役にも立たないので、拙い知識ではあるが、おいらなりにそもそも統計とはなんなのかについて説明してみたい。おいらの説明で、統計に少しでも関心を持っていただけたら幸いである。

 おいらが考える統計とは、すごく簡単に言えば、何かの数の集まりを特徴付ける指標である。具体的な例で話してみよう。まず何かの数の集まりとは、例えば、10個の卵のそれぞれの重さとか、100人の子供の身長といったことで、統計的な用語ではその数の集まりを集団と呼ぶ。そして、その集団の特徴をどうにかして簡潔に表現しようとする方法が、統計である。今回の統計不正問題と絡めて、A,B,C,D,Eさんの5人の年収を例にもう少し具体的に説明したい。この5人の年収が、200万、200万、200万、400万、1000万だったとする。この5人の年収を特徴付ける統計として、もっともわかりやすいのが代表値である。あとで述べるように実は代表値には色々な表し方があるが、その中で「平均」は、誰しもが一度は聞いたことがあるであろう。平均は5人の年収を全部足して人数(5)で割った値として計算できる。この例の場合は平均は400万になり、5人は平均400万の年収がある、という具合に説明したりする。でもなんかしっくりこない。5人中3人が年収200万で平均の半分しかないのに、本当に平均は集団の代表値として適しているのだろうか。

 先ほど、代表値を表す統計はいくつかあると述べた。より詳しく言えば、実は平均にも色々な種類があり、先ほどの例は算術平均と呼ばれるもので、これ以外にも値を対数変換して平均する幾何平均というものもある。それから、5つの値の中でもっとも中間にある中央値、一番出てくる頻度が高い最頻値なんかも集団の代表値として表す方法である。それぞれの統計値を先ほどの例に当てはめると、幾何平均が316万、中央値が200万、最頻値も200万となる。では、一体どの統計値が集団の代表値として適しているだろうか。

 それは、集団の中の値のばらつき具合(統計用語で分散と呼ぶ)を見れることでわかる。5人の年収の例では、集団の中に大きく外れた値(1000万)があるため、外れ値の影響を強く受けてしまう算術平均は、代表値としてあまり適さない。残念なことに、国の統計にかかわらずテレビや本や新聞などで出てくる平均にはほとんど分散が示されておらず、平均が適しているかを評価できない。言い換えれば、分散を示していない平均はほとんど信用できないのだ。

 ところで、今回の統計不正問題は、適した統計値を使っているかどうか以前の問題だった。そもそもの数の集まり(集団)が、誤った方法で集められた意味のない集団だったのだ。だから、この集団から平均や中央値や最頻値や分散をいくら求めたところで、全て信用できないのである。もはや、集団を正しく集め直すことはできない。つまりこの国の真の姿は永遠にわからないままになってしまったのだ。

 統計に関心を持ってもらうどころか、ますます統計が信頼できない話になってしまった。でもそれが統計を理解する出発点だとおいらは思っている。怪しいからこそ、むやみに統計を信じずその意味を深く考えることが大切である。そうして、突き詰めて調べ考えていくことで、集団の中に潜む法則が見えてくるのだ。おいらの研究は、生物における様々な数の集まり(例えば、植物個体が付ける花の数、葉の数など)を統計で表現し、その背後にある法則を解明することである。多様な統計手法を駆使しても、美しい法則にたどり着かないことがほとんどである。でも、稀に法則性を見出せた時、えも言われぬ感動に全身が満たされてしまう。だから統計は、妖しくも魅力的な存在である。