ブログ

相関関係とは、言葉を替えると「つながり」とも言えます。つながりというと、いくつか例を思いついたのですが、例えば、私たちはネットワークにつながっており、サービスプロバイダーがデータパッケージを私たちの機械に流しています。この「つながり」によって、私たちはインターネットに接続することができます。また例えば、2人の人間が集まり、相互の協力や連携について話し合い、ビジネス上の「つながり」を作る場合。このように、つながりは、人や物の間に関係を形成します。今回のブログでは、しばしの間、「相関関係」ではなく、「つながり」という言葉を使いたいと思います。

つながりは、関係性にも関わってきます。誰かと結びつきを持つと、その人と共通の信念や価値観を持つことになります。私は以前、休日の旅行が大好きで、実に100回以上飛行機で旅行したことがあります。ある時、飛行機で座っていると、あるドイツ人が私を見て、親しげにうなずき、微笑みました。飛行機の中で見知らぬ人から会釈もなしに微笑まれると気味が悪いですが、彼はうなずき微笑んでくれて、単純な仕草ですが、私はそのうなずきに心から感謝しました。私の国の話をたくさん聞いてくれた後、彼も旅行が好きで、実は初めてシンガポールに行ったのだと教えてくれました。私は嬉しく思いましたが、ここで、それ以上に重要なのは、彼と旅行という非常に基本的なつながりを築けたことです。私たちは旅に対する熱意の大きさを共感し合ったのです。彼は私より少なくとも10歳は若く、彼の旅に対する情熱は予想通りとても大きなものでした。

さて、私は彼に旅行が好きだと言いました。また彼は、旅行が好きで、少なくとも月に一度は東南アジアを訪れたいと話してくれました。彼は間違いなく、とても野心的な男性に違いありません!ここで、旅行という話題でつながったことで、旅行の頻度について話が広がったことにお気づきでしょうか。私が「今月は10回、先月は5回、先々月は3回旅行した」と言えば、彼はそれに対して「5回、3回、1回旅行した」と応えるでしょう。もしかしたら私たちの会話は、旅行が好きという話よりも、旅行の頻度についての方向に進んでしまうかもしれません。私たちは旅行の頻度でつながっていましたが、果たしてそれがお互いに旅行するきっかけとなったのでしょうか。

ここで、私が彼に「もしかしたら一緒に旅行の計画を立てて、東南アジアで会えるかもしれない」と伝えると仮定しましょう。もし私がシンガポールへの出張を計画したら、彼に知らせるでしょう。そして、彼がシンガポールに行く計画を立てれば、同じように私に教えてくれるでしょう。私が彼に東南アジアへ来るよう誘ったことで、私たち個々の計画がお互いの計画になったのです。単純なつながりではなく、私たち一人ひとりが、相手を旅行させるきっかけを作ったのです。このように、この例では因果関係が成り立っています。

ここからは、相関関係に話を戻します。相関関係とは、人や物事の間に関係を築く、つながりのことです。先ほどの例では、移動の頻度を数えることで、私たちに共通点があることを示しました:私たちはたくさん旅行し、この数ヶ月間その割合が増えていたのです。旅行頻度について話し合うだけで、私たちは互いにつながることができたのです。つまり、私たちは互いに相関していたのです。

そして、その相関関係を超えて、私たちがお互いに旅行に行くような影響を与えた瞬間、因果関係が発生します。つまり、私がきっかけで彼がもっと旅行することもありえたでしょうし、その逆もしかりということです。

データサイエンスにおいて、相関関係は因果関係ではありません。私たちが旅行頻度を評価し合うつながりが、お互いの旅行に与えた影響と因果関係がないのと同じです。ただし、私たちは旅行頻度において相関関係があり、お互いにより多く旅行するきっかけを与え合ったのです。
相関関係は統計的な手法で測定されることが多いので、その専門的な詳細については割愛します。しかし、物事が互いに相関しているとき、必ずしも因果関係があるとは限らないということに留意する必要があります。さらに、相関関係や因果関係を調べる方法はありますが、データサイエンティストは、どの方法を使うかを決める前に、まずデータが置かれている文脈を知る必要があるでしょう。仮に私の旅行話が、同じ飛行機に乗った他の2人の話だとすると、私が調査して尋ねない限り、2人の人物が持つ因果関係を知ることはできません。同様に、データサイエンティストも、さらに調査して因果関係を理解する必要があるでしょう。データに物語を語らせることから始めるのではなく、文脈を知るための主体的な一歩を踏み出し、データに物語を語らせることが必要なのです。

Comment are closed.