以下の記事はMedium上のDatafrens.sgの出版物から取られています。ChatGPT 4.0を使用して日本語に翻訳されました。
あなたは大学時代に「デイビッド・ヒューム」という名前を聞いたことがあるかもしれませんし、地元の書店でこの名前を見たことがあるかもしれません。彼を紹介させていただきます。
デイビッド・ヒュームは18世紀に活躍したスコットランドの哲学者、歴史家、経済学者、エッセイストでした。彼は西洋哲学伝統における最も重要な人物の一人とされ、経験と観察の役割を重視する経験論的アプローチで知られています。ヒュームの著作には『人間本性論』、『人間知性研究』、『道徳原理研究』があります。彼のアイデアは特に認識論、形而上学、倫理学の分野で現代哲学の発展に深い影響を与えました。ヒュームは知識に対する懐疑的なアプローチで最もよく知られており、合理主義と経験主義の伝統的な見解に挑戦しました。彼はすべての知識が感覚的経験から派生していると主張し、私たちは世界についての知識を印象と感覚を通じてのみ得ることができると語りました。また、因果関係の概念に疑問を投げかけ、一つの出来事が別の出来事を必然的に引き起こすとは断定できないと主張しました。哲学の分野だけでなく、歴史家や経済学者としても著名で、これらの分野での彼の貢献は今日もなお学者たちに影響を与え続けています。
彼の全作品の中でも、特に一つの議論が私の心に長年留まっています。
事実に関する私たちのすべての推論の性質は何か?適切な答えは、それらが原因と結果の関係に基づいているということのようです。
文脈を説明するために、「事実」とは、原因と結果の説明に関連する反論の余地のない真実を指します。たとえば、スーパーマーケットで見つかるリンゴのバスケットが一般に提供されているという事実は、それをそこに置いた人がいたという理解を私たちに与えます。リンゴのバスケットは自発的に現れてスーパーマーケットに配置されるわけではありません。リンゴのバスケットが奇跡的に現れたという提案を確認することはばかげています。スーパーマーケットにリンゴのバスケットがなければ、誰かがそれを置いたと推測することはできません。そして、誰もそれをスーパーマーケットに置いていなければ、リンゴのバスケットがスーパーマーケットに置かれていると言うのは不合理です。
この単純な例の背後にある考えは、私たちが意識的にも無意識のうちにも実践しています。私たちは原因とその効果の関係を描き、私たちの生活で何を信じるかを確認します。デイビッド・ヒュームはさらに一歩進んで、彼の「理解の操作に関する懐疑的な疑問」の4.6で、この原因と結果の関係は先験的な推論によって得られるのではなく、完全に経験から来るものであると主張しました。この議論はデータサイエンスにおいて重大な意味を持っています。私たちにとって全く新しいデータは、経験によって検討される必要があり、経験による検査なしにデータから推論することはできません。データサイエンティストはしばしば、現実の重要性を無視するほど入念にデータを掘り下げて研究します。私たちは要因を相関させて結果に到達しますが、それが現実には必ずしも意味をなさないかもしれません。そして、この現実の感覚は経験によって得られます。
データサイエンティストとして、私たちはデータを盲目的に研究してはならないことを覚えておくことが非常に重要です。いくつかの要因は統計的に相関しているかもしれませんが、それが現実に意味をなすとは限りません。そして、これこそがデイビッドが提唱したことでした。
もちろん、当時の科学の発見は主に経験によって達成されました。しかし、基本原則は変わりません。私たちのデータサイエンス作業における原因と結果は、私たちが観察し、現実で経験するものと一致するべきです。
多くのアナリストやデータサイエンティストが同じ過ちを犯しているのを見てきました。彼または彼女がレポートを提示したとき、長年にわたってビジネスの現実を観察し経験してきた経営陣は、その結果が現実に合っていないとしてレポートを却下しました。たとえば、会社の収益が今後数十年にわたって絶えず成長することはないと知っているにもかかわらず、毎年5%ずつ複合的に成長すると言うのは理にかなっていますか?それは理にかなっていません。