Koh & Associates 合同会社は、大阪で開催された「データサイエンスの基礎」トレーニングプログラムの初回セッションを終了しました。
研修生は4つの重要なトピックについて学ぶ機会を得ました。まず、非常に高いレベルでデータサイエンスについて掘り下げました。例えば、「データサイエンス」という用語は、林力男という日本の教授によって正式に造語され、紹介されたことをご存知でしょうか?彼は、統計学の研究を支援するためにコンピュータサイエンスを使用する可能性について説明する論文を書きました。この論文は日本の神戸で発表され、それ以来、「データサイエンス」という用語が広まりました。私たちは、データサイエンスの起源を自然、具体的には人間の本性、大自然、およびビジネスの性質の研究に戻すことを目指しています。さらに、パターンと偶然について探求し、パターンがより明確になる場合、偶然はより少ない役割を果たすべきだと強調しました。
次に、データサイエンティストの役割と、データサイエンス領域内の他の類似のポジションについて学びました。研修生は、データサイエンティストの生活について良い垣間見ることができ、役割を効果的に果たすために必要なスキルを理解しました。多くの人が知っているように、データサイエンスは統計学、数学、コンピューティング、コーディング、可視化、さらにはコミュニケーションにわたる高いレベルの多面的なスキルを要求します。この知識を持つことで、研修生はデータサイエンスのトレーニングコースが役割の特定の側面に向けて調整されている理由をより深く理解し、評価することができます。
三番目に、データ分布を使用してイベントを記述する方法について探りました。直感的に、もし一群の人々が別のタイプのサンドイッチを好む場合、選択肢が顕著に異なる時点を私たちは疑問に思うかもしれません。非常に高いレベルで、50/50の比率は顕著な差を示さないが、20/80の比率はそうである。しかし、2つのグループの間と内での人々の意見についてはどうでしょうか?私たちは、1つのグループ内の意見ができるだけ似ていることを期待します(それによって意味のあるグループを形成する)、しかし、2つのグループ間の平均意見は異なるべきです(それによってグループを区別する)。その時、私たちは差を顕著と見なすのでしょうか?
最後に、正規分布とそれに関連する主要な仮定についてカバーしました。サンプリングを通じての代表性、平均が中央値に等しいこと、および曲線の形が重要な概念として強調されました。これらの基本を把握することは、データサイエンスの基礎に進む前に重要です。
最終的に、トレーニングセッションを締めくくる際に、データサイエンスの実践者として避けるべき10の一般的な落とし穴について話し合いました。データクリーニングの重要性が強調された主要なポイントの1つでした。しかし、データの異常が意味を持つ場合、その重要性を慎重に評価し、それを保持して代替の分析方法を適用するか、または標準的な分析アプローチを容易にするためにそれを除去するかを決定する必要があります。
研修生は修了証を授与され、私の会社のアソシエイトとしての地位を象徴する企業のピンを受け取りました。これらのアソシエイトはフルタイムのスタッフではありませんが、私によって訓練されたデータサイエンスの実践者です。私たちはより多くのプロジェクトを確保するにつれて、彼らをより広範囲に仕事に関与させる計画であり、データを扱う作業における彼らのトレーニングと専門知識を強化していきます。
大阪でのトレーニングセッションにぜひご参加ください!次回のセッションは2024年3月10日に日本の大阪で予定されています。登録するには、ここをクリックしてください。