2021年1月4日月曜日

データサイエンスや人工知能におけるサンプルデータ: サンプル数とサンプルポピュレーション

 現在、データサイエンスや人工知能に関する研究では手法に関する研究が盛んである。

 しかし、データサイエンスや人工知能を用いて実際に適用しようとすると、機械学習に用いたサンプルデータの数や、ポジ/ネガ等のサンプルポピュレーションの問題が、最終的な解析結果の良否に大きく関係することがわかる。

 全く同じサンプルデータを用いた場合、解析手法や人工知能手法の改良や新規開発を行っても、ほとんどの場合大きな改善は見られない。大きなブレークスルーはデータ解析手法から人工知能に変換した場合等の、次元や発想の異なるレベルの手法的変化が必要である。

 同じデータ解析手法や人工知能の範囲での変化ではブレークスルーを導くような改善は期待できないと考えるべきである。

 一方で、機械学習に用いるサンプルデータに関する研究は手法と比較すると殆ど進歩していない。しかし、機械学習を適用するデータ解析や人工知能は手法を問わずすべてサンプルデータの良否が学習成果を大きく変化させることは明白である。

 即ち、標準的なデータ解析手法や人工知能手法を用いても、データサンプルを吟味した結果の方がより大きなブレークスルーを得やすいことである。これは、データ解析や人工知能をより正確で信頼性の高い状態で実施することが求められる現場においては極めて重要なポイントである。

2021年1月2日土曜日

2021年が素晴らしい年となるように願っております:The 2021 will be a wonderful and great year.

  昨年はコロナに翻弄され、日常生活を取り戻せませんでしたが、今年は通常の生活を取り戻せるようになることを願っております。


 2017年の正月に本ブログにて新年の挨拶をアップしましたが、いつの間にか4年も経ちました。この間データサイエンスや人工知能(AI)の展開は急速に進みました。研究の世界や日常生活においても、このデータサイエンスや人工知能の果たす役割や、研究対象としての存在は意識することが無く、むしろ自然に導入されているというような状況となってきました。

 4年前の本ブログを見て、データサンプルという観点から見ると現時点でほとんど変化していないことを強く感じます。データサイエンスや人工知能の開発や適用、信頼性確保という観点で最も重要なサンプルに関する議論や環境の整備が全く進んでいないことに驚きを感じました。

 従いまして今年は、データサイエンスや人工知能におけるサンプルデータの問題を主たるテーマとして討論してゆこうと考えております。

 今年もよろしくお願いいたします。

2024年度のノーベル賞について。ノーベル賞の受賞対象範囲や該当分野が大きく変化した。

  今回のノーベル物理学賞はAI 関連研究に授与されました。これは、従来のノーベル物理学賞の受賞範囲には無い範疇で、物理というよりは情報学分野であり、しかもアルゴリズムに関する研究という点で、ノーベル賞の選考委員会が時代を変える新たな分野にも展開しようとする大きな流れを示すものと...