2021年1月4日月曜日

データサイエンスや人工知能におけるサンプルデータ: サンプル数とサンプルポピュレーション

 現在、データサイエンスや人工知能に関する研究では手法に関する研究が盛んである。

 しかし、データサイエンスや人工知能を用いて実際に適用しようとすると、機械学習に用いたサンプルデータの数や、ポジ/ネガ等のサンプルポピュレーションの問題が、最終的な解析結果の良否に大きく関係することがわかる。

 全く同じサンプルデータを用いた場合、解析手法や人工知能手法の改良や新規開発を行っても、ほとんどの場合大きな改善は見られない。大きなブレークスルーはデータ解析手法から人工知能に変換した場合等の、次元や発想の異なるレベルの手法的変化が必要である。

 同じデータ解析手法や人工知能の範囲での変化ではブレークスルーを導くような改善は期待できないと考えるべきである。

 一方で、機械学習に用いるサンプルデータに関する研究は手法と比較すると殆ど進歩していない。しかし、機械学習を適用するデータ解析や人工知能は手法を問わずすべてサンプルデータの良否が学習成果を大きく変化させることは明白である。

 即ち、標準的なデータ解析手法や人工知能手法を用いても、データサンプルを吟味した結果の方がより大きなブレークスルーを得やすいことである。これは、データ解析や人工知能をより正確で信頼性の高い状態で実施することが求められる現場においては極めて重要なポイントである。

0 件のコメント:

コメントを投稿

<p><b><span style="color: blue; font-size: x-large;">新たなブログ名称および内容の案です:<br>This is a proposal for a new blog name and content.</span></b></p>

   新ブログを構成するにあたり以下の点を留意しつつ検討いたしました。 ■討論テーマは来るべき「情報時代」に相応しい内容とする ・新たな技術等に関する積極的な討論を目指す。 ・「情報時代」の基盤技術となる大規模言語モデルや種々生成AIを主たるテーマとする。 ■従来型の基本的な分野...