2022年7月23日土曜日

人工知能は人間と同じで、学習しなければ賢くなりません:学習データについて考えます(IV)

  人工知能(AI)システム構築時に必要となるのは、人工知能システムと学習に用いる学習データです。ニューラルネットワーク型人工知能の特徴として学習用サンプル数が大きいことは良く知られた事実です。 ということで、人工知能システムに学習データを入力して学習させてて知識を構築して適用すると、うまく動かないことがしばしば発生します。 この多くの場合は、データサンプル数が多くても、その学習データの質が適用目的を実施するのに必要な情報や事例を含んでいないことが原因となります。 これは当然ですね。 人間であっても、当面の解決目標達成に必要とする事象についての知識やノウハウを学習していなければ、知識の適用に失敗してしまします。 この典型的な事例は、事象の成功事例ばかり多数学習して、失敗事例を殆ど学習していない場合です。 これは通常の多変量解析・パターン認識でも発生する問題です。 偏った情報を用いた場合、多変量解析・パターン認識は多数の学習データ側に有利な解析を実施します。 これは人工知能であっても同じです。

人工知能の学習:

1.学習サンプルの問題 
 精度の高い人工知能システム(ネットワーク構造)を実現するには、多変量解析・パターン認識と比較して相対的に多数の学習データが必要である。 一般的に、多変量解析・パターン認識は学習サンプル数が多くなると分類等の精度が鈍くなる。

2.学習サンプルの質(内容)の問題

①ターゲットとなる獲得知識やノウハウ構築に必要な情報を含まない学習データ
   動物の識別を目的とする時、学習データとして風景の中にいる動物の写真を多数そろえる等の場合はサンプル数が多くとも、学習出来ないか、信頼性の低い学習となる。 人工知能が実施目的に即した情報を得ているという可能性が小さければよい人工知能にはならない。

偏った情報のみで構成される学習データ
 毒性評価する時、殆どが無毒性化合物のみの学習データを用いる場合等。 合成ルート創出の学習データとして、反応パターン事例等の合成成功事例データのみを用いて、合成の失敗反応事例を含まない場合。 このような偏ったデータで学習した場合、学習はするが、信頼性の高い学習(ネットワーク)を実現することは不可能である。




0 件のコメント:

コメントを投稿

<p><b><span style="color: blue; font-size: x-large;">新たなブログ名称および内容の案です:<br>This is a proposal for a new blog name and content.</span></b></p>

   新ブログを構成するにあたり以下の点を留意しつつ検討いたしました。 ■討論テーマは来るべき「情報時代」に相応しい内容とする ・新たな技術等に関する積極的な討論を目指す。 ・「情報時代」の基盤技術となる大規模言語モデルや種々生成AIを主たるテーマとする。 ■従来型の基本的な分野...