2022年7月23日土曜日

人工知能は人間と同じで、学習しなければ賢くなりません:学習データについて考えます(IV)

  人工知能(AI)システム構築時に必要となるのは、人工知能システムと学習に用いる学習データです。ニューラルネットワーク型人工知能の特徴として学習用サンプル数が大きいことは良く知られた事実です。 ということで、人工知能システムに学習データを入力して学習させてて知識を構築して適用すると、うまく動かないことがしばしば発生します。 この多くの場合は、データサンプル数が多くても、その学習データの質が適用目的を実施するのに必要な情報や事例を含んでいないことが原因となります。 これは当然ですね。 人間であっても、当面の解決目標達成に必要とする事象についての知識やノウハウを学習していなければ、知識の適用に失敗してしまします。 この典型的な事例は、事象の成功事例ばかり多数学習して、失敗事例を殆ど学習していない場合です。 これは通常の多変量解析・パターン認識でも発生する問題です。 偏った情報を用いた場合、多変量解析・パターン認識は多数の学習データ側に有利な解析を実施します。 これは人工知能であっても同じです。

人工知能の学習:

1.学習サンプルの問題 
 精度の高い人工知能システム(ネットワーク構造)を実現するには、多変量解析・パターン認識と比較して相対的に多数の学習データが必要である。 一般的に、多変量解析・パターン認識は学習サンプル数が多くなると分類等の精度が鈍くなる。

2.学習サンプルの質(内容)の問題

①ターゲットとなる獲得知識やノウハウ構築に必要な情報を含まない学習データ
   動物の識別を目的とする時、学習データとして風景の中にいる動物の写真を多数そろえる等の場合はサンプル数が多くとも、学習出来ないか、信頼性の低い学習となる。 人工知能が実施目的に即した情報を得ているという可能性が小さければよい人工知能にはならない。

偏った情報のみで構成される学習データ
 毒性評価する時、殆どが無毒性化合物のみの学習データを用いる場合等。 合成ルート創出の学習データとして、反応パターン事例等の合成成功事例データのみを用いて、合成の失敗反応事例を含まない場合。 このような偏ったデータで学習した場合、学習はするが、信頼性の高い学習(ネットワーク)を実現することは不可能である。




2022年7月9日土曜日

人工知能は人間と同じで、学習しなければ賢くなりません:学習データについて考えます(III)

 最近の人工知能ブームについて 

 人工知能での学習は人工知能を正しく実施するためには極めて重要な要因です。 この学習はルールベース型人工知能と異なり、学習データを与えれば勝手に人工知能の実施(予測や判定、決断)に必要となる重要なルールを自動的に作り上げるという特徴が、最新の二ューラルネットワーク型人工知能(特に深層学習型)の最大の利点となっています。 この結果、現在の人工知能ブームが沸き起こったといっても過言ではないでしょう。

 以上のように、データさえあれば特に専門知識が無くとも人工知能に学習させることで、従来は特殊な技術やノウハウを持つ研究者や技術者の代わりを担わせることが出来るという期待が大きくなっています。 しかし、実際に人工知能システムを構築すると直ぐに突き当たる問題は、人工知能に高度な学習をさせるためのデータに関する問題となります。

 学習データに要求される必須要件(大きなサンプル数が必要)

 学習用データの問題は、一般的には学習データ数の問題が取り上げられます。 ニューラルネットワーク型人工知能では学習に用いる学習データ数が、多変量解析・パターン認識で使われるサンプル数よりもかなり大きな数の学習データ数が求められます。 この大きな学習データ数を要することは、人工知能でのニューラルネットワーク型の機械学習において、信頼性の高い結果を得るためには重要な要因となります。 これは、学習データであって、データ解析に用いる多変量解析・パターン認識に用いるのと利用目的が異なることが大きな要因です。 また、ネットワーク型機械学習の特徴として、過剰適合や偶然相関を起こしやすいアルゴリズムであることも大きな要因となります。

 この大きなサンプル数については、最近のインターネットの急速な拡大や、記憶容量の安価、高密度化や複雑なネットワーク構造のウエイト計算に必要なCPUの機能向上等の急速な発展により支えられてきました。 特に画像データや音声データ等の蓄積量は膨大となり、現在のニューラルネットワーク型人工知能の発展の大きな要因となっています。

 学習データに要求されるデータの質の問題

 学習用データは単にサンプル数が多いだけでなく、学習データの内容や質が信頼性の高い人工知能の構築には必要です。 現在の人工知能システム構築で頻繁に起こる問題は、この学習用データの内容や質に関することが多くなっています。





<p><b><span style="color: blue; font-size: x-large;">新たなブログ名称および内容の案です:<br>This is a proposal for a new blog name and content.</span></b></p>

   新ブログを構成するにあたり以下の点を留意しつつ検討いたしました。 ■討論テーマは来るべき「情報時代」に相応しい内容とする ・新たな技術等に関する積極的な討論を目指す。 ・「情報時代」の基盤技術となる大規模言語モデルや種々生成AIを主たるテーマとする。 ■従来型の基本的な分野...