人工知能の機械学習にかけるデータについて(3)

◆人工知能の機械学習で使われるデータが有する情報のバランス


  人工知能を学習させるときに用いるデータは、多ければ多いほど精度や人工知能が賢くなるようになると思われています。 また、人工知能の実施者は自分の利用目的にふさわしい結果を導き出すように、とにかく多くのデータを用いて学習させようと考えます。
  この時、分野によりますが、特に創薬や安全性評価等の分野では、学習に用いるデータが有する情報内容の偏りについて留意する事が必要となります。

  前のアップで、以下のように書きました。

*************************************
 ある目的(特に科学的な)を持ち、その目的に従って決定や判断を行なう人工知能は、その学習に用いるデータとしては、目的事象を何らかの形で説明する、あるいは関連する情報を有したものであることが基本です。 この条件を満たした場合、人工知能が扱うデータ数はビッグデータレベルのものでも扱えることとなります。 
*************************************

  当然ですが、学習用データは人工知能に期待する内容に関する情報を含むことが必要です。 期待する内容と関係のない情報(即ちノイズ情報)ばかり、あるいはこのノイズ情報が多く含まれる場合は、人工知能の学習成果を期待する事は出来ません。

  この、ノイズ情報の存在という条件と対比するのが、正確に学習するのに必要なデータが欠損する事による、人工知能学習の偏りの危険性です。 この危険性を意識して学習データを集めることが必要です。

  例えば、Journalから得られる情報は信頼性が高く、研究者の知識源となっています。 従って、研究者が読み切れない量のJournalを人工知能に学習させれば、人工知能に研究者以上の知識を持たせることが出来ると期待されます。

  この場合、大きな問題はJournalの情報は偏った情報であるということです。 特に創薬や化学関連のJournalは成功事例のみが掲載されています。 Journalに掲載された論文の陰には、極めて多数の失敗した実験事例が存在します。 しかし、これらの失敗事例はJournalには掲載されません。 Journalからの情報だけでは人工知能は成功事例でしか学習できません。 これが、極めて大きな問題なのです。 人間が読み切れない大量の論文を人工知能が学習したから、優れた答えを出すというのは幻想です。
  人間でもそうですが、成功事例でのみ学んでいる場合、新たに考えた案件は失敗事例であってもその事実をチエックする事は出来ません。 この点は人工知能であっても全く同じです。 成功事例のみ用いて学習した人工知能が提案する候補化合物は、失敗事例に基づく評価がされていない状態となります。 従って、最悪の場合失敗事例を学ばない人工知能から出される提案は、全て失敗事例の案を提案している可能性があります。
  これは、多変量解析/パターン認識でも全く同じですね。 例えば、二クラス分類を行なう時、サンプル数がクラス間で大きく異なっている場合、分類自体がサンプル数の大きなクラスに有利に働くことが知られています。

  いずれにしても、人工知能の学習で用いるデータは目的実施に必要な情報を、まんべんなく有している事が必要です。 特にJournalによる情報は成功事例が基本ですので、人工知能に学習させたJournal数の多さを強調するのでなく、学習に用いるデータの偏りに注意しつつ学習させることが重要です。 
  人工知能が薬理活性のある化合物を提案する事は可能ですが、学習に偏り(薬理活性が出た事例のみ)があれば、薬理活性のない事をチエック出来ずに新規化合物が提案されている可能性が極めて高くなります。 人工知能が出した薬理活性候補化合物のチエックをWET実験で行なう事は時間もかかり、費用も膨大です。 これでは、せっかく人工知能を用いて時間の短縮とヒット率の向上や、スクリーニング経費の減少を目指した意味が無くなります。

コメント

人気の投稿