自律への（大規模）生成AIの原理と役割
情報時代の自律（オートノマス）型研究

　時代が「情報時代」へと変化するに伴い、新時代を支える基本技術は(大規模)生成AIであることが明確となり、今回の革命は「AI 革命」と称されております。　湯田は今後の研究は自動型研究から自律型（知的、創造的）研究が中心になると提唱してきました。この「自律型（オートノマス）研究」を支える、支援するのが(大規模)生成AIです。
　本ブログでは、「自律型(オートノマス）研究」を討論する立場から、この基本となる(大規模)生成AIについて議論を深めてまいりたく考えます。
　旧序文：本ブログは人工知能技術を用いた創薬および毒性評価に関する話題や情報を中心として展開してきました。現在の人工知能は機械学習を中心として展開されておりますが、本ブログでは従来からのルールベース型人工知能等も含めて、ライフサイエンス分野、特に化合物を扱う分野での人工知能全般に関する話題を中心に議論します。湯田が過去に実施したライフサイエンス関連での人工知能や化学多変量解析/パターン認識（ケモメトリックス）の経験や話題を交えながら展開してゆくつもりです。

2016年10月14日金曜日

人工知能の機械学習にかけるデータについて（３）

◆人工知能の機械学習で使われるデータが有する情報のバランス

　　人工知能を学習させるときに用いるデータは、多ければ多いほど精度や人工知能が賢くなるようになると思われています。　また、人工知能の実施者は自分の利用目的にふさわしい結果を導き出すように、とにかく多くのデータを用いて学習させようと考えます。
　　この時、分野によりますが、特に創薬や安全性評価等の分野では、学習に用いるデータが有する情報内容の偏りについて留意する事が必要となります。

　　前のアップで、以下のように書きました。

＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊
　ある目的（特に科学的な）を持ち、その目的に従って決定や判断を行なう人工知能は、その学習に用いるデータとしては、目的事象を何らかの形で説明する、あるいは関連する情報を有したものであることが基本です。　この条件を満たした場合、人工知能が扱うデータ数はビッグデータレベルのものでも扱えることとなります。　
＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊

　　当然ですが、学習用データは人工知能に期待する内容に関する情報を含むことが必要です。　期待する内容と関係のない情報（即ちノイズ情報）ばかり、あるいはこのノイズ情報が多く含まれる場合は、人工知能の学習成果を期待する事は出来ません。

　　この、ノイズ情報の存在という条件と対比するのが、正確に学習するのに必要なデータが欠損する事による、人工知能学習の偏りの危険性です。　この危険性を意識して学習データを集めることが必要です。

　　例えば、Ｊｏurnalから得られる情報は信頼性が高く、研究者の知識源となっています。　従って、研究者が読み切れない量のJournalを人工知能に学習させれば、人工知能に研究者以上の知識を持たせることが出来ると期待されます。

　　この場合、大きな問題はJournalの情報は偏った情報であるということです。　特に創薬や化学関連のJournalは成功事例のみが掲載されています。　Journalに掲載された論文の陰には、極めて多数の失敗した実験事例が存在します。　しかし、これらの失敗事例はJournalには掲載されません。　Journalからの情報だけでは人工知能は成功事例でしか学習できません。　これが、極めて大きな問題なのです。　人間が読み切れない大量の論文を人工知能が学習したから、優れた答えを出すというのは幻想です。
　　人間でもそうですが、成功事例でのみ学んでいる場合、新たに考えた案件は失敗事例であってもその事実をチエックする事は出来ません。　この点は人工知能であっても全く同じです。　成功事例のみ用いて学習した人工知能が提案する候補化合物は、失敗事例に基づく評価がされていない状態となります。　従って、最悪の場合失敗事例を学ばない人工知能から出される提案は、全て失敗事例の案を提案している可能性があります。
　　これは、多変量解析/パターン認識でも全く同じですね。　例えば、二クラス分類を行なう時、サンプル数がクラス間で大きく異なっている場合、分類自体がサンプル数の大きなクラスに有利に働くことが知られています。

　　いずれにしても、人工知能の学習で用いるデータは目的実施に必要な情報を、まんべんなく有している事が必要です。　特にJournalによる情報は成功事例が基本ですので、人工知能に学習させたJournal数の多さを強調するのでなく、学習に用いるデータの偏りに注意しつつ学習させることが重要です。　
　　人工知能が薬理活性のある化合物を提案する事は可能ですが、学習に偏り（薬理活性が出た事例のみ）があれば、薬理活性のない事をチエック出来ずに新規化合物が提案されている可能性が極めて高くなります。　人工知能が出した薬理活性候補化合物のチエックをＷＥＴ実験で行なう事は時間もかかり、費用も膨大です。　これでは、せっかく人工知能を用いて時間の短縮とヒット率の向上や、スクリーニング経費の減少を目指した意味が無くなります。

人工知能の機械学習にかけるデータについて（２）

◆人工知能の機械学習で使われるデータ数

　　先にアップした記事の最後の部分で以下の文章を書きました。

＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊
　　よく、この人工知能は可能な限りのデータを学習させたから、出てくる答えは完璧であるという事が言われます。　しかし、大量のデータという事は、実施目的とは全く関係のない情報を多量に含んでいる事を意味します。　このような、実施目的とは無関係のデータは学習の邪魔になるだけでなく、学習の精度や成果を大きく下げる要因となります。　例えば、この人工知能は入手可能な文献を可能な限り入力して学習させた。　だから、この人工知能が出す答えは世界一の答えであると・・・・・？？？？　本当でしょうか。　あなたは信じますか。
＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊

　現在注目されている人工知能は、ビッグデータと称されるような巨大データを扱うための切り札として登場してきたはずです。
　それなのに、上記の説明文では大量のデータを扱えば扱うほど人工知能として期待された内容を実現できなくなるというニュアンスとなっています。　何故でしょう。

　ある目的（特に科学的な）を持ち、その目的に従って決定や判断を行なう人工知能は、その学習に用いるデータは、目的事象を何らかの形で説明する、あるいは関連する情報を有したものであることが基本です。　この条件を満たした場合、人工知能が扱うデータ量はビッグデータレベルのものでも扱えることとなります。　

　　例えば、全国のコンビニから上がってくるＰＯＳデータのようなもの。　ＰＯＳデータは、全国のフランチャイズ店から日々、リアルタイムで送られてくるのでデータ量は巨大です。　しかし、そのデータの項目数や種類は限定されており、またデータが含んでいる情報も日常の購買情報に限定されています。　この点で、データ量は膨大であっても、データ内容や種類は限定されており、ある意味、きれいなデータと言えます。

　　一昔前は、このような大量のデータを扱い、そのデータ中に潜む貴重な情報（トレンド等）を取り出す技術として「データマイニング」が注目されていました。　現在は、その当時よりも扱うデータ量が格段に大きくなっています。　また、単にトレンドを取りだすだけではなく、学習した結果を用いて様々な事象の傾向を判断したり、あるいは状況に応じて何らかのアドバイス等を出すようなことが期待されており、このため人工知能の適用が注目されています。

人工知能の機械学習にかけるデータについて（１）

◆人工知能の機械学習で使われるデータのクオリテイ

　　最近の人工知能は機械学習が主体で展開されております。　このため、大量のデータを用意し、この大量のデータを機械学習させることで、期待に答える人工知能を構築できるというイメージが強くなっているようです。　これは本当でしょうか？？？

　　人工知能は学習する事が必要です。　学習して初めて期待に答える行動が可能となります。　人工知能に限らず、人間でも生きるためには様々な内容に関して学習する事が必要です。　歩いたり、食事したりする日常行動から、社会での共同生活を行なうための常識やルール等も学習する事が必要です。

　役に立つ人工知能に育てるためには、この学習に用いるデータの内容が大事です。　この学習用データがふさわしいものでなかったために、とんでもない結果を出すようになった事例としてすぐに思い浮かぶのはマイクロソフトのチャットする人工知能「Ｔａｙ（テイ）」です。
　　「Ｔａｙ（テイ）」は楽しいチャットをするような人工知能を期待していました。　チャットをするのに必要な知識の学習は、ユーザとの対話の過程で行なうように設計されていました。　このため、悪意のあるユーザから出された大量のヘイトスピーチを学習してしまい、とんでもない会話をするようになってしまいました。

　　この事例からわかるのは、利用者の目的にかなう人工知能を構築（育てる）するためには、目的を正しく実現させるに必要な正しい内容の学習データが必要であるという事です。　現在の人工知能は、入力された学習データの善し悪しを判断するほどお利口ではありません。　与えられたデータをそのまま学習するだけです。

　　従って、目的にかなった結果を導き出す優秀な人工知能となるように育てるには、学習用データの内容が重要であるという事です。
　　自分で学習するから先生はいらないとしても、学習用のテキストは良質なものが必須となります。

　　よく、この人工知能は可能な限りのデータを学習させたから、出てくる答えは完璧であるという事が言われます。　しかし、大量のデータという事は、実施目的とは全く関係のない情報を多量に含んでいる事を意味します。　このような、実施目的とは無関係のデータは学習の邪魔になるだけでなく、学習の精度や成果を大きく下げる要因となります。　例えば、この人工知能は入手可能な文献を可能な限り入力して学習させた。　だから、この人工知能が出す答えは世界一の答えであると・・・・・？？？？　本当でしょうか。　あなたは信じますか。

2016年10月13日木曜日

人工知能および化学多変量解析/パターン認識（ケモメトリックス）に関する私の講演発表と著書です

　　現在、湯田は以下の学会や講演会等で人工知能および化学多変量解析/パターン認識（ケモメトリックス）による創薬や安全性（毒性）評価に関する講演を行ないました。また、今後の講演予定です。

１．ＪＡＳＩＳ２０１６（2016.9.6-8,　千葉　幕張メッセ）　（済み）
ライフサイエンスイノベーションフォーラム2：「次世代ヘルスケアとデータサイエンス：ICT/IoTと人工知能が開く次世代ヘルスケア」のランチョンセミナーでの講演。
演題；「最新スペクトルデータ解析：「ICT, IoTやビッグデータ時代のケモメトリックス／人工知能を知って新たなチャレンジを」

２．ＣＢＩ学会２０１６年大会（2016.10.25-27,　東京） (済み）
フォーカストセッションＦＳ－０１；演題：計算毒性学の基本（多変量解析／パターン認識と人工知能）
フォーカストセッションＦＳ－０６；演題：化学多変量解析/パターン認識の新手法提案：ＩＣＴ，ＩｏＴそしてビッグデータ時代のインシリコ薬理活性／毒性スクリーニングに対応したデータ解析手法の提案

３．日本動物実験代替法学会　第２９回大会(2016.11.16-18,　福岡）
シンポジウム１；「化粧品，医薬品の安全性試験代替法の動向」
演題：ICT、IoT、ビッグデータ時代のインシリコ毒性予測：ＱＳ(Ａ/Ｔ)Ｒおよび人工知能

４．技術情報協会　セミナー　１１月３０日
インシリコ創薬におけるＡＩを活用したターゲット選定の最適化
演題；ＡＩを用いたオミックス創薬の実際

◆現在執筆中として以下のものがあります。

　人工知能学事典　（人工知能学会編、共立出版）　；　分担執筆　「計算毒性解析」

　上記内容等にご興味があります場合は、聴講いただければ幸いです。

2016年10月12日水曜日

人工知能で創薬および毒性予測

◆　最近の人工知能の展開

　　人工知能が急速に展開され、様々な分野でチャレンジが始まっています。
　　人工知能が人間の能力を超え、人間は職を奪われるのではないかという極端な話がまことしやかに話されるようになっているようです。
　　現在の人工知能は、ＩＢＭのワトソンがクイズ王を凌駕する結果を出したことや、チェス、将棋や碁等の戦いにおいてコンピュータが個々のチャンピョンを打ち負かしたという、一般の人から観ると驚異的な実績が積み上げられＴＶ等の報道番組等で大きく取り上げられてきています。少し専門的になると、ディープラーニング（深層学習）等の技術の登場により、碁のプログラムが急激に強くなったことや、従来は困難であった画像認識の精度が飛躍的に高まったという実績により、人工知能の新たな可能性を示すものとして、技術的な大きなブレークスルーとなｒいつつあります。
　　従来は、人間が独壇的に存在し、機械が人間を凌駕する事はないだろうという、安心感や常識等が、コンピュータ関連ハード技術やソフトの急速な進歩により、少しずつ切り崩されてゆくのを眼のあたりにすることで、驚くと同時にこのままでは人工知能にとって代わられるのではないかという恐怖感に膨れ上がりつつあると考えます。