自律への（大規模）生成AIの原理と役割
情報時代の自律（オートノマス）型研究

　時代が「情報時代」へと変化するに伴い、新時代を支える基本技術は(大規模)生成AIであることが明確となり、今回の革命は「AI 革命」と称されております。　湯田は今後の研究は自動型研究から自律型（知的、創造的）研究が中心になると提唱してきました。この「自律型（オートノマス）研究」を支える、支援するのが(大規模)生成AIです。
　本ブログでは、「自律型(オートノマス）研究」を討論する立場から、この基本となる(大規模)生成AIについて議論を深めてまいりたく考えます。
　旧序文：本ブログは人工知能技術を用いた創薬および毒性評価に関する話題や情報を中心として展開してきました。現在の人工知能は機械学習を中心として展開されておりますが、本ブログでは従来からのルールベース型人工知能等も含めて、ライフサイエンス分野、特に化合物を扱う分野での人工知能全般に関する話題を中心に議論します。湯田が過去に実施したライフサイエンス関連での人工知能や化学多変量解析/パターン認識（ケモメトリックス）の経験や話題を交えながら展開してゆくつもりです。

2022年7月23日土曜日

人工知能は人間と同じで、学習しなければ賢くなりません：学習データについて考えます（IV）

　人工知能（AI）システム構築時に必要となるのは、人工知能システムと学習に用いる学習データです。ニューラルネットワーク型人工知能の特徴として学習用サンプル数が大きいことは良く知られた事実です。　ということで、人工知能システムに学習データを入力して学習させてて知識を構築して適用すると、うまく動かないことがしばしば発生します。　この多くの場合は、データサンプル数が多くても、その学習データの質が適用目的を実施するのに必要な情報や事例を含んでいないことが原因となります。　これは当然ですね。　人間であっても、当面の解決目標達成に必要とする事象についての知識やノウハウを学習していなければ、知識の適用に失敗してしまします。　この典型的な事例は、事象の成功事例ばかり多数学習して、失敗事例を殆ど学習していない場合です。　これは通常の多変量解析・パターン認識でも発生する問題です。　偏った情報を用いた場合、多変量解析・パターン認識は多数の学習データ側に有利な解析を実施します。　これは人工知能であっても同じです。

人工知能の学習：

１．学習サンプル数の問題　

　精度の高い人工知能システム（ネットワーク構造）を実現するには、多変量解析・パターン認識と比較して相対的に多数の学習データが必要である。　一般的に、多変量解析・パターン認識は学習サンプル数が多くなると分類等の精度が鈍くなる。

２．学習サンプルの質(内容)の問題

①ターゲットとなる獲得知識やノウハウ構築に必要な情報を含まない学習データ

動物の識別を目的とする時、学習データとして風景の中にいる動物の写真を多数そろえる等の場合はサンプル数が多くとも、学習出来ないか、信頼性の低い学習となる。　人工知能が実施目的に即した情報を得ているという可能性が小さければよい人工知能にはならない。

②偏った情報のみで構成される学習データ

　毒性評価する時、殆どが無毒性化合物のみの学習データを用いる場合等。　合成ルート創出の学習データとして、反応パターン事例等の合成成功事例データのみを用いて、合成の失敗反応事例を含まない場合。　このような偏ったデータで学習した場合、学習はするが、信頼性の高い学習（ネットワーク）を実現することは不可能である。

2022年7月9日土曜日

人工知能は人間と同じで、学習しなければ賢くなりません：学習データについて考えます（III）

□　最近の人工知能ブームについて

　人工知能での学習は人工知能を正しく実施するためには極めて重要な要因です。　この学習はルールベース型人工知能と異なり、学習データを与えれば勝手に人工知能の実施（予測や判定、決断）に必要となる重要なルールを自動的に作り上げるという特徴が、最新の二ューラルネットワーク型人工知能（特に深層学習型）の最大の利点となっています。　この結果、現在の人工知能ブームが沸き起こったといっても過言ではないでしょう。

　以上のように、データさえあれば特に専門知識が無くとも人工知能に学習させることで、従来は特殊な技術やノウハウを持つ研究者や技術者の代わりを担わせることが出来るという期待が大きくなっています。　しかし、実際に人工知能システムを構築すると直ぐに突き当たる問題は、人工知能に高度な学習をさせるためのデータに関する問題となります。

□　学習データに要求される必須要件（大きなサンプル数が必要）

　学習用データの問題は、一般的には学習データ数の問題が取り上げられます。　ニューラルネットワーク型人工知能では学習に用いる学習データ数が、多変量解析・パターン認識で使われるサンプル数よりもかなり大きな数の学習データ数が求められます。　この大きな学習データ数を要することは、人工知能でのニューラルネットワーク型の機械学習において、信頼性の高い結果を得るためには重要な要因となります。　これは、学習データであって、データ解析に用いる多変量解析・パターン認識に用いるのと利用目的が異なることが大きな要因です。　また、ネットワーク型機械学習の特徴として、過剰適合や偶然相関を起こしやすいアルゴリズムであることも大きな要因となります。

　この大きなサンプル数については、最近のインターネットの急速な拡大や、記憶容量の安価、高密度化や複雑なネットワーク構造のウエイト計算に必要なCPUの機能向上等の急速な発展により支えられてきました。　特に画像データや音声データ等の蓄積量は膨大となり、現在のニューラルネットワーク型人工知能の発展の大きな要因となっています。

□　学習データに要求されるデータの質の問題

　学習用データは単にサンプル数が多いだけでなく、学習データの内容や質が信頼性の高い人工知能の構築には必要です。　現在の人工知能システム構築で頻繁に起こる問題は、この学習用データの内容や質に関することが多くなっています。

2022年6月26日日曜日

人工知能は人間と同じで、学習しなければ賢くなりません：学習データについて考えます（II）

■時代と技術の発展がニューラルネットワーク型人工知能の展開を後押ししている。

　現在のニューラルネットワーク型人工知能の実施には、学習データ量を大きくすることが必要ということは良く知られた事実ですね。　データ収集がインターネット等の技術やIT関連技術の発展により比較的簡単に大量のデータを収集することが可能となったという、技術的な発展がニューラルネットワーク型人工知能の展開を容易にしていると言えます。

■自己学習機能がニューラルネットワーク型人工知能の発展や展開の基礎となった。

　現在のニューラルネットワーク型人工知能が急激に発展した理由の大きな要因が、「自分でAI実施のためのルール（知識）を発見する」ということがあります。　つまり、学習データさえあれば人工知能で利用するルール（知識）を自分で発見し、自己学習するということです。　このために、ルールベース型人工知能で必要とされた、エキスパートの関与が不要となり、特殊技術やノウハウの無い分野への人工知能の適用が可能となりました。　この特徴が、現在のニューラルネットワーク型人工知能が急速に普及した主たる理由となります。

　現代のニューラルネットワーク型人工知能はターゲットとする当該分野に関する経験、知識、ノウハウを必要とすることなく、適切な学習データを与えれば自己学習するという理想的な人工知能となります。　この意味するところは、

１．専門家やエキスパートがいない分野でも人工知能技術が適用できる。このために、従来は人工知能の適用が困難とされる様々な分野でも人工知能の適用が可能。

２．ルールベース型人工知能では専門家やエキスパートがいても、ルールの取り出しや人工知能システムの構築が必要であり、専門家とのコミュニケーションが必要で、分野単位の特殊要因等があり、ノウハウのシステムへの搭載困難。この結果、エキスパートの存在が必要、エキスパートのいない分野への適用不可、新規分野への適用困難、等々が出ます。

　現在は、インターネットやIT技術の発展に伴い、大量データの扱いや収集が比較的簡単となっています。　即ち、ビッグデータ時代の到来であり、この点でニューラルネットワーク型人工知能の展開が時宜を得たものとなっています。

2022年6月25日土曜日

人工知能は人間と同じで、学習しなければ賢くなりません：学習データについて考えます（I）

　現在のニューラルネットワーク型の人工知能はデータから学習するので、学習に用いるデータが極めて重要というのは理解できますね。　これに対して従来からの知識ベース型人工知能は、知識自体がシステムに入力されるので、改めて学習する必要はありません。　この場合は、知識を入力する人間が人工知能の代わりに学習し、その結果をまとめて人工知能システムがわかる形で入力（教え込み）します。

　では人工知能の学習に用いるデータは、どのようなものや条件を満たしていることが必要でしょうか。　現時点で良く分かっていることは、ニューラルネットワーク型人工知能の学習にはかなりの数のサンプルデータが必要だということです。　これに対してルールベース型の人工知能で用いる知識というものは、人間が学習するものなので量的に多いというよりは、まとめやすく、人間が処理できる量で、様々なノウハウを受けて構築されます。　この点で、ルールを設定する過程で、ルールを明確にするようにデータ自体が人間により選択、整理されたものが集めてまとめられます。　この作業は専門分野のエキスパートの関与が必要となります。　この結果、ルールベース型人工知能で求められるデータはルールを作り出す人間が必要とするものであり、その量はニューラルネットワーク型人工知能で用いる学習データよりもかなり少ない量で実施されます。

　上図で示されるように、ニューラルネットワーク型人工知能では大量の学習データが必要となります。　一方で、ルールベース型人工知能は少ない数の学習データで済みますが、人工知能システムが必要なのは知識（ルール）であって、学習データは直接用いません。　その代わりに、知識（ルール）の作成する人間はルールの作成に学習データを必要としますが、そんなに多くのデータではなく、良く整理され、情報的にクリーンなものが利用されます。

2022年6月7日火曜日

人工知能は機械学習の中でも、
ネットワークを基本とした機械学習を適用したものです。

機械学習には多種多様な手法や技術が適用されており、機械学習を適用する多変量解析・パターン認識（MV・PR）や人工知能（AI）の手法や種類により適用される手法が異なります。

　機械学習の基本的な実施目的である、最適化、最小/極小化等を行う内容や手法が異なります。　大きく、多変量解析・パターン認識で適用される機械学習法と人工知能（AI）で適用される機械学習法に二分類できます。

　人工知能（AI）で適用される機械学習は、ネットワーク（ニューラルネットワーク型）構造を基本としており、このネットワーク上での情報の流れを実施目的に合わせてコントロールできるように最適化します。　多変量解析・パターン認識上での機械学習でもネットワーク構造を扱うケースもありますが、そのネットワーク構造は人工知能（AI）で適用されるニューラルネットワーク型とは全く異なります。

　個々の機械学習の詳細な説明は別の機会に行いますが、多変量解析・パターン認識での機械学習と、人工知能（AI）で適用される機械学習は異なったものであることを理解しておいてください。　この事実を理解していれば、「機械学習を行えば人工知能(AI)を実施した」とは必ずしも言えないことがわかります。

　「機械学習をして人工知能（AI）を実施した」というためには、人工知能で用いられるネットワーク（ニューラルネットワーク型）構造を用いた機械学習（即ち、深層学習やバックプロパゲーション等）を行ったということが前提となります。

2022年5月10日火曜日

機械学習を行って人工知能（AI）を実行した、というのは正しいのか？

「機械学習を行って人工知能（AI）を実行した」

　この事実は、機械学習においてある条件を満たした場合は正しく、その条件を満たさない時は間違っています。

　機械学習は人工知能（AI）のみならず、多変量解析・パターン認識でも適用される基本的な手法です。　従って、「機械学習を行って多変量解析・パターン認識を実施した」ということも発生します。

　機械学習は多変量解析・パターン認識および人工知能（AI）の両方で適用される基本的な手法です。　但し、機械学習には様々な手法が存在しており、実施目的（多変量解析・パターン認識および人工知能（AI））に従って適用される手法が異なります。

・人工知能（AI）用の機械学習を適用　⇒　人工知能（AI）の適用

・多変量解析・パターン認識用の機械学習を適用　⇒　多変量解析・パターン認識の実施

　以上のように、人工知能（AI）を実施したという場合と、多変量解析・パターン認識を実施した時とでは機械学習の手法が異なっています。　この差異については、改めて本ブログにアップ致します。

　現在、機械学習を行ったから人工知能（AI）を実施したという免罪符的な詭弁が用いられている場合が多いように感じます。　人工知能（AI）を実施するにはサンプル数が多くなければならない、要因解析が困難等の問題があり、これらの解決にはかなりの工夫が必要となり、様々な解決すべき困難を伴います。　このために、少ないサンプルや要因解析等の問題を解決可能な多変量解析・パターン認識を適用するのですが、人工知能（AI）を実施したと宣言することが必要な場合に、機械学習が免罪符として利用されます。

　「線形重回帰も機械学習を行っているから、人工知能（AI）を実施した」あるいは「人工知能は機械学習を実施しているので、多変量解析・パターン認識を行った」ということを主張することは間違いであることは明確ですね。　プーチン大統領が言う「我々はネオナチと戦っている」と主張するのと大きな差異はないですね。　機械学習の種類を意識しないとこのような結論に至ることになります。

2022年4月3日日曜日

機械学習と深層学習の違い：
多変量解析・パターン認識とAI の学習の違いについて

　先に報告したAI-SHIPSシンポジウム（AIを用いた新たな毒性予測に向けて、AI-SHIPSプロジェクト― 事業の成果と今後の展望 ―）において、機械学習をしているのでAIであるという偏った、誤った考えを持っていることが明らかになりました。　これは、AIに対応する機械学習を実施していれば正しいのですが、多変量解析・パターン認識で展開されている機械学習と同様な手法を用いれば間違った適用をしていることになります。　AI-SHIPSに限らず、化学分野では機械学習をすればAIであると称し、実質的には一般的な多変量解析・パターン認識を実施していることが多いようです。

　この定義に従えば、機械学習をすれば総てAIであり機械学習をすればすべて多変量解析・パターン認識と言えることとなり、明らかに矛盾してきます。　この矛盾は機械学習に関する理解が不十分であるために発生すると考えます。
　機械学習をすればAIであるという自分に都合の良い／間違った主張や観点は、今後の真のAI展開において不適切なものとなりますので、本ブログにて機械学習について考察いたします。

2022年2月26日土曜日

AI-SHIPSシンポジウム（AIを用いた新たな毒性予測に向けて、AI-SHIPSプロジェクト― 事業の成果と今後の展望 ―）：参加と討論報告：１

　AI-SHIPSシンポジウム(AIを用いた新たな毒性予測に向けて、AI-SHIPSプロジェクト― 事業の成果と今後の展望 ―）：二月二十一日開催、に参加いたしました。　このAI-SHIPSシンポジウムにて、改めてAI（人工知能）とは何であるかについて考えさせられたので、現時点で改めましてAIとは何であるかについて考えてみたいと思います。

　本ブログの名称は「人工知能による創薬、安全性評価ブログ」です。　従って、本ブログの中での討論は「化合物」を中心として展開される様々な展開分野に関し、AIをどのように適用するのかという観点に関する討論を行うことを目指しております。　特に、創薬や安全性評価という研究の広い裾野と様々な関連研究分野より構成される適用分野での討論をターゲットとして討論してまいりました。

　今回の「AI-SHIPSシンポジウム」への参加／討論で強く感じたことは、AI-SHIPS は「AIを用いた・・・」というフレーズがプロジェクト名にトップで大きく掲げられています。　従ってAI に関する研究がプロジェクトの主体テーマであると感じますが、実態は従来型のWET系の実験を中心とした展開であるということです。　これが「AI-SHIPSシンポジウム」に参加した時に強く感じた違和感となります。　肝心の、「AIを用いた・・・」というところは、従来型のシステム構築で済ませているのが実態であったということです。極めて残念です。

　AIの適用に関しては、機械学習を行えばAIという観点で考え、多変量解析やパターン認識を適用することでAIを適用したと主張しております。　この観点でAIを実施したと主張されると、日本では、少なくとも化学研究分野、AIの展開や適用ノウハウ等が育たなくなります。　現在、デジタル（IT）国家を標榜する大きな流れの中で、IT技術の先端技術として急速に拡大しているAIを、中途半端な形で定義し、あいまいなものとすることは極めて憂慮されるべきことと考えます。

　化学分野でのAI実施には様々な困難が待ち受けていることは明確です。　このブログでも様々な形で問題を提起し、討論を行っています。　AI実施は難しいというのは誰もが知っていることです。　この困難性に正々堂々と立ち向かって、様々な問題にチャレンジし、突破してゆくことがIT国家には必要なことではないでしょうか。　このようなことを目指して実施するのが国家プロジェクトの責務と考えます。

□以下は参考となる項目です。

１．AI-SHIPSシンポジウムへの参加報告です。

２．チャットで行った質問内容に関する報告です。

３．「計算毒性学研究会」主査の、湯田によるシンポジウム参加の報告です。

2022年1月24日月曜日

時代が大きく変化しております：
人工知能自体も、より高度なレベル「オートノマス（自律型／化）化学」へと発展するものと考えます。

　本ブログでは化学分野における人工知能の適用を中心として展開してきました。　この化学分野へのAI適用を中心として、バイオや医療分野への適用も拡大適用のケースとして積極的に討論してまいります。また、適用理論のみならず、人工知能の研究の基本となる人工知能自体の討論も活発に実施してまいります。この流れはそのまま今後の本ブログの討論項目として展開してまいります。人工知能に興味を持ち、特に化学分野への適用を計画されている方々の積極的な意見やアドバイスをお待ちいたしますので、本年度もよろしくお願いいたします。

　現在の傾向としては、AIのみならずデータサイエンス手法と連携しながら展開されることが多く、この方が様々な状況に対応可能であり、両方の技術の相乗効果や個々の技術のレベル強化につながると考えます。

　この点で、データサイエンスやAI適用の今後の発展及び究極の形は単なる「自動化」というよりは、判断や決定を伴う「オートノマス（自律型／化）」であると考えます。定型的な作業の繰り返しで、高精度、高速化や長時間（無休）稼働といった「自動化」はデータサイエンスやAIの目標ではありますが、一つの到達点と考えます。判断や決定を伴う「オートノマス（自律型／化）」が、データサイエンスやAI適用の最終ゴールであり、この実現を目指して今後急速に技術の展開や発展が進んでゆくと考えます。

　本ブログが「化学分野でのAI適用」を標榜しておりますので、今後は目標／達成レベルを上げて「化学分野でのオートノマス（自律型／化）」を目指してまいりたく考えます。

　今回「オートノマス（自律型／化）化学」を基本テーマとし、積極的に討論／展開するブログが開設されましたので、この新規のブログとの連携を強化しつつ展開してまいる所存です。今後ともよろしくお願いいたします。

　また、データサイエンスの分野では、「ビッグデータ」時代に適したデータ解析手法である「ＫＹ法」を議論するブログも展開されておりますので、「オートノマス（自律型／化）」を議論する上でご参照いただければ幸いと存じます。

2022年1月1日土曜日

新年あけましておめでとうございます。
Best wishes for the New Year.

謹賀新年

今年もよろしくお願いいたします。

　化学分野への人工知能技術の本格的な展開はこれからです。化学分野の特性を生かしつつ、化学（アナログ情報）と人工知能（デジタル）の融合を目指した最新の技術展開を目指して挑戦してまいります。

登録: 投稿 (Atom)