AI時代を支えるAIの研究討論ブログ

　時代が「AI時代」へと変化するに伴い、新時代を支える基本技術はAIであることは明白です。AIは他の研究と融合されて様々な利点や効果を生み出すことが期待されるし、この実現が求められます。
　AI技術は極めて重要な技術ですが、このAI技術を理解せずに他の技術との連携・融合を行うことは極めて危険です。AI以外の研究者も、AIに関するある程度の基本技術の理解が必要です。
　AIはAI研究者に任せるということも主張されますが、AI導入研究は融合研究や境界領域研究となります。このような異分野の研究の展開では異分野研究者の相互理解が必要です。この場合、ある程度AI関連研究の基本の理解も必要です。これが無い時は、AIと他の研究者間で意思疎通が困難となり、互いに自分の主張を行うだけの議論となります。
　「情報時代」において、化学・創薬研究分野への情報化学や化学情報学（ケモメトリクス）が発展したように、「AI時代」にはAI 化学やAI情報化学の展開が必要となります。
　　本ブログではAI研究者と個別研究者との討論や連携を効率的に行うためのAIの基本技術の理解を目指します。

2024年10月13日日曜日

２０２４年度のノーベル賞について。ノーベル賞の受賞対象範囲や該当分野が大きく変化した。

　今回のノーベル物理学賞はAI 関連研究に授与されました。これは、従来のノーベル物理学賞の受賞範囲には無い範疇で、物理というよりは情報学分野であり、しかもアルゴリズムに関する研究という点で、ノーベル賞の選考委員会が時代を変える新たな分野にも展開しようとする大きな流れを示すものと考えます。

　同様にノーベル化学賞も受賞対象が、アルファフォールドというソフトウエアであるという点で、大きな変化がありました。しかもアルファフォールドがAI 技術を積極的に取り入れることで、タンパク質の三次元構造の構築精度を革新的に向上させたことが、ノーベル物理学賞と同じAI での受賞となりました。化学賞でソフトウエアが受賞したというのは、ソフト関連研究者の取っては大きな光明となります。ノーベル化学賞では昔から分析機器に関する受賞が多くありました。島津の田中先生はレーザーイオン化質量分析技術で受賞されておりますが、これはタンパク質の文資料測定にも使われています。

　２０２４年のノーベル賞が大きく変化したというのは、自然界の基本原理の解明から、アルゴリズム等の分野に拡張されたということ。さらに、ソフトウエアでもノーベル賞が授与されるようになったことです。大きな時代の変化を感じます。

ノーベル物理学賞とノーベル化学賞に、AI関連技術の内容が受賞しました。

　２０２４年のノーベル賞は、正にAI元年と呼ぶにふさわしい内容となりました。

　これらの内容は以下の内容にてインシリコデータのブログにて報告いたしております。

１．　インシリコデータとの総合連携ブログ ---情報時代の自律（オートノマス）型研究---: ２０２４年ノーベル物理学賞がAI関連の研究者に授与されました。これはノーベル賞としての新しい流れであり、私としてはとてもうれしいです。 (insilicodata.blogspot.com)

２．　インシリコデータとの総合連携ブログ ---情報時代の自律（オートノマス）型研究---: 2024年ノーベル物理学賞における人工知能（AI）研究での受賞が意味するもの。　ノーベル賞の受賞の流れ／内容が変わった？ (insilicodata.blogspot.com)

３．　インシリコデータとの総合連携ブログ ---情報時代の自律（オートノマス）型研究---: ２０２４年ノーベル化学賞も人工知能（AI）関連研究に授与されました。晴天の霹靂で、本当にビックリしました。この受賞は私にとっても大きな意味があります。即ち、ソフトでもノーベル賞の対象になるということです。 (insilicodata.blogspot.com)

　なお、AIについての解説はわかり易い内容で、以下（Lab BRAINS）に詳しくまとめてありますので、ご参照ください。なお、同サイトにはノーベル化学賞についての解説もあるので、両方参考にしてください。

*2024年ノーベル物理学賞について分かりやすく解説！『人工ニューラルネットワークによる機械学習を可能にする基礎的発見と発明』 - Lab BRAINS (as-1.co.jp)

*2024年ノーベル化学賞について分かりやすく解説！『計算によるタンパク質設計』と『タンパク質の構造予測』 - Lab BRAINS (as-1.co.jp)

2024年6月2日日曜日

(大規模)生成AIは、何故従来型AIと異なる創造性や知的な活動等が出来るようになったのか？

　現在のコンピュータ中心の「コンピュータ時代」が、今後はデータが総てを支配する「情報時代」へと移行することは明白であり、この事実は日がたつほどに明確となってきています。歴史が示しているように時代が移行するためには、移行させるレベルの大きな技術的変化や進歩が必要です。今回の「情報時代」への移行ですが、別名「人工知能（AI）革命」と呼ばれています。「(大規模)生成AI」に関する様々な動きや報告が、日々報告され、世界レベルで協議されていることを見ると、正に(大規模)生成AIが起こしている人工知能（AI）革命であることが納得できます。

　技術的に見れば、(大規模)生成AIも通常型のAI もネットワーク型であり、その複雑なネットワーク構造を有する深層学習を基本としていることは変わりありません。では、従来型のAI で起こせなかった革命を(大規模)生成AIは、何故革命と称されるような凄い機能を持つようになったのでしょうか。不思議に思いませんか。私も従来型AI を見ている限りでは、今回のような(大規模)生成AIが起こすようなことは絶対に起こりえないと考えていました。しかし、実現したのです。

　　　なぜ？？？？？？　

　　　何が起こったのか？？？？？　

　　　従来型AI と何が違うのか？？？

　一緒に考えてゆきましょう。

2024年1月25日木曜日

新たなブログ名称および内容の案です：
This is a proposal for a new blog name and content.

　新ブログを構成するにあたり以下の点を留意しつつ検討いたしました。

■討論テーマは来るべき「情報時代」に相応しい内容とする

・新たな技術等に関する積極的な討論を目指す。

・「情報時代」の基盤技術となる大規模言語モデルや種々生成AIを主たるテーマとする。

■従来型の基本的な分野や手法に関する議論の場も設ける

・「コンピュータ時代」における技術も、ある程度フォローする。

・「コンピュータ時代」と「情報時代」の技術の連携や、改良等の効果も重要。

■インシリコデータのHPとの連携性も考慮する　

・インシリコデータのHPには討論のみならず関連資料が多数掲載されている。従って、そのHPとの連携により、相乗効果が期待できる。

１．インシリコデータブログ：

　⇒　インシリコデータおよびオートノマス（自律型）関連、一般及び速報

２．オートノマスブログ：

　⇒　自律型(知的、オートノマス）研究概論関連ブログ

３．インシリコスクリーニングブログ：

　⇒　自律型（知的、オートノマス）創薬等の適用関連ブログ

４．AI法関連ブログ：

　⇒　大規模言語モデル（LLM）、種々生成AI 関連ブログ（GAI）

５：KY 法関連ブログ：

　⇒　KY法およびデータサイエンス関連ブログ

６：テーラーメードモデリングブログ：

　⇒　テーラーメードモデリング及びインシリコ創薬関連ブログ

2024年1月5日金曜日

時代の移行や技術の発展に伴い、インシリコデータ関連ブログを刷新致します。
As the times change and technology develops, we will update the in silico data related blogs.

現在はコンピュータを中心として殆どの業務が動き、コントロールされる「コンピュータ時代」の絶頂期となっております。このコンピュータ関連技術の発展は多種多様な技術内容で展開され、現在は様々な分野で大きな変化が起こっています。即ち、コンピュータ本体の計算スピードの更なる高速化、メモリー容量の大規模化、ネットワーク関連技術の拡大に伴うインターネットや通信速度の高速化、SNSの普及や多種多様のデータベースの開発等が実現されました。

　このような様々な変化により、現在は「データ」、即ち「情報」が社会の流れや生活を大きくコントロールする「情報時代」となっております。これに伴い、時代を支える基盤技術にも大きな変化が起こっております。最近話題になっているChatGPTを中心とする大規模言語モデル（LLM)や、様々な生成AI（GAI）等が新たな時代を支える基盤技術となりつつあります。

　株式会社インシリコデータも皆様の暖かいご支援により、来る５月２８日にて操業１３年目を迎えることとなります。また、インシリコデータ関連ブログも約１０年目を迎えます。ブログでは最新の技術を追求して発信してきたつもりですが、技術の発展も早く、今後もブログ発足当時と同じテーマを追求することはあまり意味が無くなってきたと感じております。

　時代が「コンピュータ時代」から「情報時代」へと移行する中で、コンピュータ時代における１０年前のテーマを掲げて、技術を討論しても大きな進歩や変化は望まれないと考えます。従いまして、インシリコデータ関連のブログである６ブログにつきまして、来るべき「情報時代」での討論に相応しい内容になるべく検討させていただきます。

　今後ともよろしくご支援お願いいたします。

2022年7月23日土曜日

人工知能は人間と同じで、学習しなければ賢くなりません：学習データについて考えます（IV）

　人工知能（AI）システム構築時に必要となるのは、人工知能システムと学習に用いる学習データです。ニューラルネットワーク型人工知能の特徴として学習用サンプル数が大きいことは良く知られた事実です。　ということで、人工知能システムに学習データを入力して学習させてて知識を構築して適用すると、うまく動かないことがしばしば発生します。　この多くの場合は、データサンプル数が多くても、その学習データの質が適用目的を実施するのに必要な情報や事例を含んでいないことが原因となります。　これは当然ですね。　人間であっても、当面の解決目標達成に必要とする事象についての知識やノウハウを学習していなければ、知識の適用に失敗してしまします。　この典型的な事例は、事象の成功事例ばかり多数学習して、失敗事例を殆ど学習していない場合です。　これは通常の多変量解析・パターン認識でも発生する問題です。　偏った情報を用いた場合、多変量解析・パターン認識は多数の学習データ側に有利な解析を実施します。　これは人工知能であっても同じです。

人工知能の学習：

１．学習サンプル数の問題　

　精度の高い人工知能システム（ネットワーク構造）を実現するには、多変量解析・パターン認識と比較して相対的に多数の学習データが必要である。　一般的に、多変量解析・パターン認識は学習サンプル数が多くなると分類等の精度が鈍くなる。

２．学習サンプルの質(内容)の問題

①ターゲットとなる獲得知識やノウハウ構築に必要な情報を含まない学習データ

動物の識別を目的とする時、学習データとして風景の中にいる動物の写真を多数そろえる等の場合はサンプル数が多くとも、学習出来ないか、信頼性の低い学習となる。　人工知能が実施目的に即した情報を得ているという可能性が小さければよい人工知能にはならない。

②偏った情報のみで構成される学習データ

　毒性評価する時、殆どが無毒性化合物のみの学習データを用いる場合等。　合成ルート創出の学習データとして、反応パターン事例等の合成成功事例データのみを用いて、合成の失敗反応事例を含まない場合。　このような偏ったデータで学習した場合、学習はするが、信頼性の高い学習（ネットワーク）を実現することは不可能である。

2022年7月9日土曜日

人工知能は人間と同じで、学習しなければ賢くなりません：学習データについて考えます（III）

□　最近の人工知能ブームについて

　人工知能での学習は人工知能を正しく実施するためには極めて重要な要因です。　この学習はルールベース型人工知能と異なり、学習データを与えれば勝手に人工知能の実施（予測や判定、決断）に必要となる重要なルールを自動的に作り上げるという特徴が、最新の二ューラルネットワーク型人工知能（特に深層学習型）の最大の利点となっています。　この結果、現在の人工知能ブームが沸き起こったといっても過言ではないでしょう。

　以上のように、データさえあれば特に専門知識が無くとも人工知能に学習させることで、従来は特殊な技術やノウハウを持つ研究者や技術者の代わりを担わせることが出来るという期待が大きくなっています。　しかし、実際に人工知能システムを構築すると直ぐに突き当たる問題は、人工知能に高度な学習をさせるためのデータに関する問題となります。

□　学習データに要求される必須要件（大きなサンプル数が必要）

　学習用データの問題は、一般的には学習データ数の問題が取り上げられます。　ニューラルネットワーク型人工知能では学習に用いる学習データ数が、多変量解析・パターン認識で使われるサンプル数よりもかなり大きな数の学習データ数が求められます。　この大きな学習データ数を要することは、人工知能でのニューラルネットワーク型の機械学習において、信頼性の高い結果を得るためには重要な要因となります。　これは、学習データであって、データ解析に用いる多変量解析・パターン認識に用いるのと利用目的が異なることが大きな要因です。　また、ネットワーク型機械学習の特徴として、過剰適合や偶然相関を起こしやすいアルゴリズムであることも大きな要因となります。

　この大きなサンプル数については、最近のインターネットの急速な拡大や、記憶容量の安価、高密度化や複雑なネットワーク構造のウエイト計算に必要なCPUの機能向上等の急速な発展により支えられてきました。　特に画像データや音声データ等の蓄積量は膨大となり、現在のニューラルネットワーク型人工知能の発展の大きな要因となっています。

□　学習データに要求されるデータの質の問題

　学習用データは単にサンプル数が多いだけでなく、学習データの内容や質が信頼性の高い人工知能の構築には必要です。　現在の人工知能システム構築で頻繁に起こる問題は、この学習用データの内容や質に関することが多くなっています。

2022年6月26日日曜日

人工知能は人間と同じで、学習しなければ賢くなりません：学習データについて考えます（II）

■時代と技術の発展がニューラルネットワーク型人工知能の展開を後押ししている。

　現在のニューラルネットワーク型人工知能の実施には、学習データ量を大きくすることが必要ということは良く知られた事実ですね。　データ収集がインターネット等の技術やIT関連技術の発展により比較的簡単に大量のデータを収集することが可能となったという、技術的な発展がニューラルネットワーク型人工知能の展開を容易にしていると言えます。

■自己学習機能がニューラルネットワーク型人工知能の発展や展開の基礎となった。

　現在のニューラルネットワーク型人工知能が急激に発展した理由の大きな要因が、「自分でAI実施のためのルール（知識）を発見する」ということがあります。　つまり、学習データさえあれば人工知能で利用するルール（知識）を自分で発見し、自己学習するということです。　このために、ルールベース型人工知能で必要とされた、エキスパートの関与が不要となり、特殊技術やノウハウの無い分野への人工知能の適用が可能となりました。　この特徴が、現在のニューラルネットワーク型人工知能が急速に普及した主たる理由となります。

　現代のニューラルネットワーク型人工知能はターゲットとする当該分野に関する経験、知識、ノウハウを必要とすることなく、適切な学習データを与えれば自己学習するという理想的な人工知能となります。　この意味するところは、

１．専門家やエキスパートがいない分野でも人工知能技術が適用できる。このために、従来は人工知能の適用が困難とされる様々な分野でも人工知能の適用が可能。

２．ルールベース型人工知能では専門家やエキスパートがいても、ルールの取り出しや人工知能システムの構築が必要であり、専門家とのコミュニケーションが必要で、分野単位の特殊要因等があり、ノウハウのシステムへの搭載困難。この結果、エキスパートの存在が必要、エキスパートのいない分野への適用不可、新規分野への適用困難、等々が出ます。

　現在は、インターネットやIT技術の発展に伴い、大量データの扱いや収集が比較的簡単となっています。　即ち、ビッグデータ時代の到来であり、この点でニューラルネットワーク型人工知能の展開が時宜を得たものとなっています。

2022年6月25日土曜日

人工知能は人間と同じで、学習しなければ賢くなりません：学習データについて考えます（I）

　現在のニューラルネットワーク型の人工知能はデータから学習するので、学習に用いるデータが極めて重要というのは理解できますね。　これに対して従来からの知識ベース型人工知能は、知識自体がシステムに入力されるので、改めて学習する必要はありません。　この場合は、知識を入力する人間が人工知能の代わりに学習し、その結果をまとめて人工知能システムがわかる形で入力（教え込み）します。

　では人工知能の学習に用いるデータは、どのようなものや条件を満たしていることが必要でしょうか。　現時点で良く分かっていることは、ニューラルネットワーク型人工知能の学習にはかなりの数のサンプルデータが必要だということです。　これに対してルールベース型の人工知能で用いる知識というものは、人間が学習するものなので量的に多いというよりは、まとめやすく、人間が処理できる量で、様々なノウハウを受けて構築されます。　この点で、ルールを設定する過程で、ルールを明確にするようにデータ自体が人間により選択、整理されたものが集めてまとめられます。　この作業は専門分野のエキスパートの関与が必要となります。　この結果、ルールベース型人工知能で求められるデータはルールを作り出す人間が必要とするものであり、その量はニューラルネットワーク型人工知能で用いる学習データよりもかなり少ない量で実施されます。

　上図で示されるように、ニューラルネットワーク型人工知能では大量の学習データが必要となります。　一方で、ルールベース型人工知能は少ない数の学習データで済みますが、人工知能システムが必要なのは知識（ルール）であって、学習データは直接用いません。　その代わりに、知識（ルール）の作成する人間はルールの作成に学習データを必要としますが、そんなに多くのデータではなく、良く整理され、情報的にクリーンなものが利用されます。

2022年6月7日火曜日

人工知能は機械学習の中でも、
ネットワークを基本とした機械学習を適用したものです。

機械学習には多種多様な手法や技術が適用されており、機械学習を適用する多変量解析・パターン認識（MV・PR）や人工知能（AI）の手法や種類により適用される手法が異なります。

　機械学習の基本的な実施目的である、最適化、最小/極小化等を行う内容や手法が異なります。　大きく、多変量解析・パターン認識で適用される機械学習法と人工知能（AI）で適用される機械学習法に二分類できます。

　人工知能（AI）で適用される機械学習は、ネットワーク（ニューラルネットワーク型）構造を基本としており、このネットワーク上での情報の流れを実施目的に合わせてコントロールできるように最適化します。　多変量解析・パターン認識上での機械学習でもネットワーク構造を扱うケースもありますが、そのネットワーク構造は人工知能（AI）で適用されるニューラルネットワーク型とは全く異なります。

　個々の機械学習の詳細な説明は別の機会に行いますが、多変量解析・パターン認識での機械学習と、人工知能（AI）で適用される機械学習は異なったものであることを理解しておいてください。　この事実を理解していれば、「機械学習を行えば人工知能(AI)を実施した」とは必ずしも言えないことがわかります。

　「機械学習をして人工知能（AI）を実施した」というためには、人工知能で用いられるネットワーク（ニューラルネットワーク型）構造を用いた機械学習（即ち、深層学習やバックプロパゲーション等）を行ったということが前提となります。

2022年5月10日火曜日

機械学習を行って人工知能（AI）を実行した、というのは正しいのか？

「機械学習を行って人工知能（AI）を実行した」

　この事実は、機械学習においてある条件を満たした場合は正しく、その条件を満たさない時は間違っています。

　機械学習は人工知能（AI）のみならず、多変量解析・パターン認識でも適用される基本的な手法です。　従って、「機械学習を行って多変量解析・パターン認識を実施した」ということも発生します。

　機械学習は多変量解析・パターン認識および人工知能（AI）の両方で適用される基本的な手法です。　但し、機械学習には様々な手法が存在しており、実施目的（多変量解析・パターン認識および人工知能（AI））に従って適用される手法が異なります。

・人工知能（AI）用の機械学習を適用　⇒　人工知能（AI）の適用

・多変量解析・パターン認識用の機械学習を適用　⇒　多変量解析・パターン認識の実施

　以上のように、人工知能（AI）を実施したという場合と、多変量解析・パターン認識を実施した時とでは機械学習の手法が異なっています。　この差異については、改めて本ブログにアップ致します。

　現在、機械学習を行ったから人工知能（AI）を実施したという免罪符的な詭弁が用いられている場合が多いように感じます。　人工知能（AI）を実施するにはサンプル数が多くなければならない、要因解析が困難等の問題があり、これらの解決にはかなりの工夫が必要となり、様々な解決すべき困難を伴います。　このために、少ないサンプルや要因解析等の問題を解決可能な多変量解析・パターン認識を適用するのですが、人工知能（AI）を実施したと宣言することが必要な場合に、機械学習が免罪符として利用されます。

　「線形重回帰も機械学習を行っているから、人工知能（AI）を実施した」あるいは「人工知能は機械学習を実施しているので、多変量解析・パターン認識を行った」ということを主張することは間違いであることは明確ですね。　プーチン大統領が言う「我々はネオナチと戦っている」と主張するのと大きな差異はないですね。　機械学習の種類を意識しないとこのような結論に至ることになります。

登録: 投稿 (Atom)