2021年9月17日金曜日

⁂化学データサイエンスおよび人工知能関連講演会および教育講演のお知らせ

 CBI学会2021年大会では、計算毒性学関連講演会として、現在急速に展開されている化学データサイエンスおよび人工知能に関するフォーカストセッションとチュートリアル(教育)が開催されます。化学関連研究にデータサイエンスや人工知能の適用を考えている研究者の方々は奮って参加ください。


TS-02: チュートリアル 2021 年 10 月 25 日 13:00-17:00 
「半日で知る、化学分野のデータサイエンスおよび人工知能概要」: 
 「FS-08:化学データサイエンスおよび人工知能討論、勉強会」立ち上げ会協賛
 A Half-day Overview of Data Science and Artificial Intelligence in the Field of Chemistry: "FS-08: Chemical Data Science and Artificial Intelligence Discussion, Work Shop" Kick-off Meeting Sponsorship


FS-08:日時: フォーカストセッション 2021 年 10 月 28 日 13:00-14:30 
 「化学データサイエンスおよび人工知能討論、勉強会」立ち上げ会: 計算毒性学研究会主催
 "Chemical Data Science and Artificial Intelligence Discussion, Work Shop" Kick-off Meeting : Organized by the Computational Toxicology Study Group 



2021年1月4日月曜日

データサイエンスや人工知能におけるサンプルデータ: サンプル数とサンプルポピュレーション

 現在、データサイエンスや人工知能に関する研究では手法に関する研究が盛んである。

 しかし、データサイエンスや人工知能を用いて実際に適用しようとすると、機械学習に用いたサンプルデータの数や、ポジ/ネガ等のサンプルポピュレーションの問題が、最終的な解析結果の良否に大きく関係することがわかる。

 全く同じサンプルデータを用いた場合、解析手法や人工知能手法の改良や新規開発を行っても、ほとんどの場合大きな改善は見られない。大きなブレークスルーはデータ解析手法から人工知能に変換した場合等の、次元や発想の異なるレベルの手法的変化が必要である。

 同じデータ解析手法や人工知能の範囲での変化ではブレークスルーを導くような改善は期待できないと考えるべきである。

 一方で、機械学習に用いるサンプルデータに関する研究は手法と比較すると殆ど進歩していない。しかし、機械学習を適用するデータ解析や人工知能は手法を問わずすべてサンプルデータの良否が学習成果を大きく変化させることは明白である。

 即ち、標準的なデータ解析手法や人工知能手法を用いても、データサンプルを吟味した結果の方がより大きなブレークスルーを得やすいことである。これは、データ解析や人工知能をより正確で信頼性の高い状態で実施することが求められる現場においては極めて重要なポイントである。

2021年1月2日土曜日

2021年が素晴らしい年となるように願っております:The 2021 will be a wonderful and great year.

  昨年はコロナに翻弄され、日常生活を取り戻せませんでしたが、今年は通常の生活を取り戻せるようになることを願っております。


 2017年の正月に本ブログにて新年の挨拶をアップしましたが、いつの間にか4年も経ちました。この間データサイエンスや人工知能(AI)の展開は急速に進みました。研究の世界や日常生活においても、このデータサイエンスや人工知能の果たす役割や、研究対象としての存在は意識することが無く、むしろ自然に導入されているというような状況となってきました。

 4年前の本ブログを見て、データサンプルという観点から見ると現時点でほとんど変化していないことを強く感じます。データサイエンスや人工知能の開発や適用、信頼性確保という観点で最も重要なサンプルに関する議論や環境の整備が全く進んでいないことに驚きを感じました。

 従いまして今年は、データサイエンスや人工知能におけるサンプルデータの問題を主たるテーマとして討論してゆこうと考えております。

 今年もよろしくお願いいたします。

2017年1月15日日曜日

新年明けましておめでとうございます:今年は人工知能関連が大きくブレークするでしょう

 新年明けましておめでとうございます。 

 今年も皆様にとりまして素晴らしい年となるようにお祈りいたします。


 今年は人工知能関連が全ての面で大きくブレークする年となるでしょう。 最近は、殆ど毎日人工知能関連の記事が新聞上に掲載されるようになりました。
 昨年までは、深層学習が大きく取り上げられ、この技術により、従来は適用困難、不可能であった様々な分野への人工知能適用が可能となるという期待先行型で大きく取り上げられているという感じでした。 まだまだ期待先行で、ブーム的なイメージがありますが、最近は人工知能の適用分野や適用内容が急速に広がりつつあることを感じるようになりました。

 過去にも人工知能が大きく取り上げられ、様々な分野での人工知能適用が試みられた時がありました。 「第五世代コンピュータ(1982-1992)」として、国が主導で様々な分野での人工知能適用が試みられました。 私も、幾つかのプロジェクトで人工知能システム構築を行ないました。 当時は、現代と異なり、パーセプトロンの発展型であるニューラルネットワーク(バックプロパゲーション法(1986))等の技術は開発されておらず、いわゆるルールベース型の人工知能を展開していました。

 現在の人工知能を取り巻く環境は様々な観点で大きく変化しております。 インシリコ(コンピュータ)関連では、CPU機能の急激な向上で、計算速度の桁違いの高速化、さらにメモリーも桁違いに記憶量を増やし、ネットワークもインターネットにより世界との境界を取り去りました。 現在は、ICT、IoT、さらにはビッグデータと人工知能技術と連携する事が必要、あるいは連携する事で従来とは異なる効果や結果が期待できる環境が揃ってきました。 さらに、時代的な変化により、従来は夢と考えられてきた自動運転、ロボット技術等の様々な分野が、現実のものや必要技術となり、この面からも人工知能技術との連携や適用が必要となっています。

 従来は、物事の単純化による法則化、数式化等々によるアプローチが様々な分野で適用され、問題解決の王道として展開され、素晴らしい結果や効果をもたらしてきました。 しかし、現実の世界では様々な要因が絡み、それらの要因が相互作用を行ない、結果や予想が困難といった複雑な分野も多数存在します。 これらの複雑な問題に関する解決アプローチは避けて通ってきたというのが現状でした。
 現在は、ビッグデータということで集積されるデータ量もひと昔前に比べて桁違いに大きくなりました。 この結果、従来のデータ解析手法では精度を保った解析は実施困難となっています。 またIoTの展開により、従来は扱う事や集積が困難であったデータもリアルタイムで集積する事が可能となり、医療や健康という観点での新たな解析が可能となってきました。 このような大量/リアルタイムデータの解析に人工知能等の技術適用が期待されます。 また、自動運転のように、法則化する事が困難で、異常事態への対応が強く求められる分野でも、ルール化や例外を許さない従来のアプローチによる展開は困難で、このような分野での人工知能技術の適用は重要です。

 化学の分野では今年も様々な発見や技術の展開があるでしょう。 従来のアプローチは、発見や真理の追求が中心でした。 この目的に従って、メカニズム解明等を目的として様々な分析機器を駆使し、実験プロトコルを決定し、きれいなデータを集めてデータ解析や要因解析を行なってきました。 この結果に従って、創薬ターゲットとなる蛋白や化合物を決めて新たな薬物を展開するという流れでした。 ターゲット蛋白や化合物が決まった後の薬理活性最適化過程は発見と異なり、正に試行錯誤の連続です。 発見等を主目的とするメカニズム追求研究とは異なる文化の世界です。
 人工知能の適用は、前記のような試行錯誤を中心とした創薬過程で大きな効果を発揮するものと期待されます。 発見型の研究分野への適用も、様々なJoulnalを俯瞰的に眺めて新たな知見を見出す等の、人間には負荷の高い作業への適用が人工知能の高い効果を期待出来るものとなるでしょう。

 人工知能の展開が大きく期待され、必要となっている時代が来ていることを強く感じています。 インシリコ(コンピュータ)関連技術の大きな変化がもたらす二次的な変化が、従来の技術で対応する事が困難な現状を生み出し、従来技術の適用限界を超えるものとしての人工知能技術が期待されます。 また、従来は夢として扱われてきた技術が時代の要請や変化により、現実のものとして取り組む事が求められるようになり、このような分野でも人工知能の展開が必要となっています。

 今後は様々な分野で人工知能技術の展開が期待されます。 特に本ブログで取り上げる、化合物や生体を適用対象とする分野では、人工知能技術を適用する時に様々な留意点が存在する事も事実です。 これらの留意点を認識し、クリアする事が出来なければ、人工知能を適用しても正しい結果が得られないだけでなく、間違った答えに導かれる可能性が高くなることのあることを強く意識する事が必要です。
 化合物に関する様々な分野、生体が関与する医療関連の様々な分野。 これらの分野への正しい人工知能の適用が今後強く要求されるでしょう。

2016年10月14日金曜日

人工知能の機械学習にかけるデータについて(3)

◆人工知能の機械学習で使われるデータが有する情報のバランス


  人工知能を学習させるときに用いるデータは、多ければ多いほど精度や人工知能が賢くなるようになると思われています。 また、人工知能の実施者は自分の利用目的にふさわしい結果を導き出すように、とにかく多くのデータを用いて学習させようと考えます。
  この時、分野によりますが、特に創薬や安全性評価等の分野では、学習に用いるデータが有する情報内容の偏りについて留意する事が必要となります。

  前のアップで、以下のように書きました。

*************************************
 ある目的(特に科学的な)を持ち、その目的に従って決定や判断を行なう人工知能は、その学習に用いるデータとしては、目的事象を何らかの形で説明する、あるいは関連する情報を有したものであることが基本です。 この条件を満たした場合、人工知能が扱うデータ数はビッグデータレベルのものでも扱えることとなります。 
*************************************

  当然ですが、学習用データは人工知能に期待する内容に関する情報を含むことが必要です。 期待する内容と関係のない情報(即ちノイズ情報)ばかり、あるいはこのノイズ情報が多く含まれる場合は、人工知能の学習成果を期待する事は出来ません。

  この、ノイズ情報の存在という条件と対比するのが、正確に学習するのに必要なデータが欠損する事による、人工知能学習の偏りの危険性です。 この危険性を意識して学習データを集めることが必要です。

  例えば、Journalから得られる情報は信頼性が高く、研究者の知識源となっています。 従って、研究者が読み切れない量のJournalを人工知能に学習させれば、人工知能に研究者以上の知識を持たせることが出来ると期待されます。

  この場合、大きな問題はJournalの情報は偏った情報であるということです。 特に創薬や化学関連のJournalは成功事例のみが掲載されています。 Journalに掲載された論文の陰には、極めて多数の失敗した実験事例が存在します。 しかし、これらの失敗事例はJournalには掲載されません。 Journalからの情報だけでは人工知能は成功事例でしか学習できません。 これが、極めて大きな問題なのです。 人間が読み切れない大量の論文を人工知能が学習したから、優れた答えを出すというのは幻想です。
  人間でもそうですが、成功事例でのみ学んでいる場合、新たに考えた案件は失敗事例であってもその事実をチエックする事は出来ません。 この点は人工知能であっても全く同じです。 成功事例のみ用いて学習した人工知能が提案する候補化合物は、失敗事例に基づく評価がされていない状態となります。 従って、最悪の場合失敗事例を学ばない人工知能から出される提案は、全て失敗事例の案を提案している可能性があります。
  これは、多変量解析/パターン認識でも全く同じですね。 例えば、二クラス分類を行なう時、サンプル数がクラス間で大きく異なっている場合、分類自体がサンプル数の大きなクラスに有利に働くことが知られています。

  いずれにしても、人工知能の学習で用いるデータは目的実施に必要な情報を、まんべんなく有している事が必要です。 特にJournalによる情報は成功事例が基本ですので、人工知能に学習させたJournal数の多さを強調するのでなく、学習に用いるデータの偏りに注意しつつ学習させることが重要です。 
  人工知能が薬理活性のある化合物を提案する事は可能ですが、学習に偏り(薬理活性が出た事例のみ)があれば、薬理活性のない事をチエック出来ずに新規化合物が提案されている可能性が極めて高くなります。 人工知能が出した薬理活性候補化合物のチエックをWET実験で行なう事は時間もかかり、費用も膨大です。 これでは、せっかく人工知能を用いて時間の短縮とヒット率の向上や、スクリーニング経費の減少を目指した意味が無くなります。

人工知能の機械学習にかけるデータについて(2)

◆人工知能の機械学習で使われるデータ数


  先にアップした記事の最後の部分で以下の文章を書きました。

*******************************
  よく、この人工知能は可能な限りのデータを学習させたから、出てくる答えは完璧であるという事が言われます。 しかし、大量のデータという事は、実施目的とは全く関係のない情報を多量に含んでいる事を意味します。 このような、実施目的とは無関係のデータは学習の邪魔になるだけでなく、学習の精度や成果を大きく下げる要因となります。 例えば、この人工知能は入手可能な文献を可能な限り入力して学習させた。 だから、この人工知能が出す答えは世界一の答えであると・・・・・???? 本当でしょうか。 あなたは信じますか。
*******************************

 現在注目されている人工知能は、ビッグデータと称されるような巨大データを扱うための切り札として登場してきたはずです。
 それなのに、上記の説明文では大量のデータを扱えば扱うほど人工知能として期待された内容を実現できなくなるというニュアンスとなっています。 何故でしょう。

 ある目的(特に科学的な)を持ち、その目的に従って決定や判断を行なう人工知能は、その学習に用いるデータは、目的事象を何らかの形で説明する、あるいは関連する情報を有したものであることが基本です。 この条件を満たした場合、人工知能が扱うデータ量はビッグデータレベルのものでも扱えることとなります。 

  例えば、全国のコンビニから上がってくるPOSデータのようなもの。 POSデータは、全国のフランチャイズ店から日々、リアルタイムで送られてくるのでデータ量は巨大です。 しかし、そのデータの項目数や種類は限定されており、またデータが含んでいる情報も日常の購買情報に限定されています。 この点で、データ量は膨大であっても、データ内容や種類は限定されており、ある意味、きれいなデータと言えます。

  一昔前は、このような大量のデータを扱い、そのデータ中に潜む貴重な情報(トレンド等)を取り出す技術として「データマイニング」が注目されていました。 現在は、その当時よりも扱うデータ量が格段に大きくなっています。 また、単にトレンドを取りだすだけではなく、学習した結果を用いて様々な事象の傾向を判断したり、あるいは状況に応じて何らかのアドバイス等を出すようなことが期待されており、このため人工知能の適用が注目されています。

人工知能の機械学習にかけるデータについて(1)

◆人工知能の機械学習で使われるデータのクオリテイ


  最近の人工知能は機械学習が主体で展開されております。 このため、大量のデータを用意し、この大量のデータを機械学習させることで、期待に答える人工知能を構築できるというイメージが強くなっているようです。 これは本当でしょうか???

  人工知能は学習する事が必要です。 学習して初めて期待に答える行動が可能となります。 人工知能に限らず、人間でも生きるためには様々な内容に関して学習する事が必要です。 歩いたり、食事したりする日常行動から、社会での共同生活を行なうための常識やルール等も学習する事が必要です。

 役に立つ人工知能に育てるためには、この学習に用いるデータの内容が大事です。 この学習用データがふさわしいものでなかったために、とんでもない結果を出すようになった事例としてすぐに思い浮かぶのはマイクロソフトのチャットする人工知能「Tay(テイ)」です。
  「Tay(テイ)」は楽しいチャットをするような人工知能を期待していました。 チャットをするのに必要な知識の学習は、ユーザとの対話の過程で行なうように設計されていました。 このため、悪意のあるユーザから出された大量のヘイトスピーチを学習してしまい、とんでもない会話をするようになってしまいました。

  この事例からわかるのは、利用者の目的にかなう人工知能を構築(育てる)するためには、目的を正しく実現させるに必要な正しい内容の学習データが必要であるという事です。 現在の人工知能は、入力された学習データの善し悪しを判断するほどお利口ではありません。 与えられたデータをそのまま学習するだけです。

  従って、目的にかなった結果を導き出す優秀な人工知能となるように育てるには、学習用データの内容が重要であるという事です。
  自分で学習するから先生はいらないとしても、学習用のテキストは良質なものが必須となります。

  よく、この人工知能は可能な限りのデータを学習させたから、出てくる答えは完璧であるという事が言われます。 しかし、大量のデータという事は、実施目的とは全く関係のない情報を多量に含んでいる事を意味します。 このような、実施目的とは無関係のデータは学習の邪魔になるだけでなく、学習の精度や成果を大きく下げる要因となります。 例えば、この人工知能は入手可能な文献を可能な限り入力して学習させた。 だから、この人工知能が出す答えは世界一の答えであると・・・・・???? 本当でしょうか。 あなたは信じますか。

2016年10月13日木曜日

人工知能および化学多変量解析/パターン認識(ケモメトリックス)に関する私の講演発表と著書です

  現在、湯田は以下の学会や講演会等で人工知能および化学多変量解析/パターン認識(ケモメトリックス)による創薬や安全性(毒性)評価に関する講演を行ないました。また、今後の講演予定です。

1.JASIS2016(2016.9.6-8, 千葉 幕張メッセ) (済み)
ライフサイエンス イノベーションフォーラム2:「次世代ヘルスケアとデータサイエンス:ICT/IoTと人工知能が開く次世代ヘルスケア」のランチョンセミナーでの講演。
演題;「最新スペクトルデータ解析:「ICT, IoTやビッグデータ時代のケモメトリックス/人工知能を知って新たなチャ レンジを」

2.CBI学会2016年大会(2016.10.25-27, 東京) (済み)
フォーカストセッションFS-01演題:計算毒性学の基本(多変量解析/パターン認識と人工知能)
フォーカストセッションFS-06演題:化学多変量解析/パターン認識の新手法提案:ICT,IoTそしてビッグデータ時代のインシリコ薬理活性/毒性スクリーニングに対応したデータ解析手法の提案

3.日本動物実験代替法学会 第29回大会(2016.11.16-18, 福岡)
シンポジウム1;「化粧品,医薬品の安全性試験代替法の動向」
演題ICTIoT、ビッグデータ時代のインシリコ毒性予測:QS(/)Rおよび人工知能

4.技術情報協会 セミナー 11月30日
 インシリコ創薬におけるAIを活用したターゲット選定の最適化
演題;AIを用いたオミックス創薬の実際


◆現在執筆中として以下のものがあります。

 人工知能学事典 (人工知能学会編、共立出版) ; 分担執筆 「計算毒性解析」

 上記内容等にご興味があります場合は、聴講いただければ幸いです。

2016年10月12日水曜日

人工知能で創薬および毒性予測

◆ 最近の人工知能の展開

  人工知能が急速に展開され、様々な分野でチャレンジが始まっています。
  人工知能が人間の能力を超え、人間は職を奪われるのではないかという極端な話がまことしやかに話されるようになっているようです。
  現在の人工知能は、IBMのワトソンがクイズ王を凌駕する結果を出したことや、チェス、将棋や碁等の戦いにおいてコンピュータが個々のチャンピョンを打ち負かしたという、一般の人から観ると驚異的な実績が積み上げられTV等の報道番組等で大きく取り上げられてきています。少し専門的になると、ディープラーニング(深層学習)等の技術の登場により、碁のプログラムが急激に強くなったことや、従来は困難であった画像認識の精度が飛躍的に高まったという実績により、人工知能の新たな可能性を示すものとして、技術的な大きなブレークスルーとなrいつつあります。
  従来は、人間が独壇的に存在し、機械が人間を凌駕する事はないだろうという、安心感や常識等が、コンピュータ関連ハード技術やソフトの急速な進歩により、少しずつ切り崩されてゆくのを眼のあたりにすることで、驚くと同時にこのままでは人工知能にとって代わられるのではないかという恐怖感に膨れ上がりつつあると考えます。

⁂化学データサイエンスおよび人工知能関連講演会および教育講演のお知らせ

  CBI学会2021年大会 では、計算毒性学関連講演会として、現在急速に展開されている 化学データサイエンスおよび人工知能 に関するフォーカストセッションとチュートリアル(教育)が開催されます。化学関連研究にデータサイエンスや人工知能の適用を考えている研究者の方々は奮って参加く...