2016年10月14日金曜日

人工知能の機械学習にかけるデータについて(1)

◆人工知能の機械学習で使われるデータのクオリテイ


  最近の人工知能は機械学習が主体で展開されております。 このため、大量のデータを用意し、この大量のデータを機械学習させることで、期待に答える人工知能を構築できるというイメージが強くなっているようです。 これは本当でしょうか???

  人工知能は学習する事が必要です。 学習して初めて期待に答える行動が可能となります。 人工知能に限らず、人間でも生きるためには様々な内容に関して学習する事が必要です。 歩いたり、食事したりする日常行動から、社会での共同生活を行なうための常識やルール等も学習する事が必要です。

 役に立つ人工知能に育てるためには、この学習に用いるデータの内容が大事です。 この学習用データがふさわしいものでなかったために、とんでもない結果を出すようになった事例としてすぐに思い浮かぶのはマイクロソフトのチャットする人工知能「Tay(テイ)」です。
  「Tay(テイ)」は楽しいチャットをするような人工知能を期待していました。 チャットをするのに必要な知識の学習は、ユーザとの対話の過程で行なうように設計されていました。 このため、悪意のあるユーザから出された大量のヘイトスピーチを学習してしまい、とんでもない会話をするようになってしまいました。

  この事例からわかるのは、利用者の目的にかなう人工知能を構築(育てる)するためには、目的を正しく実現させるに必要な正しい内容の学習データが必要であるという事です。 現在の人工知能は、入力された学習データの善し悪しを判断するほどお利口ではありません。 与えられたデータをそのまま学習するだけです。

  従って、目的にかなった結果を導き出す優秀な人工知能となるように育てるには、学習用データの内容が重要であるという事です。
  自分で学習するから先生はいらないとしても、学習用のテキストは良質なものが必須となります。

  よく、この人工知能は可能な限りのデータを学習させたから、出てくる答えは完璧であるという事が言われます。 しかし、大量のデータという事は、実施目的とは全く関係のない情報を多量に含んでいる事を意味します。 このような、実施目的とは無関係のデータは学習の邪魔になるだけでなく、学習の精度や成果を大きく下げる要因となります。 例えば、この人工知能は入手可能な文献を可能な限り入力して学習させた。 だから、この人工知能が出す答えは世界一の答えであると・・・・・???? 本当でしょうか。 あなたは信じますか。

0 件のコメント:

コメントを投稿

2024年度のノーベル賞について。ノーベル賞の受賞対象範囲や該当分野が大きく変化した。

  今回のノーベル物理学賞はAI 関連研究に授与されました。これは、従来のノーベル物理学賞の受賞範囲には無い範疇で、物理というよりは情報学分野であり、しかもアルゴリズムに関する研究という点で、ノーベル賞の選考委員会が時代を変える新たな分野にも展開しようとする大きな流れを示すものと...