2016年10月14日金曜日

人工知能の機械学習にかけるデータについて(1)

◆人工知能の機械学習で使われるデータのクオリテイ


  最近の人工知能は機械学習が主体で展開されております。 このため、大量のデータを用意し、この大量のデータを機械学習させることで、期待に答える人工知能を構築できるというイメージが強くなっているようです。 これは本当でしょうか???

  人工知能は学習する事が必要です。 学習して初めて期待に答える行動が可能となります。 人工知能に限らず、人間でも生きるためには様々な内容に関して学習する事が必要です。 歩いたり、食事したりする日常行動から、社会での共同生活を行なうための常識やルール等も学習する事が必要です。

 役に立つ人工知能に育てるためには、この学習に用いるデータの内容が大事です。 この学習用データがふさわしいものでなかったために、とんでもない結果を出すようになった事例としてすぐに思い浮かぶのはマイクロソフトのチャットする人工知能「Tay(テイ)」です。
  「Tay(テイ)」は楽しいチャットをするような人工知能を期待していました。 チャットをするのに必要な知識の学習は、ユーザとの対話の過程で行なうように設計されていました。 このため、悪意のあるユーザから出された大量のヘイトスピーチを学習してしまい、とんでもない会話をするようになってしまいました。

  この事例からわかるのは、利用者の目的にかなう人工知能を構築(育てる)するためには、目的を正しく実現させるに必要な正しい内容の学習データが必要であるという事です。 現在の人工知能は、入力された学習データの善し悪しを判断するほどお利口ではありません。 与えられたデータをそのまま学習するだけです。

  従って、目的にかなった結果を導き出す優秀な人工知能となるように育てるには、学習用データの内容が重要であるという事です。
  自分で学習するから先生はいらないとしても、学習用のテキストは良質なものが必須となります。

  よく、この人工知能は可能な限りのデータを学習させたから、出てくる答えは完璧であるという事が言われます。 しかし、大量のデータという事は、実施目的とは全く関係のない情報を多量に含んでいる事を意味します。 このような、実施目的とは無関係のデータは学習の邪魔になるだけでなく、学習の精度や成果を大きく下げる要因となります。 例えば、この人工知能は入手可能な文献を可能な限り入力して学習させた。 だから、この人工知能が出す答えは世界一の答えであると・・・・・???? 本当でしょうか。 あなたは信じますか。

0 件のコメント:

コメントを投稿

<p><b><span style="color: blue; font-size: x-large;">新たなブログ名称および内容の案です:<br>This is a proposal for a new blog name and content.</span></b></p>

   新ブログを構成するにあたり以下の点を留意しつつ検討いたしました。 ■討論テーマは来るべき「情報時代」に相応しい内容とする ・新たな技術等に関する積極的な討論を目指す。 ・「情報時代」の基盤技術となる大規模言語モデルや種々生成AIを主たるテーマとする。 ■従来型の基本的な分野...