2016年10月14日金曜日

人工知能の機械学習にかけるデータについて(2)

◆人工知能の機械学習で使われるデータ数


  先にアップした記事の最後の部分で以下の文章を書きました。

*******************************
  よく、この人工知能は可能な限りのデータを学習させたから、出てくる答えは完璧であるという事が言われます。 しかし、大量のデータという事は、実施目的とは全く関係のない情報を多量に含んでいる事を意味します。 このような、実施目的とは無関係のデータは学習の邪魔になるだけでなく、学習の精度や成果を大きく下げる要因となります。 例えば、この人工知能は入手可能な文献を可能な限り入力して学習させた。 だから、この人工知能が出す答えは世界一の答えであると・・・・・???? 本当でしょうか。 あなたは信じますか。
*******************************

 現在注目されている人工知能は、ビッグデータと称されるような巨大データを扱うための切り札として登場してきたはずです。
 それなのに、上記の説明文では大量のデータを扱えば扱うほど人工知能として期待された内容を実現できなくなるというニュアンスとなっています。 何故でしょう。

 ある目的(特に科学的な)を持ち、その目的に従って決定や判断を行なう人工知能は、その学習に用いるデータは、目的事象を何らかの形で説明する、あるいは関連する情報を有したものであることが基本です。 この条件を満たした場合、人工知能が扱うデータ量はビッグデータレベルのものでも扱えることとなります。 

  例えば、全国のコンビニから上がってくるPOSデータのようなもの。 POSデータは、全国のフランチャイズ店から日々、リアルタイムで送られてくるのでデータ量は巨大です。 しかし、そのデータの項目数や種類は限定されており、またデータが含んでいる情報も日常の購買情報に限定されています。 この点で、データ量は膨大であっても、データ内容や種類は限定されており、ある意味、きれいなデータと言えます。

  一昔前は、このような大量のデータを扱い、そのデータ中に潜む貴重な情報(トレンド等)を取り出す技術として「データマイニング」が注目されていました。 現在は、その当時よりも扱うデータ量が格段に大きくなっています。 また、単にトレンドを取りだすだけではなく、学習した結果を用いて様々な事象の傾向を判断したり、あるいは状況に応じて何らかのアドバイス等を出すようなことが期待されており、このため人工知能の適用が注目されています。

0 件のコメント:

コメントを投稿

<p><b><span style="color: blue; font-size: x-large;">新たなブログ名称および内容の案です:<br>This is a proposal for a new blog name and content.</span></b></p>

   新ブログを構成するにあたり以下の点を留意しつつ検討いたしました。 ■討論テーマは来るべき「情報時代」に相応しい内容とする ・新たな技術等に関する積極的な討論を目指す。 ・「情報時代」の基盤技術となる大規模言語モデルや種々生成AIを主たるテーマとする。 ■従来型の基本的な分野...