2022年7月9日土曜日

人工知能は人間と同じで、学習しなければ賢くなりません:学習データについて考えます(III)

 最近の人工知能ブームについて 

 人工知能での学習は人工知能を正しく実施するためには極めて重要な要因です。 この学習はルールベース型人工知能と異なり、学習データを与えれば勝手に人工知能の実施(予測や判定、決断)に必要となる重要なルールを自動的に作り上げるという特徴が、最新の二ューラルネットワーク型人工知能(特に深層学習型)の最大の利点となっています。 この結果、現在の人工知能ブームが沸き起こったといっても過言ではないでしょう。

 以上のように、データさえあれば特に専門知識が無くとも人工知能に学習させることで、従来は特殊な技術やノウハウを持つ研究者や技術者の代わりを担わせることが出来るという期待が大きくなっています。 しかし、実際に人工知能システムを構築すると直ぐに突き当たる問題は、人工知能に高度な学習をさせるためのデータに関する問題となります。

 学習データに要求される必須要件(大きなサンプル数が必要)

 学習用データの問題は、一般的には学習データ数の問題が取り上げられます。 ニューラルネットワーク型人工知能では学習に用いる学習データ数が、多変量解析・パターン認識で使われるサンプル数よりもかなり大きな数の学習データ数が求められます。 この大きな学習データ数を要することは、人工知能でのニューラルネットワーク型の機械学習において、信頼性の高い結果を得るためには重要な要因となります。 これは、学習データであって、データ解析に用いる多変量解析・パターン認識に用いるのと利用目的が異なることが大きな要因です。 また、ネットワーク型機械学習の特徴として、過剰適合や偶然相関を起こしやすいアルゴリズムであることも大きな要因となります。

 この大きなサンプル数については、最近のインターネットの急速な拡大や、記憶容量の安価、高密度化や複雑なネットワーク構造のウエイト計算に必要なCPUの機能向上等の急速な発展により支えられてきました。 特に画像データや音声データ等の蓄積量は膨大となり、現在のニューラルネットワーク型人工知能の発展の大きな要因となっています。

 学習データに要求されるデータの質の問題

 学習用データは単にサンプル数が多いだけでなく、学習データの内容や質が信頼性の高い人工知能の構築には必要です。 現在の人工知能システム構築で頻繁に起こる問題は、この学習用データの内容や質に関することが多くなっています。





0 件のコメント:

コメントを投稿

<p><b><span style="color: blue; font-size: x-large;">新たなブログ名称および内容の案です:<br>This is a proposal for a new blog name and content.</span></b></p>

   新ブログを構成するにあたり以下の点を留意しつつ検討いたしました。 ■討論テーマは来るべき「情報時代」に相応しい内容とする ・新たな技術等に関する積極的な討論を目指す。 ・「情報時代」の基盤技術となる大規模言語モデルや種々生成AIを主たるテーマとする。 ■従来型の基本的な分野...