AI技術を支える「機械学習」の仕組みとは？ディープラーニングとの違いまで徹底解説

機械学習は、画像認識や自動運転、ビッグデータ分析など、あらゆる分野において飛躍的に発展を遂げる現代のAI技術において欠くことのできない仕組みを持っています。今回は、機械学習の仕組みやアルゴリズムをはじめ、ディープラーニングとの具体的な違いまでを詳しく解説していきます。

Salesforce Japan

2020年7月31日 8 分（読み終わるまで）

「機械学習」というAI技術をご存知でしょうか。機械学習は、画像認識や自動運転、ビッグデータ分析など、あらゆる分野において飛躍的に発展を遂げる現代のAI技術において欠くことのできない仕組みを持っています。今回は、機械学習の仕組みやアルゴリズムをはじめ、ディープラーニングとの具体的な違いまでを詳しく解説していきます。

機械学習の定義とは

機械学習はAIの分野の一つであり、AI自らがデータを学習するための技術です。1960年ごろから研究され始めた概念で、「AIが自ら経験し改善していくにはどうすれば良いのか？」を大きなテーマとしています。機械学習の活用範囲は主に「予測、識別、実行」の3つに大別され、数値予測や音声認識、車の自動運転など、用途は非常に多様化しています。

機械学習の仕組み

機械学習は、AIにデータを読み込ませることで、そのデータが何を示すのかをアルゴリズムに則って分析する手法です。データの特徴やパターンを発見して記憶し、その結果を新たに投入されたデータの分析に利用することで、より詳細で正確な予測が可能になります。アルゴリズムとは、ある問題を解決するために考案された手順や計算方法のことです。効率良くプログラムを処理するための手順や計算方法を定義したものであり、機械学習においては、AIが学習を重ねることで「アルゴリズムをいかに効率化させるか？」が課題となります。

代表的なアルゴリズム

では、そのアルゴリズムには具体的にどのようなものがあるのかを解説していきます。

・決定木

決定木とは、木構造を用いたアルゴリズムで、最終的な一つの答えにたどり着くための課程を条件分岐によって表したものです。たとえば、「この画像に写っているのは“赤いリンゴ”か、それとも“青いリンゴ”か」という結論にたどり着くまでに、「色は赤色か？」、「形は円形か？」などの条件を与えて分岐を繰り返すことで、最終的にその画像が赤いリンゴなのか青いリンゴなのかが決定されるというアルゴリズムです。

・ランダムフォレスト

「分類」または「回帰」をするために、複数の決定木を利用する方法です。ランダムフォレストにおける「分類」は多数決に近い性質があります。たとえば、前述の決定木のアルゴリズムを5回異なる条件で繰り返したときに「この画像は赤いリンゴだ」という結論が3回、「この画像は青いリンゴだ」という結論が2回出たとします。そうすると、「画像に写っているのは赤いリンゴ」だという結論を採用します。複数回試行しているため、決定木に比べて精度は高いといえます。「回帰」の場合、全体の平均値を予測値として算出します。用意した3つの決定木がそれぞれ10、60、80だった場合、3つの値の平均は「50」となるので、予測値は「50」と算出されます。

・近傍法マッピング

「似たようなデータをk個集約し、そのデータ群から多数決をとって目的の値を決定する」というアルゴリズムです。たとえば、AIがAさんのまだ評価していない商品Xに対する5段階の評価を予測するとします。その場合、Aさんに似たユーザーをk人抽出し、そのk人が商品Xに下した評価が4であれば、Aさんの商品Xに対する評価も4であると予測します。これが近傍法マッピングの考え方です。

・k平均法クラスタリング

各点にランダムなクラスタを割り当てて、そのクラスタごとの重心を求めます。最初に割り当てたランダムなクラスタを、求めた重心に一番近いクラスタへと変更します。この計算を繰り返し、変化がなくなるまで繰り返す手法をk平均法クラスタリングといいます。店舗で取り扱っている商品の構成分析や、顧客の特性を分類するなど、マーケティング分野で広く使われている手法です。

機械学習とディープラーニングの違い

機械学習とディープラーニングは、「AIにデータを学習させる」という観点では同じですが、ディープラーニングの方が機械学習に比べてより高度な学習能力を備えています。機械学習を用いて学習する際は、AIに対して「データのどの部分に注目して学習するか」を人間が指定しなければなりません。一方、ディープラーニングの場合は「データのどこに注目して学習すればいいか」までを導き出すことができます。たとえば、「オレンジの花」と「赤い花」を見分けるために大量の画像データを両者に与えるとします。このとき、機械学習では「色に注目して学習しなさい」とAIに人間が指示を出す必要がありますが、ディープラーニングは何も指示を出さなくても「色に注目して学習すればいいのだな」とAIが自ら判断して学習を始めることができるのです。

「AI＝機械学習」ではない

AIと機械学習は、似ているようですが異なる概念です。 AIは大きく「AI、機械学習、ディープラーニング」の3つに分類されます。AIはその中でもっとも広義であり、「人間と同様の知能を再現するための技術そのもの」を表しています。機械学習はその中に含まれており、「AI技術の中で、人間が定義した特徴をもとにデータを学習させることによって、AIが課題を解決できるようにする学習法」と言い換えることができるでしょう。ディープラーニングはさらに意味合いが狭まり、「機械学習の中でも人間が特徴を定義せずに、AIが自立的に学習を進める方法」のことを表しています。

機械学習が重要視されるのはなぜ？

いまや機械学習はあらゆる分野の課題を解決するための技術として用いられており、その範囲は金融工学、生命科学、エネルギー分野など、日常生活に密接にかかわっています。現代には大量に蓄積したビッグデータが存在しており、これらを人間の手ですべて処理することは困難です。そのため、大量のデータを高速かつ正確に分析して応用する方法として、機械学習の存在は必要不可欠なのです。

機械学習の手法は4つ

機械学習には、大きく分けて4つの手法があります。それらの手法を一つずつ紹介します。

・教師あり学習

あらかじめ「正解のデータ」を大量に学習させることで、正誤が不明のデータが登場してもそれが正しいのか誤っているのか判断することができるようになる手法です。たとえば、AIに「これは犬です」と答えを教えた上で犬の画像を大量に与えて学習させると、「どのような特徴を持っていると犬と判断できるのか」をルール・パターン化して記憶します。そのあと「犬かどうかは分からない」画像を見せると、学習経験に基づいて、「事前に記憶したルールに合致するのでこの画像は犬である（もしくは犬ではない）」という判断をするようになります。

・教師なし学習

事前に正解のデータを与えず、大量のデータを学習させる手法です。教師なし学習を行うと、「この画像はAか否か」ではなく、「画像Aと画像Bは類似している」、「画像Cと画像Dは類似している」といったように、似た特徴を持つデータ同士をグルーピングします。教師あり学習のように「正解か否か」を導き出すものではないので、グルーピングされたそれぞれのデータがどんな意味を持つのかについては、人間の判断にゆだねられます。

・半教師あり学習

教師あり学習と教師なし学習を組み合わせた手法で、少量の正解のデータを織り交ぜて機械に学習させます。大半は正解が分からないデータですが、一部に正解のデータを含むことによって機械がより正確な予測をする手助けとなります。

・強化学習

強化学習は「AI自身が試行錯誤し、ある目的を達成するための価値を最大化するための学習」です。例としては、株の売買が挙げられます。「現時点で株を売却することで100%の利益を得られるが、1週間後に売ると120%の利益を見込める」と予測した場合、AIは利益を最大化するために「あと1週間株を保持する」という判断をすることになります。これが強化学習の考え方です。

機械学習は業務効率の向上や競争優位性の獲得に結びつく

AIが自らデータを学習する機械学習は、いまやあらゆる用途に活用されています。企業経営においては、アルゴリズムを最適化することで業務効率化に貢献することもできますし、マーケティング分野においては、大量のデータを分析することによって顧客の趣向や販売動向を把握することが可能となり、自社の強みや弱みを明確化して競争優位性の獲得に結びつけることもできます。機械学習の活用が企業の利益に直結する時代となった今こそ、AI技術への十分な理解と迅速な対応力が、企業には求められているのです。