集合知と人工知能の未来について ~教育委員会~

お疲れ様です。日曜日なので近くの自習スペースでブログを書いているバスクリンです。

第一回目はオーダー記法についてデータ量とパフォーマンスの関係性について書いてみました。また、前回はコードを読む力や集合に対する処理の酷似性を書いてみました。

今回からいよいよ主題に入っていこうと思いますが、今回のテーマはずばり「集合知」です。世間でちやほやされているお決まりのAIや機械学習の説明ではなく、バスクリン自身が考えているこれからのAIや機械学習について話をしてみようと思います。

 

Step1.集合知ってなんだ?

ぶっちゃけて言うと「色々な人の色々な考え方を結果から分析する」ことです。

太郎くんは音楽が好きです。友達の花子ちゃんにある質問をしました。

「なんかお勧めの曲ない?」

花子ちゃんはこう答えました。

「漢だったらFive Finger Death PunchのWash It All Awayを聴きな!」

全く知らないバンド名ですが、太郎くんは頑張って探して聴いてみました。が、太郎くんの趣味とは全然合いませんでいた。

そう、花子ちゃんは無類のヘヴィメタ好きだったのです。

【参考:Five Finger Death PunchのWash It All Away(音量注意!)】
https://youtu.be/l9VFg44H2z8?list=PLH74VWN4E0nIFxBiTVYoNPdB0bZ_iN8Tn

なぜこうなったのでしょうか?

答えは「聞く相手を間違えたから」です。太郎君の趣味に合う人にお勧めの曲を聞けば、もっと良いアドバイスが得られたはずです。

では趣味だけでお勧めの曲を調べるのが最善の方法でしょうか?

音楽の好みはある程度の情報があれば傾向を調べることができますが、全く別の質問になるとまた違ったデータ分析が必要になります。また、先月は大人気だった歌も時間が過ぎれば注目度が失われてしまうかもしれません。好みの音楽だけでなく、時代や年齢・性別、購買履歴や音楽以外の趣味、生活スタイルなども似ている人であれば、もっと山田くんの質問に適切な答えを出してあげれるかもしれません。

集合知とは、このように「ある問いに対して専門的な技術を使って答えを出すのではなく、既に集まっているデータの中から解答を導きだす」アプローチになります。

 

Step2.集合知を利用したgoogle検索エンジン

有名な集合知を利用したシステムに「google検索エンジン」があります。これは検索結果のランク付けに、無数のWebサイトとのリンクを計測して0から10段階のランク付けを行う「PageRank」というアルゴリズムです。

Googleの検索エンジンが登場するまで、インターネットの検索エンジンはYahooやInfoseek、Excite、Lycosなどの静的(ディレクトリ型)の検索エンジンが主流でした。Webサイトを作ったら、上記の検索エンジンに申請を出して審査が通ればやっと検索結果として表示される、そんな時代です。もちろん今のgoogle検索のように検索方法やキーワードで検索結果が大きく変わるようなこともなく、いつも表示される結果は似たようなサイトばかりでした。また検索エンジン毎に得意分野があり、欲しい情報を調べるには検索エンジンの癖を知っておく必要がありました。

GoogleはこのPageRankと、検索キーワードからユーザの知りたいことを分析する独自のアルゴリズムを使って答えを導く方法を考え出しました。

コンセプトとしては「同じ質問をする人が求めているものは似ている」ということです。検索結果をクリックすると、そのクリックはgoogleに収集されて次回の検索に利用されます。現在では、国や地域、性別や年齢、購入履歴なども様々な角度から分析するために同意の上、収集されています。

このようにgoogleはこの大量のデータを分析して活用するために集合知を利用しています。現在はRankBrainというアルゴリズムも登場してどんどん成長しています。

 

Step3.その他の集合知

個の情報ではなく、集合知として扱われているものは意外と身近にあります。

  • 世論調査は個人の意見ではなく、無作為抽出で調査が行われるため集合知となります。
  • 為替や株価も、個々の投資家の意思を反映するものではなく、時代や多数の投資家たちの戦略や動向を反映させた集合知と言えます。
  • AmazonやNetflixが送ってくる「あなたにお勧めの本」や「映画」は、あなたに似た人の集合知から導き出された答えをメールでお知らせしてくれます。
  • facebookやマッチングサイトに表示される「知り合いかも?」や「あなたにお勧めの人」も集合知を利用して導き出された結果かもしれません。

集合知として重要なのは個人の考え方や行動ではなく、集合全体としての知見になります。

 

Step4.機械学習やAIに使用される技術

集合知から類似性を計測して分析する手法には、ユークリッド距離やベクトル間の距離を求める手法や、コサイン類似度を使って類似性を求める手法、ピアソンの積率相関係数(ピアソン相関) を用いて個の評価を正規化する方法などがあります。

また、質問の内容を分析するために検索キーワードに現れる単語を分類するクラスタリングの手法として階層的クラスタリングK平均法などがあります。これらの分析した結果(データ)をもとに、ベイス分類器決定木遺伝的アルゴリズムニューラルネットワークサポートベクターマシンK近傍法を用いて答えを導きます。

これらの技術に共通しているのは「最適解」を求める技術ではないということです。

Netflix社は、上記であげた「推薦システム」の正確性を10%向上させることができたチームに100万ドルの賞金を出すというコンテストを2006年以降開催しています。このように、最適解ではないのでまだまだ改良の余地がある技術とも言えます。

バスクリンが仕事で扱っている「組み合わせ問題」も10年以上前に設計されたシステムに、私が考案した独自のアルゴリズムを組み込んで最良となる解を求めるように改善しています。このように、今後の機械学習やAIは既存の技術に対してどれくらいパフォーマンスや精度を向上できるかが重要になってきます。

 

Step5.現在の深層学習やAIの進化

今話題になっている機械学習や深層学習の基礎は古くから様々な手法が提唱されていました。ニューロネットの基礎は1940~50年代にできていました。1960年代にはパーセプトロンという手法が流行し、教師学習などの概念なども登場していました。が、精度が低く遅いという欠点がありました。1980年には多層ニューラルネットが登場し学会内でも話題になっていました。しかし、この当時の多層ニューラルネットワークにも欠点があり、過学習や勾配の消失、学習が出力層で完結してしまうなどの問題がありました。1986年に誤差逆伝播法(バックプロパゲーション)や1988年に畳み込みニューラルネットワークが提唱され現在の形に近いモデルが考案されました。

その後しばらく機械学習の分野ではめざましい発展がありませんでしたが、2006年にジェフリー・ヒントンらによりオートエンコーダおよびディープ・ビリーフ・ネットワークが提唱され、これがディープラーニングへと発展していきました。

現在注目されているAIは、小脳をベースに研究が進められていた特化型AI(弱いAI)と呼ばれるもので、特定の分野(自動車の自動運転やディープ・ブルーのチェス対戦、防犯カメラの自動車や人認識)に対しての解析器でしかありません。逆に大脳や海馬をもとに研究が進められている、人間に似ている思考や感情があるような強いAI(汎用AI)と呼ばれる分野にはまだまだ課題が多く、これからの成長分野になると思われます。

【参考】
強いAIと弱いAI

現在は猫も杓子もAIブームで、なんでもAIと銘打てば注目される時代です。私たち技術者はそのAIと呼ばれるものが強いAIなのか、弱いAIなのか、それともAIと呼んでいるただの静的なアルゴリズムなのかを判断する必要があります。

 

Step6.現在のAIや機械学習とこれからの時代

今世間で話題になっている上記の技術やアルゴリズムは、最近になって登場したものではありません。Googleが考えたPageRankの発想は1998年に発案され、現在も進化し続けているアルゴリズムです。マッチングや嗜好の分類、ニューラルネットワークはNP困難となる「組み合わせ問題」を解決するために考案された手法なので古くから数学者や開発者によって考えられてきました。

20年くらい前に日本人工知能学会のメーリングリストに参加していました。その当時は今のようなPCやインターネット環境もなく、全ての議論が純粋な人工知能に集中していました。出発点が想像の産物であるアトムやスターウォーズのR2-D2でした。感情の制御や情報の管理をどのように実現するかで様々なアイデアが日々論争されていました。

現在のAIと呼ばれている技術は、出発点が現在のPCやストレージ・アルゴリズムで実現可能な「特定の問題」のみに焦点を充てた技術に焦点が充てられています。データをどのように分析してどう判断するかは人工知能としての一領域にすぎません。

DBやファイルに静的に保存されていた定型のデータをSQLなどを使用して加工する時代から、リアルタイムな音声や画像(動画)、ネットワークのトラフィック、クラウドやビッグデータに格納された大量の可変データを、複雑なアルゴリズムで認識・分析・並び替えして処理する時代に変化しました。自律型の汎用AIと呼ばれるものも過去の事例やデータの加工技術や解析方法に若干の進歩はありましたが、まだまだ20年前に想像していた強いAIと呼ぶには遠いと感じています。

Oracleは2017年に「Oracle Advanced Analytics」を発表しました。SQLの構文解析やオプティマイズで培った分析・予測の知見、大規模ストレージの扱いなどはまさにOracleの得意とする分野です。分類、回帰、異常検出、属性重要度、相関ルール、クラスタリング、特徴検出の11種類のアルゴリズムを備えており、データの扱いが従来のSQLのような選択・射影・結合から、アルゴリズムによる認識、分析、データマイニングを利用した機械学習が中心になっています。

国立情報研究所が開発を行っていたAIによる東大合格を目指す「東ロボくん」は2016年に東大合格を断念しました。国語の読解力が現在のAIでは限界があるようです。数学や地理、科学のような答えが決まっている問題については強いコンピュータも、感情の起伏や作者の心情を察知するような分野においては、まだまだ発展の余地が多いにあります。

 

私は「組み合わせ問題」を扱う数理計画法のシステムに6年以上携わっていますが、特定の分野でのみ認知されていた技術がやっと一般的に広まったという印象を受けています。

これから機械学習や人工知能を勉強される方は、既存のアルゴリズムを模倣するだけでなく、昔のように何もない空白のページから想像力を働かせて新たな人工知能と呼べるものを考えてみるのも面白いと思います。

About the author

バスクリン

GCの中で好き放題に技術的なメルマガを書いている人。プログラム歴は今年で27年目に突入。普段はシステム技術者として設計やらプログラムを自由に書いてます。好きな言語はC++、C#。

Add Comment

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください

By バスクリン

最近の投稿

アーカイブ

カテゴリー

タグクラウド

コーポレートサイト

メタ情報