DeepMind「AlphaGo」「AlphaZero」から進化した「MuZero」

囲碁で人間を打ち負かした“世界最強”の人工知能(AI)として知られる「AlphaGo」。最新版の「MuZero」では、知識がない状態から多くのゲームのルールを自ら習得する領域にまで到達した。開発元であるアルファベット傘下のDeepMindは、この学習するAIをいかに進化させていこうと考えているのか。その先には、どんな世界が見えているのか。開発を主導してきたデイヴィッド・シルヴァーに訊いた。

デイヴィッド・シルヴァーはここ数年、いくつかの目を引くAIのデモンストレーションを担当してきた。最新のAIブームが終焉を迎え、厳しい「AI冬の時代」が訪れたあとも、この分野への関心を復活させる上でひと役買った技術の発展に取り組んできた。

グーグルの親会社であるアルファベット傘下のDeepMindでシルヴァーは、問題の解決方法をコンピュータに自己学習させる技術の開発を主導してきた。これはかつて解決困難と思われていた難題である。

そのうち最も知られているのが、2017年に公開された「AlphaGo(アルファ碁)」という囲碁のAIだ。このプログラムは自己学習によって、伝統的なボードゲームである囲碁を名人レヴェルでプレイできる。

囲碁は従来のプログラミングで対応するにはあまりに緻密で直感的なゲームだが、AlphaGoは行動の選択と報酬の仕組みによってルールを学習し、対局の仕方を身につけた。このAI技術は「強化学習」として知られている。

そして18年にシルヴァーらは、このプログラムのより一般化したヴァージョンを開発した。「AlphaZero(アルファゼロ)」と呼ばれ、囲碁以外にもチェスや将棋を学習し、プロレヴェルで対局することが可能なAIである。

こうして19年11月にDeepMindが詳細を発表したのが、「MuZero(ミューゼロ)」と呼ばれるAIだ。このヴァージョンではAlphaZeroが対応した囲碁などのゲームに加え、さらに多くのゲームのプレイを学習できるようになった。しかも重要なのは、事前にルールを知る必要がないという点である。MuZeroは、未知の環境で勝つための戦略を計画する能力のおかげで、ルールを知らされることなく、囲碁、チェス、将棋、Atariをマスターします。

Ryuda
DeepMindディープラーニング強化学習