Nishika AI News Letter - Issue #19
Summary
今回のLetterのハイライトはマインクラフトAIです。将棋や囲碁と異なり、ゴールが明確でないゲームにおいても、強化学習を行ったAIモデルが一定の成果を示しました。YouTubeのプレイ動画からマウスの動きやキーの押し順も含めた"Video Pretrain"を行い、事前学習モデルを構築した点が特徴的です。
一方で、画像系AIモデルでよく行われる教師データの水増し(augmentation)が必ずしも性能を向上させない点についての報告もありました。
AIは「ここまでできるのか」「意外にここはまだできないのか」という点が混在して、シンプルな理解が難しいと感じるとともに、奥深い分野だなと感じます。(M)
Nishika AI News Letterへのご質問はこちら
※本Letterに関する質問、取り上げて欲しいトピック、自社のAI導入の相談、何でも結構です
Application
テキストからアーティスティックな画像を生成するAIモデルの1つDALL-E-2の利用は招待制となっており一般公開はされていませんが、こちらは誰でも利用することができます。元はDALL-E Miniというまさにその名の通りの名称でしたが、本家と誤解されがちということもあるのか、Craiyonと改名されました。性的・暴力的なイメージを除去するためにフィルタリングされた公共データセットからの3000万枚のキャプション付き画像で学習されています。
トライアルのAIスーパー。店内に実装されている仕組みもさることながら、店舗のすぐ隣の廃校をメーカー・小売の共同研究拠点にしているのが都会ではなかなかできないことで、物理的にフィードバックサイクルが早い環境が作られている点も注目です。
Everlaw Launches AI-based Clustering to Open a New World of Ediscovery Insights to Legal Teams
企業弁護士、訴訟担当者、行政書士向けコラボレーションプラットフォームを提供するEverlawが、裁判で使用する証拠を収集する目的で、テキストや電子メールのメタデータをもとに文書クラスタリングを行う機能をリリース。教師なし学習は"枯れた"技術とみなされがちですが、まだ未開拓の用途があります。
Technology
Learning to Play Minecraft with Video PreTraining (VPT)
強化学習によるAIの進化は数年前から話題になっていますが、将棋や囲碁など、最終目的が明確なゲームで強さを発揮していました。何がゴールなのかわかっていないと、ゴールを達成した際のAIに対する報酬が適切に設定できず、学習が進まないためです。
マインクラフトはブロックを使って様々な構造物を製作できるゲームで、今や世界で最も人気なゲームの1つとなっています。しかし、前述のゲームと異なりゴールがただ1つではなく、AIによる学習は容易でないとされていました。
OpenAIは、ゼロから強化学習を行うのではなく、Video Pretraining(VPT)という手法で学習した事前学習モデルを使うことで、アイテムの製作というゴールを達成することに成功しました。
VPTでは、YouTubeにuploadされているマインクラフトのプレイ動画を使用し、まずは2000時間分の動画に「何をしているのか」のラベルをマニュアルで付与、マウスの動きとキーの押し順とともに学習し、次のアクションを予測するモデルを構築しました。過去の映像のみから次のアクションを予測するのに比べて、必要なデータ量が少なく済むのが利点です。
さらに、7万時間分の動画に今度はマニュアルでなくAIがラベルを自動付与、新たな学習データとすることで、複雑な行動を習得させました。
このようにして構築したVPTモデルを用い「適当に行動するのではなく、人間だったら採用しそうな行動を選択する」状態からさらに強化学習を行った結果、通常人間が行うと平均20分以上かかる「ダイヤモンドのツルハシ作成」に10分で成功した、と報告しています。
「そもそもこの動画では何をしているのか」のラベルは初めに与える必要があったとはいえ、少量のラベルをもとに膨大な量のラベルなし動画データから学習を行い一定の成果を示した点、さらにマウス・キーの動きという非常に一般的な人間の動きを含めて学習を行った点で応用可能性も高く、注目すべき成果です。
The Effects of Regularization and Data Augmentation are Class Dependent
データのaugmentationやweight decayなどの正則化がモデルの性能に悪影響を与えることがあるという報告。
通常、画像系AIモデルを中心に、様々な入力画像に対応できる頑健なモデルを構築する目的で教師データの水増し(augmentation)を行います。しかし、バスケットボールの色を変えたり、ローマ数字のⅣを水平に反転させると意味が変わるように、水増しの方法によっては元の学習データと意味が変わってしまうことがあります。どの場合にどの水増しの方法が適切か、をAIに判断させるには現状人の手が入ります。完全自動化に向けてはここにも越えるべき壁がある、と思わされる内容です。