Nishika AI News Letter - Issue #2
Summary
AIには色々な分類の仕方がありますが、予測系と生成系、というのもよくある分類です。予測系から始まったAIですが、直近は生成系のニュースが多く見られました。エディター(私)の認知バイアスがあるかもしれませんが、盛り上がりを見せているように思います。
巨大言語モデルGPT-3の中国版Wu Dao2.0について前回言及しましたが、GPT-3の開発団体OpenAIとMicrosoftは、GitHub上のコードから学習した言語モデルを活用し、コード補完を行うツールGitHub Copilotを発表しました。大量の言語資源のあるところでは次々と応用例が出てくると思われ、自社に大量の言語資源があるという方はモデル開発にトライしてみるのも良いかもしれません。
GANを中心とした生成系技術の適用例が国内外で多く報告されています。Web会議で話している人物の服装を変えたり、話している人物を変えたり、テキストのスタイルを変えたり、テキストのスタイルを維持して内容を変えたりと、非常に適用範囲が広いです。
ちなみに生成系技術の悪用例としてディープフェイク(フェイク画像・動画)が知られていますが、テキストも当然対象となる(具体的には、画像中のテキストが自然にすり替えられている可能性がある)ことを見落としがちなので、注意したいところです。
また、単に画像を生成するにとどまらず、生成した画像のどれが広告効果を最大化させるか、「生成+予測」まで踏み込んだサービスも出てきています。
Nishika AI News Letterへのご質問はこちら
※本Letterに関する質問、取り上げて欲しいトピック、自社のAI導入の相談、何でも結構です
Application
Microsoft and OpenAI have a new A.I. tool that will give coding suggestions to software developers
大量のプログラミング言語資源から学習した言語モデルを使い、コード補完を行うツールGitHub Copilotが公開されました。コード補完ツール自体は従来からありましたが、関数とコメントを書くだけで、関数の中身を補完してくれるというのは一歩進んだ印象です。
「コード補完というか、誰かが書いたコードを出してきてるだけでしょ」「ってか俺が書いたコードじゃんそれ」なんて言う声もネット上では見られますが、自然言語に比べると表現の自由度も制限される言語ですし、そういう印象を受けるのはある程度致し方ないかなと思います。そこよりは効果・利便性に注目したいところで、熟練者のコーディング効率を上げるだけでなく、初学者の教育にも活用可能性があると感じます。
More Than Meets the AI: How GANs Research Is Reshaping Video Conferencing
Web会議用ソフトウェア開発キットであるNVIDIA Maxineに搭載されているAIモデル Vid2Vid Cameoは、GANの技術を活用し1枚の人物の2次元画像から動画を合成することができます。例えば正装した写真をアップロードしておくと、パジャマ姿で参加しても正装で参加しているように見せることができます(朝起きたら1分後から会議だった、というときくらいしか利用シーンはなさそうですが(笑))。同様の技術は日本でもニュースになっていました(AI俳優)。
ちなみに同記事中で紹介されている、Web会議中のネットワーク接続が不良の際(よくありますよね)、顔のキーポイントだけを抽出し、別時点の高解像度の顔画像と併せて解像度を保ってくれる技術も注目すべきと感じます(動画あり)。有用性ではむしろこちらの方が上でしょうか。
AI can now emulate text style in images in one shot — using just a single word
写真中のテキストのスタイルをコピーし、別のテキストに適用してスタイルを変換できるTextStyleBlushというプロジェクトの報告。適用したいスタイルのテキストが書かれた画像を1枚与えるだけで、そのスタイルを適用でき、大量の教師データ作成が不要な点に新しさがあります。
「極予測AI人間」、AI人物モデルが使い放題の新プランを提供開始 老若男女問わず多様な活用が可能 ーAI人物モデルの配信実績は600人を突破ー
GANによる人物顔画像生成は数年前から話題になっていますが、もう一段機械学習を噛ませて、どの人物顔画像を使うと広告効果が最大化されるかの予測まで踏み込んだ例。
ビジネス的には、「使い放題プラン」を打ち出すことで教師データを大量に収集し、さらなる予測精度向上につなげるというサイクルを見据えているのがしっかり賢いと感じられます。
Technology
PFN’s MN-3 Tops Green500 List of World’s Most Energy-Efficient Supercomputers for Second Time
PFNのMN-3が、29.70 Gflops/Wの省電力性能を実現し、最新のスーパーコンピュータの省電力性能ランキングGreen500において、2020年6月に続く2度目の世界1位を獲得したとのこと。2020年11月のGreen500リストにおけるMN-3の記録26.04 Gflops/Wを14.05%上回った。
ガソリン車が電気自動車に徐々に移行していくのと同様、性能を一定犠牲にしてもよりエコなマシンを使おうという動きがいずれ出てくる中で、省電力性能で日本企業がトップを直走っているというのは素晴らしいことですね。
Editor Picks
AI研究の第一人者であるAndrew Ng先生(いくつもの顔がありますが、Couseraの創業者と紹介するのが一番通りが良いでしょうか)が語る、データの品質の重要性の話。記事中では「AI技術者はモデルやアルゴリズムの構築よりも、モデルの学習に用いるデータの品質向上を優先させるべきだ」と書かれていますが、大元のデータを作っているのはほとんどの場合技術者ではなくビジネスサイドの方なので、本レターの読者の方にお伝えしたい内容です。
といっても小難しい話ではなくて、データの入力規則が人によって変わらないようにする、全角・半角やスペースあるなしを揃える、といった基本的な話。記事中には「AI開発者は80%の時間をデータの整備に費やしている」と書かれていますがその通りで、データの品質をビジネスサイドも含めて気にするような組織になると、整備の工数が減りAI導入のスピードは爆発的に上がります。