Nishika AI News Letter - Issue #32

Jan 18, 2023

さらに発展した画像生成AI「Muse」や音声合成AI「VALL-E」など、年明け早々生成系AIのR&D報告が活発です。ChatGPTをはじめとする言語生成AIも変わらずホットで、Twitterのトレンドに乗り続けている状況です。個人的には、以下のような使い方ができるのが「部分的にはGoogle検索を超えた」と思わせる経験でした。

一方で言語生成AIについては、著作権の問題や生成内容に虚偽が含まれるなどの懸念から、利用にブレーキをかける動きもあります。

生成系AIの「1つ手前の世代」である予測系AIでは、マテリアルズインフォマティクスの活用例が増えてきたように思います。弊社でも基礎研究の一助として、材料の生成エネルギーを予測するコンペティション材料の物性予測 ~機械学習で材料の研究開発を推進しよう~を開始しています。

※ ニュースレター配信サービスRevueの終了に伴い、本LetterよりSubstackを通じて配信させていただきます。よろしければ引き続きご購読ください。購読を希望されない場合は、お手数ですが記事末尾よりunsubscribeを選択ください。

Nishika AI News Letterへのご質問はこちら

Application

日本ガイシ、素材開発10倍速　EV台頭で半導体に活路

素材開発に機械学習を利用するマテリアルズインフォマティクス（MI）の取り組み。新材料がめざす熱伝導率などの特性値を入力すると、セラミックス原料の成分比や合成条件などを提案。成分比・合成条件とその結果の特性値から成る過去の実験結果を学習データとしている。

MIのプロジェクトは弊社でも提案しているが、データの数は十分あるようで、類似の成分比・合成条件で行っている実験の数が意外と少なく、調べたい材料についてデータ不足に陥る懸念もある。とにかく、早い段階から実験データを保存・蓄積することが早道。

Amazon Goに対抗馬　AIカメラなしのすごい顧客体験

レジなし店舗「オートノマス・ストア」の調査レポート。

完全無人店舗を志向する店舗ではUXの改善が課題となっており、一方でレジなしだがスタッフは常駐するといった有人店舗では、せっかく人を配置するのであれば顧客満足度向上のための付帯サービスを充実させる、という2つの方向性がある模様。

個人的には、本来その棚にあるべきではない商品が置いてあった場合や、陳列在庫がある一定数よりも減ってしまっていた場合にスタッフへアラートが飛び、そのアラートに対していち早く自身が対応する意思表示をすると、それが評価につながるという仕組みが、日本でも導入して欲しいものと感じた。

GPTuber

大規模言語モデルがYouTuberになる、名付けて「GPTuber」という面白い取り組み。雑談・チャット返しに加えて、面白いのはAIが「問題解決用の別のAI」に質問していたとの点。問題解決AIは自律的にGoogle検索を繰り返して答えを発見するとのこと。

Technology

Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers

Microsoftは、音声版DALL-E（テキストプロンプトによる画像生成）とも言える「VALL-E」を発表。3秒間の人の音声のサンプルを使用し、同じ音声で高品質なテキスト通りの音声を生成できる。サンプルデータの感情や音響環境まで再現される。

話させたいテキスト（Text Prompt）と、3秒間のサンプル音声データ（Acoustin Prompt）を入力すると、本人が話したかのような音声を出力。

記事末尾にも記載があるが、本人に成り済ました音声による詐欺Botへの悪用、そして電話を受けた側がBotであると判定するための技術の向上、までが既に見える。。。

Muse: Text-To-Image Generation via Masked Generative Transformers

Googleは、DALL-EやStable Diffusionといった従来モデルよりも大幅に効率的なテキスト画像AI生成モデル「Muse」を発表。

1画像（512×512pixel）あたりの生成時間はMuseが1.3秒となり、Stable Diffusion 1.4の3.7秒を上回る。

あらかじめ用意した画像の編集や、画像中の指定した要素のみの編集も可能。

An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion

Stable Diffusionをはじめとしたテキストから画像を生成するツールは、一般的な猫の写真を生成することはできるが、自分の飼っている猫の写真を生成することができない。これは、テキストで自分の飼っている猫を表現することが難しいため。本研究では、表現したい対象が写っている数枚の画像をテキストと合わせて与えることで、表現したい対象を含めた画像を生成することを目指している。