Nishika AI News Letter - Issue #32
さらに発展した画像生成AI「Muse」や音声合成AI「VALL-E」など、年明け早々生成系AIのR&D報告が活発です。ChatGPTをはじめとする言語生成AIも変わらずホットで、Twitterのトレンドに乗り続けている状況です。個人的には、以下のような使い方ができるのが「部分的にはGoogle検索を超えた」と思わせる経験でした。
一方で言語生成AIについては、著作権の問題や生成内容に虚偽が含まれるなどの懸念から、利用にブレーキをかける動きもあります。
生成系AIの「1つ手前の世代」である予測系AIでは、マテリアルズインフォマティクスの活用例が増えてきたように思います。弊社でも基礎研究の一助として、材料の生成エネルギーを予測するコンペティション材料の物性予測 ~機械学習で材料の研究開発を推進しよう~を開始しています。
※ ニュースレター配信サービスRevueの終了に伴い、本LetterよりSubstackを通じて配信させていただきます。よろしければ引き続きご購読ください。購読を希望されない場合は、お手数ですが記事末尾よりunsubscribeを選択ください。
Application
素材開発に機械学習を利用するマテリアルズインフォマティクス(MI)の取り組み。新材料がめざす熱伝導率などの特性値を入力すると、セラミックス原料の成分比や合成条件などを提案。成分比・合成条件とその結果の特性値から成る過去の実験結果を学習データとしている。
MIのプロジェクトは弊社でも提案しているが、データの数は十分あるようで、類似の成分比・合成条件で行っている実験の数が意外と少なく、調べたい材料についてデータ不足に陥る懸念もある。とにかく、早い段階から実験データを保存・蓄積することが早道。
レジなし店舗「オートノマス・ストア」の調査レポート。
完全無人店舗を志向する店舗ではUXの改善が課題となっており、一方でレジなしだがスタッフは常駐するといった有人店舗では、せっかく人を配置するのであれば顧客満足度向上のための付帯サービスを充実させる、という2つの方向性がある模様。
個人的には、本来その棚にあるべきではない商品が置いてあった場合や、陳列在庫がある一定数よりも減ってしまっていた場合にスタッフへアラートが飛び、そのアラートに対していち早く自身が対応する意思表示をすると、それが評価につながるという仕組みが、日本でも導入して欲しいものと感じた。
大規模言語モデルがYouTuberになる、名付けて「GPTuber」という面白い取り組み。 雑談・チャット返しに加えて、面白いのはAIが「問題解決用の別のAI」に質問していたとの点。問題解決AIは自律的にGoogle検索を繰り返して答えを発見するとのこと。
Technology
Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers
Microsoftは、音声版DALL-E(テキストプロンプトによる画像生成)とも言える「VALL-E」を発表。3秒間の人の音声のサンプルを使用し、同じ音声で高品質なテキスト通りの音声を生成できる。サンプルデータの感情や音響環境まで再現される。
話させたいテキスト(Text Prompt)と、3秒間のサンプル音声データ(Acoustin Prompt)を入力すると、本人が話したかのような音声を出力。
記事末尾にも記載があるが、本人に成り済ました音声による詐欺Botへの悪用、そして電話を受けた側がBotであると判定するための技術の向上、までが既に見える。。。
Muse: Text-To-Image Generation via Masked Generative Transformers
Googleは、DALL-EやStable Diffusionといった従来モデルよりも大幅に効率的なテキスト画像AI生成モデル「Muse」を発表。
1画像(512×512pixel)あたりの生成時間はMuseが1.3秒となり、Stable Diffusion 1.4の3.7秒を上回る。
あらかじめ用意した画像の編集や、画像中の指定した要素のみの編集も可能。
An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion
Stable Diffusionをはじめとしたテキストから画像を生成するツールは、一般的な猫の写真を生成することはできるが、自分の飼っている猫の写真を生成することができない。これは、テキストで自分の飼っている猫を表現することが難しいため。本研究では、表現したい対象が写っている数枚の画像をテキストと合わせて与えることで、表現したい対象を含めた画像を生成することを目指している。
Editor Picks
The lawsuit that could rewrite the rules of AI copyright
Microsoftとその子会社GitHub、そしてビジネスパートナーのOpenAIが、プログラマーAI GitHub Copilotのコード作成が "前例のない規模のソフトウェア違法コピー "に依存していると主張する集団訴訟の標的にされているとのこと。
ソフトウェアコードに限らず、大規模言語モデルは、著作権や利用規約を確認した上で学習データを収集すべきだが、現実的にそこまでやっているのか、できるのかどうか。
NYC education department blocks ChatGPT on school devices, networks
ニューヨーク市は、市内の公立校でChatGPTへのアクセスを遮断。盗作を可能にし、虚偽が含まれるためとのこと。
他にも、機械学習系の学会ICMLがChatGPTの生成したテキストを分析目的以外で論文に含めることを禁止したり(生成物の所有権などが理由)、技術QAサイトStack OverflowがChatGPTの生成したコンテンツの投稿を禁止したり(誤った回答を出力する傾向があるため)している。
ChatGPTが虚偽の出力を間々行うことは事実だが、往々にして万人が問題ないと認めるコンテンツは新しい学びにならない。うまく使い分けて欲しいところ。
Face Recognition Tech Gets Girl Scout Mom Booted From Rockettes Show — Due to Where She Works
娯楽施設を運営するMSGエンターテイメント社は、顔認証技術を利用し自社に対する訴訟の代理人を務める法律事務所関係者の入場を禁止し、物議を醸している。
大いに議論されるべきことだが、逆にこういったことが話題にあまりならない日本はまだまだAI導入後進国なのかもしれないと感じさせるニュースでもある。 日本で話題になった例だと、一昨年のJR東日本など。