Nishika AI News Letter - Issue #26
Summary
テキストpromptから動画を生成するPhenaki、同じくpromptから音楽を生成するMubertを紹介しています。生成系のAIで驚くような成果が次々報告される中で、AIに何ができて、何ができないのかを考えてしまいます。これは難しい問いで、「1秒で人が判定できることはAIでもできる」「小学生が少し教えられてできることはAIはできる」といった基準を聞いたことがありますが、今や簡単に反例を思いついてしまう状況です。一言でうまく答えている例を私は知りませんが、生成系のAIが驚くような成果を出す中で、自然文の肯定・否定の意味を取り違えてしまったりする様子を見ると、「人間が構造的に説明できないものほどAIはうまくできる」ということはあるのかもしれません。(M)
Nishika AI News Letterへのご質問はこちら
※本Letterに関する質問、取り上げて欲しいトピック、自社のAI導入の相談、何でも結構です
Application
数文のテキストpromptから数分の動画を生成するPhenaki。数日前に数秒の動画を生成するMake-A-Videoが発表されたばかりですが、、、まだ画像の一貫性を保てるレベルではないが、時間の問題には感じます。
テキストのpromptを与えると音楽を生成する。サンプルはこちら。テキストのリクエストが同じでもユニークな音の組み合わせが生成され、繰り返されることは少ないとのこと。
Joe Rogan interviews Steve Jobs
ドバイベースのスタートアップPlay.htが、スティーブ・ジョブズの生前の音声で学習した機械学習モデルで、原稿を音声に変換し19分間のインタビューを合成。
UConn Researchers Assessing the Aftermath of Hurricane Ian
ハリケーンで被害を受けた地域を衛星画像から特定。
カルマンフィルターを使って各画素のベクトルの経時変化を推定、観測ベクトルと差が大きければ残骸となっていると判断。社会的意義の大きい取り組み。
AI and Machine Learning Enter the Kitchen at Chipotle
効率性が重要なファストフード業界はAIアプリの実験場になっているという話。需要予測で人と車の往来を考慮するAIや、鮮度が落ちている食材にアラートするAIなど。
Helpful Neighbors: Leveraging Neighbors in Geographic Feature Pronunciation
Google Mapsの地名の発音を近隣の地名から推定し修正。コードもオープンソース化されている。