Nishika AI News Letter - Issue #25
Summary
日本語で指示するだけでAIが自動でプログラムを書いてくれるAI Programmer、画像生成AIの一歩先、テキストから動画を生成してくれるMake-A-Video、1枚の画像から高品質の3Dモデルを生成できる3DiMなど、今週はLetterのトピックに事欠きませんでした。
一方で、はじめ多くの先進的発表は一部テックジャイアントからされている現実はあり(Stable DiffusionやDeepLといった例外はしっかりあるとは言え)、AI系スタートアップへの投資が業界によっては冷え込んでいる実態もあります。AI系企業は圧倒的な先進性で突き抜けるか、そうでなければ確かなROIを示す実用性で生き抜くか、どちらかの選択を迫られているなと感じます。(M)
Nishika AI News Letterへのご質問はこちら
※本Letterに関する質問、取り上げて欲しいトピック、自社のAI導入の相談、何でも結構です
Application
日本語で指示するだけで、AIが自動的にプログラムを書いてくれるサービスAI Programmerがリリース。SNS上で大きな話題に。
コードの自動生成系サービスで言えばGitHub Copilotが既にあり、むしろ実用上はコードを書くエディタにinstallできるCopilotの方が優れている気がするが、これだけ話題になるのを見ると、ブラウザ上で試せることの伝播力の強さを感じる。
MAKE-A-VIDEO: TEXT-TO-VIDEO GENERATION WITHOUT TEXT-VIDEO DATA
画像生成AIが話題となるさなか、テキストから動画を生成するAIも発表。サンプル動画はこちら。テキストと動画のペアを与えて学習させたのではない手法で、従来手法(71.19%)よりもより適切な生成を行っている(77.15%)と評価を得た。
Novel View Synthesis with Diffusion Models
1枚の画像から高品質の3Dモデルを生成できる「3DiM」をGoogle Researchが公開。昨今流行りのDiffusion Modelを使用。
東大の暦本先生ご自身が作成された、学生論文指導で、センテンスが繋がっていない(センテンスごとに話が飛んで、自分の中だけでわかっている感じ)かどうかを BERTで自動判定できるのではと思ってやってみた、という例。
リンク先はコードだが、非エンジニアの方もその短さに驚くはず。昨今は色々なユースケースに対して気軽に試せる環境が整っているのが素敵。
Technology
Cryogeomorphic Characterization of Shadowed Regions in the Artemis Exploration Zone
月の南極は水が凍結している可能性があり、NASAのミッションのターゲットでもあるが、直接日光が当たらず地形が判然としない。
人為的に暗くし、地球へ画像を転送する際のノイズも追加した訓練データにより、月の画像からノイズを除去するニューラルネットワークを構築。
Generative Spoken Dialogue Language Modeling
自然な会話音声をテキストなしで生成するモデルdGSLM。
実際の音声はこちら。自然な感じは出ているが、著者らも認めているように意味のある対話とはまだあまりなっていない。
Editor Picks
CB Insightsによれば、2022Q2のAIスタートアップの資金調達額は$118Bで、Q1から21%減少。ただしドメインによって状況は異なり、リテールテックやフィンテック系AIでは横ばいないし増加傾向にある。