音声合成のVALL-E X、論文OCRのNougat、動画編集・生成AIのStable Videoなどを取り上げました。音声合成は人の声による教師データの作成→音声認識モデルのチューニング、OCRはこれまでテキスト検索の対象にならなかった画像データを検索対象のテキストデータ化する、といったシーンでも役立つもので、生成AIの活躍の範囲を広げる技術としても注目です。
Share this post
Nishika AI News Letter - Issue #48
Share this post
音声合成のVALL-E X、論文OCRのNougat、動画編集・生成AIのStable Videoなどを取り上げました。音声合成は人の声による教師データの作成→音声認識モデルのチューニング、OCRはこれまでテキスト検索の対象にならなかった画像データを検索対象のテキストデータ化する、といったシーンでも役立つもので、生成AIの活躍の範囲を広げる技術としても注目です。