Nishika AI News Letter - Issue #48
音声合成のVALL-E X、論文OCRのNougat、動画編集・生成AIのStable Videoなどを取り上げました。音声合成は人の声による教師データの作成→音声認識モデルのチューニング、OCRはこれまでテキスト検索の対象にならなかった画像データを検索対象のテキストデータ化する、といったシーンでも役立つもので、生成AIの活躍の範囲を広げる技術としても注目です。
Promotion
Nishikaがデータ分析コンペティションを通じて蓄積した画像検索AIに関する知見をもとに開発した、最高水準の精度を誇るEC向け画像検索AI「Nishika Image Finder」をリリースいたしました!
約50万件の商品をお持ちのあるEC事業者様のデータを活用した検証にて、MRR (Mean Reciprocal Rank), Recallのいずれの指標でも、GoogleのVision API Product Searchの水準を10ポイント近く上回りました。
AI News Letterでは各社の提供する最先端AIをご紹介し続けていますが、News Letter中でも何度か取り上げている、音声認識AI OpenAI Whisperを搭載したソフトウェア “SecureMemo” をリリースいたしました!
Whisperを搭載・チューニングし、名実ともに世界最高水準の精度を示しながら、オンプレミス・オフライン環境で利用可能でありセキュアな用途に有用な点が特徴です。
ChatGPTの使い方について、とても追いきれないほどの速さで日々報告がされる中、結局ビジネスで使える使い方は何なのか?とお考えの企業の皆様向けに、ChatGPT研修を提供することとしました!
ChatGPTの基本原理から、有用性だけではなく把握しておくべき危険性、業務で効果を生み出す活用方法までお伝えした上で、ワークショップ形式でお客様自身にとって有益なChatGPTの使い方を編み出すプログラムです。
弊社が実際に日々行なっている活用方法をお伝えしたり、コンペを通じて蓄積した危険性に関する知見をお伝えするなど、弊社独自の実践的コンテンツとなっております。
ご関心あれば、是非お声がけください!
Application
3秒の音声があれば本人そっくりの声で日本語・英語・中国語合成できる「VALL-E X」はやはり脅威。MSが非公開にした技術のOSS版を試して実感した(CloseBox)
わずか3秒の音声を与えるだけで、本人に似た声を音声合成できる技術。マイクロソフトが1月に発表し、社会的悪影響を懸念してソースコード公開を控えていたVALL-Eが元となっており、シンガポール在住研究者がMSの論文をもとにOSS実装した。
脅威という言葉がぴったりで、ディープフェイクとしての利用が真っ先に懸念されます、わずかなデータしか残っていない故人の声を再現するなど従来できなかったことができるようになるのも事実。人間らしい声による大量の教師データ作成などにも使えそうで、良くも悪くも注目したい技術です。
Googleが検索エンジンに生成AIを導入。「PythonとRubyどっちを勉強したら良い?」などと「文章でググる」と、検索結果の上部に生成AIがズバリ回答を返してくれる。Googleらしく、生成AIの回答の隣にも記事へのリンクを掲載。
現在はSGE (Search Generative Experience) と呼ばれるSearch Labsでの実験段階で、ユーザフィードバックを収集しながら機能改善を進めていく予定。
Technology
Nougat: Neural Optical Understanding for Academic Documents
論文に対する画期的なOCR「Nougat」をMetaが発表。数式や文章が曲がって撮影されてしまった画像でも、OCRにかけるとマークアップ言語に高品質で変換します。論文を教示データとして訓練したものだが、論文と同様に数式が多用されている技術書や仕様書にも応用可能性があると見込まれる。
GPT-4に選択肢を与えるとき、順序を入れ替えるだけで性能に大きな変化があることが明らかに
複数の選択肢から1つを選ぶ問題をGPT-4に解かせる際、順序を入れ替えるだけで性能に大きな変化があることが明らかにされた。正解率に13-75%もの大きな変化がみられたとのこと。モデルのロバスト性を高めるには、多数決を取るなどの対策が必要と考えられる。
StableVideo: Text-driven Consistency-aware Diffusion Video Editing
動いても姿が崩れない動画編集・生成AI「Stable Video」をMicrosoft等の研究者が発表。これまで動画内の物体を一貫して(不自然に見える瞬間がないように)編集することは難しかったが、編集内容を動画全体に一貫性のある形でなじませることに成功。デモはこちら。
Editor Picks
東京都庁が職員の業務効率改善のため文章生成AI利活用ガイドラインを作成。Azure OpenAI Serviceを使った利用環境のわかりやすい説明、利用にあたっての留意点、向いている/向いていないユースケースなどが非常に簡潔にまとまっている。職員を巻き込んだアイデアソンの結果がプロンプト作成の現実的な方法として落とし込まれているのも素晴らしい。