Nishika AI News Letter - Issue #50
「GPT-4に眼ができた」のがトップニュースでしょうか。入力として画像を受け取ることができるようになり、写真を貼って対話することができるようになりました。
自然な対話を音声合成する技術は生成AIに喋らせるのに使えるし、非構造文書のOCRは生成AIが参照できるデータを増やします。見方にバイアスがかかっているかもしれませんが、生成AIを中心に技術が発展し、生成AIの守備範囲がどんどん広がっている感覚を覚えます。
Nishikaでも、生成AIを組み込んだ新しい議事録作成支援サービス “SecureMemoCloud”をリリースすることを決定しました。音声認識・話者特定・要約といったAI機能が搭載されています。
生成AIは、あらゆる使い方ができるからこそ「こうやって使うべき」を定義してお届けすることに存在価値を置いていきたいと考えています。
Promotion
弊社ではオンプレミスAIソフトウェア “SecureMemo” を提供していますが、SecureMemoの音声認識・話者特定の精度の高さをご評価いただくお客様の声が多いことから、SecureMemoのクラウド版と言える “SecureMemoCloud” のリリースを決定し、無償トライアル版を公開いたしました!
単なるSecureMemoのクラウド移植版ではなく、会議録の特性に特化したAI要約機能も付加している点も特徴です。
無償でお試しいただけますので、こちらで是非その精度を体感ください!
Nishikaは、世界最高水準のAIを搭載しつつ、オンプレミス・オフライン環境で動作するAI文字起こしソフトウェア “SecureMemo” を提供しております!
音声認識AIとしてOpenAI Whisperを搭載、オリジナルWhisper由来のバグ修正など実用可能な水準に改修した上でご提供しています。さらに、独自開発した話者特定AIも搭載しています。
ChatGPTの使い方について、とても追いきれないほどの速さで日々報告がされる中、結局ビジネスで使える使い方は何なのか?とお考えの企業の皆様向けに、ChatGPT研修を提供することとしました!
ChatGPTの基本原理から、有用性だけではなく把握しておくべき危険性、業務で効果を生み出す活用方法までお伝えした上で、ワークショップ形式でお客様自身にとって有益なChatGPTの使い方を編み出すプログラムです。
弊社が実際に日々行なっている活用方法をお伝えしたり、コンペを通じて蓄積した危険性に関する知見をお伝えするなど、弊社独自の実践的コンテンツとなっております。
ご関心あれば、是非お声がけください!
Nishikaがデータ分析コンペティションを通じて蓄積した画像検索AIに関する知見をもとに開発した、最高水準の精度を誇るEC向け画像検索AI「Nishika Image Finder」をリリースいたしました!
約50万件の商品をお持ちのあるEC事業者様のデータを活用した検証にて、MRR (Mean Reciprocal Rank), Recallのいずれの指標でも、GoogleのVision API Product Searchの水準を10ポイント近く上回りました。
Application
いよいよ、GPT-4が画像の入力を受け付けるようになりました!
手書きのWebページの絵を渡すとHTMLのコードに翻訳してくれたり、アプリのスクショを渡すだけでアプリのコードを作成してくれたり、写真を渡して「これがどこなのか、何をしているのか説明してください」に答えられたり、絵の画像を渡して「これを写実的にするにはどうすれば良い?」と聞くとアドバイスをしてくれたり・・・
無限にユースケースが湧いてくるところで、まずは色々遊んでみたいところです!(現在、一部有償ユーザーが使える状態になっています)
GPT-4Vに関する論文の中では、安全性に配慮し、「ユーザーの好む出力」をするように人間のフィードバックをもとにした学習がされているのはこれまでと同様。Be My Eyes(視覚障害者に対して、登録ボランティアが眼の代わりになってサポートするアプリ)との連携で、視覚障害者向けに写真説明機能を提供している点も注目です。
Chain-of-Verification Reduces Hallucination in Large Language Models
LLMの出力で、事実と異なることを言ってしまうこと(ハルシネーション)は大きな問題の一つですが、これを減らす手法「CoVe(Chain-of-Verification)」が提案されています。
例えば、以下のようなフローです:
「ニューヨーク生まれの政治家を列挙してください」に対してLLMが回答します
1の回答に対して、LLM自身が検証質問を生成します。ここでは「出身地は?」を検証質問として生成します
2の検証質問にLLMが回答します
2の検証質問の回答結果を踏まえて、LLMが1の回答を修正し、検証済み回答としてユーザーに出力します
考え方は、我々も手元のプロンプトにすぐに取り入れられそうです。
化合物の持つ特性をラベルした大量のデータセットを作成するのに、ChatGPTを活用したという事例。化合物の特許文書に対してChatGPTによる要約を行い、特性を表すタグを数個生成、類似の言語をクラスタリングでまとめ、タグをクレンジング。このデータセットで学習したモデルから、ウイルスに有効な薬を探索し、候補となるものを発見できたとのこと。
ChatGPTを使うことで、安価に大量のデータセットを作成するアプローチは様々なところで活用できる。
Technology
CHATS (CHatty Agents Text-to-Speech)
AIエージェント同士のテキスト対話から自然な音声対話を生成する手法 CHATS (CHatty Agents Text-to-Speech)。
与えたテキストを読み上げるところの音声は他の音声合成に比べて少し違和感がありますが、人間同士が対話する際に出るような、自然な相槌・軽い笑い声などが生成できているのは画期的です!
テキストに忠実な音声合成の一歩先の技術、という感じです。
LMDX: Language Model-based Document Information Extraction and Localization
Googleは、LLMを活用して「非構造文書(例えばレシートなど)」から高精度にテキストを抽出するOCR「LMDX」を発表。
Google Driveなどに格納されている非構造文書のテキストデータを抽出し、それをBardから参照させる、といった活用の可能性がある。
Editor Picks
大量のLLMを作成・チューニングしている目線では、できたLLMをどう自動評価するかが課題ですが、「こういうデータが生成できたら正解」という検証用データを与えるという手法には限界があるとされていました。本記事では、より強力なLLM(GPT-4)を使ってできたLLMを自動評価しているという面白い取り組み。
Amazon steps up AI race with Anthropic investment
GPT-4に対抗するLLM「Claude2」を提供するAntropicに、Amazonが最大40億ドル(約6000億円)の投資を行うというニュース。Googleが既に出資している企業であり、MS vs Amazon/Googleという構図となりつつある。