Nishika AI News Letter - Issue #55
Geminiの熱狂とその後の「がっかり」もその一端かもしれませんが、AIの開発陣が追いかけるベンチマークの評価の進捗と、ビジネス的な進捗の乖離がHotな問題です。
何か指標がないと技術進捗したというコンセンサスが得られない、一方でその指標の改善のみを持ってニュースにすると実際に使ってみたときの「がっかり」が増すという「上げて落とす」サイクルが繰り返されます。
オープンドメインなタスクに対応できる生成AIは、AIの適切な評価という観点でも、これまでの考え方を揺るがしてきています。
Promotion
弊社ではオンプレミスAIソフトウェア “SecureMemo” を提供していますが、SecureMemoの音声認識・話者特定の精度の高さをご評価いただくお客様の声が多いことから、SecureMemoのクラウド版と言える “SecureMemoCloud” のリリースを決定し、無償トライアル版を公開いたしました!
単なるSecureMemoのクラウド移植版ではなく、会議録の特性に特化したAI要約機能も付加している点も特徴です。
無償でお試しいただけますので、こちらで是非その精度を体感ください!
Nishikaは、世界最高水準の精度94.7%のAIを搭載しつつ、オフライン環境で処理が完結するAI文字起こしソフトウェア “SecureMemo” を提供しております!
「精度の圧倒的な高さ」「オフライン完結」の2つを両立しているサービスは他になく、医療機関・警察・民間企業の経営企画/IR/人事部門様といったところから引き合いをいただいています。
音声認識AIとしてOpenAI Whisperを搭載、オリジナルWhisper由来のバグ修正など実用可能な水準に改修した上でご提供しています。
さらに、独自開発した完全自動の話者特定AIも搭載しています。
ご関心あれば、是非お声がけください!
ChatGPTの使い方について、とても追いきれないほどの速さで日々報告がされる中、結局ビジネスで使える使い方は何なのか?とお考えの企業の皆様向けに、ChatGPT研修を提供することとしました!
ChatGPTの基本原理から、有用性だけではなく把握しておくべき危険性、業務で効果を生み出す活用方法までお伝えした上で、ワークショップ形式でお客様自身にとって有益なChatGPTの使い方を編み出すプログラムです。
弊社が実際に日々行なっている活用方法をお伝えしたり、コンペを通じて蓄積した危険性に関する知見をお伝えするなど、弊社独自の実践的コンテンツとなっております。
ご関心あれば、是非お声がけください!
Nishikaがデータ分析コンペティションを通じて蓄積した画像検索AIに関する知見をもとに開発した、最高水準の精度を誇るEC向け画像検索AI「Nishika Image Finder」をリリースいたしました!
約50万件の商品をお持ちのあるEC事業者様のデータを活用した検証にて、MRR (Mean Reciprocal Rank), Recallのいずれの指標でも、GoogleのVision API Product Searchの水準を10ポイント近く上回りました。
Application
グーグルがGPT-4超えの最新AI「Gemini」発表、Pixel 8 Proで動作する「Gemini Nano」も
Googleが新しい生成AI「Gemini」を発表。様々なベンチマークスコアでGPT-4を上回った、ということで話題となりました。
私としては、精度面は、ChatGPTのようにたくさんの人に触られてから始めて評価すべきだと思います。
これまでも「このタスクでGPT-4を超えた」と主張する生成AIが、実際に触ってみると精度はイマイチ、ということは何度もありました。
生成AIが対応しようとしているタスクがオープンドメインで、GPT-4が真に評価されているのはあらゆる質問に一定以上の性能で応えられていることなので、ベンチマークの存在するタスクでの評価がさほど当てにならないのが実態です。
一方で、テキスト単体を超えたクロスモーダルなタスクを解けてきていることは注目に値すると思います。以下の動画は喫驚。
(追記)
実は、上記動画は「やらせ」であったという続報がありました。
「やらせ」という表現が適切かはありますが、確かにうまく編集されていて、如何にも最低限の言葉で質問すればほとんど遅延もなく回答ができているように見えていましたが、実際はヒントをプロンプトとして与えているなど、省かれている工程がありました。
ところが開発ブログにも説明されているとおり、Geminiは一連のジェスチャーから「ジャンケン」を推論できたわけではない。
まず、グー・チョキ・パーの3種類の画像を一度に見せ、「何をしていると思いますか? ヒント:それはゲームです」というプロンプトを与える必要がある。そこで初めて「ジャンケンですね」という反応を引き出せるのだ。
とはいえ、個人的にはあまり驚いていません(これまでも、マーケティング目的の動画は同じような側面はあった)。
むしろ、Googleがどうこうというより、ベンチマークの評価の進捗とビジネス的な進捗の乖離を改めて感じます。
例えば先ほどのジャンケンの例は、技術的には「十分すごいじゃん」と言えるが、実務で適切なプロンプトをいちいち考えるのはあり得ない。結果、全く使われないというオチになる。
Googleだけでなく、OpenAIでも、音声認識AI Whisperのv3が近頃リリースされたが、ベンチマークの評価は良いが、リアル音声では悪化しているという報告が多い(例1, 例2)。
「何を持って進捗というか」の難しさがあります。
Pixel 8 Pro、新AI「Gemini」即日搭載 レコーダ要約やスマート返信
Geminiに対する懐疑的な見方も紹介しましたが、一方で期待の高まる具体的な発表もあります。
Googleのスマホ端末上で、レコーダーによる録音&要約をGemini Nanoがオンデバイスで行う機能が搭載されるとのこと。オンデバイスで行われるということで、ネットワークに接続していない状態でも処理できるのが今までにない体験。
現実的には、オンデバイスのスペックでそこまでの性能は出せないと思いますが、どんなものか見てみたいという気持ちは逸ります。
OpenAI、GPT-4が怠け者になってきたという苦情に「修正を検討中」とポスト
GPT-4の性能が低下している、という指摘が増えているとのこと。「プログラムが作成者の意図した動きと違う動作をする」ことをバグと呼ぶなら、生成AIのバグは一生消えなさそうです。
Technology
Gemini技術レポートから。
マーケティング動画のみから実態を捉えようとするよりも精確な読み解きです。
生成AIの特徴的な訓練手法であるRLHFで、Geminiでは「役立つ」「安全である」の2つの報酬スコアに加えて「事実である」の報酬スコアを加えているのが特徴的。
「事実である」の意味は、具体的には:
1. 情報ソースを与えられていれば、必ずそれに則る
2. 「インドの首相は誰?」といった事実を聞いている質問には必ず事実で答える
3. 分からないものは分からないと答える
「役立つ」「事実である」を両立した体験を作るのは難しいです。
今後はどの報酬スコアを重視したかによって、LLMの「性格」が分かれていきそう。
作るだけなら簡単なLLMを“より優れたもの”にするには
「Pretraining」「Fine-Tuning」「Evaluation & Analysis」構築のポイント
こちらも技術レポートの読み解き。技術レポートは、開発的な目線以外でもなかなか面白い話が詰まっています。
GPT-4の技術レポートのCreditから、開発に要したTeam sizeを推測した話。
データ収集であったり開発そのものよりも、生成AIの品質を評価するEvaluation & Analysisの工程の要員数が最大だった、というのが特徴的。
Editor Picks
“信頼されるAI”への試金石…日本IBMが日本語LLMの技術文書公開へ
ハルシネーション(出力内容の誤り)による信頼性の低下が避けられないなら、入力側で何をやっているか公開して信頼性を担保しようというアプローチ。
「有害データや特定の個人に関連するデータなどを絞り込み、リスクを減らす手法を採用している」は他のLLMも結構やっていると思いますが、マーケティング観点でこの論点を大きく取り上げるのは間違ってないと思います。
人だと正解率92%なのに、GPT-4だと15%になる新型テスト集「GAIA」 米Metaなどが開発
生成AIに出せない価値を人間が出すためにどんなタスクが考えられるか、の探究のため面白い取り組み。
ただ、一番の人間の価値は身体性かな、とは思います。引越し業者とか、しばらくAIにはできそうにない。。。