Nishika AI News Letter - Issue #61
Clause3が話題となっています。領収書など構造化された画像データの認識など、一部タスクでは明らかにGPT-4以上の性能だと話題になっており、GPT-4一強に一石を投じています。
私見としては、ChatGPTを通じてOpenAIが蓄積したデータ量はとんでもないので、早々にGPT-5のリリースによる巻き返しがあるのではと推測しています。一方でGPT-4の性能はリリース移行少しずつ下がってきているという話もあり、蓄積データで再学習し性能を上げるというのはそこまで容易ではないのかもしれません。それでも、最後は蓄積したデータ量が勝負を分けるのかなという立場です。
さて、生成AI同士の勝った負けた論争は今後も長く続きそうです。利用者側としては、その時々で最適なモデルを使えるように、モデルになるべく依存しないシステムを作って変化を待ち受けておくのが重要そうです。
Promotion
SecureMemoCloudは、オンプレミスAIソフトウェア SecureMemoに続きご提供を開始した、世界最高水準の文字起こしAIを搭載した会議録作成支援サービスです。
単なるSecureMemoのクラウド移植版ではなく、会議録の特性に特化したAI要約機能も付加している点も特徴です。
現在β版であり、無償でお試しいただけますので、是非その精度を体感ください!
SecureMemoは、世界最高水準の精度94.7%のAIを搭載しつつ、オフライン環境で処理が完結するAI文字起こしソフトウェアです。
「精度の圧倒的な高さ」「オフライン完結」の2つを両立しているサービスは他になく、警察・医療機関・民間企業の経営企画/IR/人事部門様といった皆様にお使いいただいています。
音声認識AIとしてOpenAI Whisperを搭載、オリジナルWhisper由来の課題を解決すべく独自チューニングを行い、実用可能な水準に改善を行った上でご提供しています。
さらに、独自開発した完全自動の話者特定AIも搭載しています。
Application
OpenAIの競合、AnthropicがLLM Claudeの新ver Claude3をリリース。
GPT-4よりも性能が良いとの声が多く、話題になっています。
特に有用と思うのは、領収書など構造のある画像データのレイアウト認識。以下のように正確に読み取れるケースがあり、これは明らかにGPT-4を上回る性能のようです。
また、全般にGPT-4以上に回答の生成速度が速い点も強みとして指摘されています。
一方で、私見ですが、今の一時はClaudeの性能が上回る点はあったとしても、やはりChatGPTを早期に公開し大量の学習データを集めているGPTの優位は揺るがないのでは、と思っています。早々にGPT-5で挽回してくるのではないかと思っています。
また、個人利用の面では馬鹿にならないのが料金。上位モデルでは20USD/月で、Geminiも加えて主要3LLMの上位モデルを使おうと思うと60USD/月です。現状では2つ以上のLLMの有料契約は個人には難しく、Claudeの利用者増に待ったをかけるのではないかと思っています。
Technology
素のGPT-4Vは画像を与えて内容を説明できる能力がありますが、画像内の物体の位置関係を取り違えることがある。
この問題に対する汎用的な解決方法として、画像に格子状に座標を書き込み、書き込んだ座標を手がかりに画像認識を行うように指示したところ、認識性能が向上した、という話。もちろん、実用時はいちいち手で書き込んだりする必要はなく、システム側で自動的に書き込ませることができる、有用な手法です。
LLMが進化途上であるが故に効果を発揮するテクニックで、いずれはこういったことをしなくても認識できるようになっていくんだろうなという(若干寂しさもある)予測はありますが、地道な創意工夫が効果を発揮する様は素晴らしいと感じます。
Editor Picks
【ゼロから解説】ChatGPTより賢い「自分専用GPT」の作り方
GPTs、皆さん使っていますか?
もし使える環境にあってまだ作っていない方、おすすめです。
私はChatGPTによく入力する内容をGPTsに入れて、ChatGPTのテンプレート機能的に使っています。
よく利用するのは以下。
<一人ブレスト>
問題を与えると、性格の異なる複数のペルソナを設定して勝手に議論を深めていってくれる。自分も議論に参加してフィードバックするとより良い議論になる。
https://chat.openai.com/g/g-rVqXvxZon-deipudeisukatusiyonai
<日英翻訳>
外国人エンジニアとのやりとりで重用。
https://chat.openai.com/g/g-2jon2B6s1-bilingual-translator
マイクロソフト、仏新興ミストラルAIと提携-米オープンAIの競合
LLM界隈でGPTに次ぐ性能とも言われるMistralとMSが提携。どうやら独禁法対策のようですが、技術的には業界最大手と二番手とも言える両者と1つのジャイアントが提携しているというのはまず見たことがないです。
最新のLLM Mistral Largeは、自然・社会・人文科学などの選択問題ベンチマーク「MMLU」のスコアでGPT4に次ぐ2位と主張。
楽天とOpenAI、通信業界に特化したAIを共同で開発‐不具合を事前に察知
OpenAIの名前を著名にしたLLM、画像/動画生成AIとは異なる領域での協業でしょうか。数値データに対するAI適用であればOpenAIでなくとも、と思いますが、マーケティング目的の協業でもあると思います。
唯一、カスタマーサービスではLLMの活用が有用かもしれません。リアルタイムの通信状況を把握しながら顧客対応できると、カスタマーサービスが一段レベルアップしたと言えると思います。