Nishika AI News Letter - Issue #66
本日のLetterはほぼOpenAI, GPT-4oに関する内容です(少しだけGeminiも)。
皆さんが第一に期待される「さらに賢くなったのか?」ではないところのupdateが主であった点がポイントです。人間のやっている仕事をAIが容易に代替できない一因であった回答速度の問題を大幅に解決したことで、生成AIのユースケースが広がりました。
OpenAIはモデルの精度(賢さ)もさることながら、プロダクトとしてもユーザー体験の非常に良いものを作っているなという印象がずっとあるのですが、それを組織の側面でどう実現しているか、という本Letter最後の記事もなかなか興味深いです。
Promotion
SecureMemoCloudは、世界最高水準の精度96.2%の音声認識AIを搭載した会議録作成支援サービスです。
評価用に作成された綺麗な読み上げ音声ではなく、リアルなビジネス会議音声について他社の追随を許さない高精度を誇るAIモデル「shirushi」を搭載している点が最大の特徴です。
会議録の特性に特化したAI要約機能も備えており、最新のGPTモデル「GPT-4o」を搭載しております。
将来は、文字起こし結果をもとに会議アシスタントとしてあなたをサポートする生成AIの搭載を目指しています。
SecureMemoは、世界最高水準の精度96.2%の音声認識AIを搭載しつつ、オフライン環境で処理が完結するAI文字起こしソフトウェアです。
「精度の圧倒的な高さ」「オフライン完結」の2つを両立しているサービスは他になく、警察・医療機関・民間企業の経営企画/IR/人事部門様といった皆様にお使いいただいています。
評価用に作成された綺麗な読み上げ音声ではなく、リアルなビジネス会議音声について他社の追随を許さない高精度を誇るAIモデル「shirushi」を搭載している点が最大の特徴です。さらに、独自開発した、声紋登録不要で完全自動の話者特定AIも搭載しています。
Application
5/14(日本時間未明)に、OpenAIから最新のLLMとしてGPT-4o(omniのo)が発表されました。お時間のある方は、是非こちらの動画をご覧ください。
ハイライトを勝手に上げさせていただくと、
動画の10分頃:GPTが人間とほぼ同じ速度でレスポンスを返す
動画の12分頃:GPTが感情を込めて話す
動画の22分頃:GPTが英語とイタリア語の通訳をこなす
ということで、一番のハイライトは圧倒的な回答速度です。
実は、自然言語処理や音声認識タスクでの性能向上はさほど大きくないのですが、速度が圧倒的に早くなっただけで「すごい進化だ」と思った方は多いと思います。実際、速度が速くなることで、QAや検索といった、待つことをある程度覚悟しているユースケースだけでなく、電話・窓口対応など人間が行う前提となっていたユースケースまで応用が広がってくることが期待されます。
自然言語処理や音声認識タスクでの性能向上はさほどではないと言った通り、例えば専門用語の音声認識は未だに問題があるはずで、速度以外の面での期待値まで一緒に上げてしまわないよう、冷静に見ていく必要はあります。
ただ、GPT-4oは自然言語と画像・音声を統合して処理するマルチモーダルな処理の実現に向かっているので、そもそも単一モーダルで行う性能評価の方がGPT-4oに追いついていない、と言えるかもしれません。
性能面での目を見張る改善もあります。特に、手書き文字認識の性能は非常に高いことが報告されています(例1、例2)。
我々も、OCRタスクの中で特に難しい、薬の錠剤に印字されている文字の認識を試してみました。他のLLMが全く当てられない中、一定の工夫は必要でしたがGPT-4oは唯一正解を出しました。
ちなみに、弊社も早速GPT-4oの検証を行い、OpenAI発表同日の5/14にSecureMemoCloudのAI要約機能への搭載を行いました(プレスリリース)。AIプロバイダーとAIユーザーの間に位置する我々のような事業者は、進化を遂げた技術をいつでも取り入れられる体制を整えている点が重要だと考えています。
Gemini が新たな領域へ : より高速なモデル、ロング コンテキスト、AI エージェント
GPT-4oの発表翌日、Googleも自社LLM Geminiのupdateを発表し、軽量モデルGemini Flashの新規導入およびGemini Proのupdateを伝えました。
GPT-4oとの比較では、Gemini Proは特に動画解析に優れているようです(例)。
Youtubeという圧倒的規模の動画データセットを持つGoogleが動画解析で強みを出し、いち早くLLMを提供し大量の対話データセットを獲得したOpenAIが自然言語処理を中心としたタスクで強みを出しているということで、データセットの特徴に起因する各社の強みが出ているような感じがします。
Editor Picks
GPT-4oによるリアルタイム翻訳によりDuolingoの株価急落
GPT-4oによるリアルタイム翻訳のデモが発表された後、語学学習アプリDuolingoの株価が急落したとのこと。実際には元々低迷があったようだが、マルチモーダルな処理でここまで高速にリアルタイム翻訳を行えることは予期していなかった投資家が一定いたと思われる。
GPT-4oの進化について、ちょっと面白い考察があったのでPick。誤ったことを述べるハルシネーション自体はGPT-4oでも未だに観察されるが、そこを一生懸命解決することよりも前に、感情を載せた「人間らしい」音声対話を実装し、社会に受容してもらう作戦をとっているのではないか、と言う話。
OpenAIはGPTのようなモデルが特に注目されるものの、プロダクト(アプリ)の体験の良さも素晴らしいと思っていたが、モデルについてもどうすればユーザー体験が最善になるかを考えられていて、意外にそこが大手老舗ITベンダーとの最大の差になるのではないかと思っています。
Inside OpenAI: How does ChatGPT Ship So Quickly?
ChatGPTがなぜ迅速に新機能をリリースできるのか?について、組織や役割の観点から述べた記事。かなり興味深い。
ChatGPTでは数人のAppliedエンジニア、デザイナー、研究者、そしてGreg Brockman(OpenAIの社長兼共同創設者)が部屋に閉じこもって製品アイデアを具現化。初期段階のスタートアップの雰囲気を作り出した。チームの全員がオンサイトで働いた。
プロダクトチームとモデルを作るリサーチチームを分ける発想もあるが、そうはしなかった。リサーチチームが実験だけに集中し、プロダクトチームが商業化と利益追求に集中する文化は避けたいと考えた。