Nishika AI News Letter - Issue #69
Claude 3.5 SonnetのArtifacts機能発表は、既にGPTsで先行してきたGPTに対抗したもので、LLMがLLMの生成能力で戦うのみならず、アプリ機能での勝負のフェーズにも入ってきたことを意味します。
有料で使っている人も、いずれかのLLMを選択して契約している人が多いと思いますが、チャットしていると隣のウィンドウでリアルタイムにアプリが動いてくれる体験は、乗り換えの背中を押してくれるものだったのではないでしょうか。
私は東京都民なので都知事選に注目していますが、選挙戦にAI技術者の方が出られていること、候補者の政策にAIという言葉が多く盛り込まれているのを見て、時代が変わったなと感じます。
そんな中、候補者本人に代わってAIが質疑応答してくれる「AIあんの」は、技術的にもビジネス活用的にも注目したい事例です。
Promotion
SecureMemoCloudは、世界最高水準の精度96.2%の音声認識AIを搭載した会議録作成支援サービスです。
評価用に作成された綺麗な読み上げ音声ではなく、リアルなビジネス会議音声について他社の追随を許さない高精度を誇るAIモデル「shirushi」を搭載している点が最大の特徴です。
会議録の特性に特化したAI要約機能も備えており、最新のGPTモデル「GPT-4o」を搭載しております。
将来は、文字起こし結果をもとに会議アシスタントとしてあなたをサポートする生成AIの搭載を目指しています。
SecureMemoは、世界最高水準の精度96.2%の音声認識AIを搭載しつつ、オフライン環境で処理が完結するAI文字起こしソフトウェアです。
「精度の圧倒的な高さ」「オフライン完結」の2つを両立しているサービスは他になく、警察・医療機関・民間企業の経営企画/IR/人事部門様といった皆様にお使いいただいています。
評価用に作成された綺麗な読み上げ音声ではなく、リアルなビジネス会議音声について他社の追随を許さない高精度を誇るAIモデル「shirushi」を搭載している点が最大の特徴です。さらに、独自開発した、声紋登録不要で完全自動の話者特定AIも搭載しています。
Application
Claudeから最新のLLM発表。LLMの性能としてはGPT-4oと大差ない体感ですが、注目したいのはArtifacts機能。
アプリケーションを動かすコードの作成やドキュメントの作成、Webデザインの作成を依頼すると、実際にどのような見た目・動きになるかを隣のウィンドウで示してくれる。「インベーダーゲームを作って」と依頼したときの動きが以下。
生成AIもその生成能力での勝負にとどまらず、アプリケーションとしての機能勝負に突入してきました。
Strategic Content Partnership with TIME
OpenAIとTIME誌が戦略的パートナーシップを発表。OpenAIは過去101年分のTIMEのアーカイブにアクセスできる。
今や最先端のLLMはパブリックなWeb上のデータは学習し尽くした、などと言われる中、大容量データホルダーを如何に抑えられるかがLLMベンダーの勝負になってきそう。一方でTIMEという大衆向けメディアコンテンツにどれだけ学習価値があるか(もう十分学習できてるんじゃないか)とも思う。
Technology
NVIDIA、LLMのトレーニングに使用できるオープンモデルファミリー「Nemotron-4 340B」を発表
GPUへの需要拡大により時価総額が世界首位に達したNVIDIAですが、ハードウェアだけでなくソフトウェアでも前進。独自LLM Nemotron-4 340Bを発表。オープンソースでオフラインでも利用できる(パラメタ数340Bと超巨大なモデルですが。例えば私の自宅GPUで動かそうとしているのはLlamaの8Bだったりします)。
LLMの学習用データを合成するinstruct、合成データを評価するrewardモデルも併せてリリースしているのが特徴。最終目標がLLMの学習ということは、NVIDIAのハードウェアをもっと使ってもらう機会を増やしにきているということで、NVIDIAの売上増に全て繋がってくるところがビジネスモデルとしてエグいです。
「GPT-4」を上回る日本語性能のLLM「Llama-3-ELYZA-JP」を開発しました
日本製LLMベンダーのトップランナーの1社であるELYZA社の性能進捗。パラメタ数70Bの高性能モデルではGPT-4(GPT-4oではない)を上回る日本語性能を達成したとのこと。
「XXを上回る性能を達成」はどうしてもベンチマーク評価タスクに依存してしまうのでコメントが難しいですが、個人的には現実的に組織が単独で導入しやすいオンプレLLMとして、パラメタ数8Bモデルの性能に注目しています。
8Bモデルに、最も難しいタスクの1つである要約をさせてみましたが、少なくとも日本語は崩壊しないし、内容も悪くない印象。GPUの使用VRAMは18GB弱とちょっと多めではありましたが、量子化によるメモリ抑制の手も残っているので、引き続き試していきたいと感じるレベルです。
Editor Picks
もっと他の命名はなかったかという感じですが笑
LLMにパワハラを繰り返すことで、出力が改善するという話。
では、この出力を60点とします。これを60点とした時に100点とはどのようなものですか? 100点にするために足りないものを列挙した後に、100点の答えを生成してください
全く同じプロンプトを与えるだけで良いのがミソで、あとは何もせずとも自動的に出力が改善していく、というものです。
ちなみに一定改善を繰り返すとあらぬ方向に改善案を提示するようになるようで、人間らしい動きをするなという印象。
【都知事選2024】AIによるマニフェストへの質疑応答システム「AIあんの」の裏側を公開します!
東京都知事候補の安野たかひろさんの政策・・・の話ではなく、安野さんの政策を学習したAI応答システムが、本人のマニフェストドキュメントを参照し、さらに本人の声色で応答するという仕組み。
有権者の質問への回答という意味でも、候補者本人が捕まらずとも答えられる非常に優れた仕組みだと思いますが、対象を会社役員に置き換えても「AI役員」として使えそうで、ビジネス活用の可能性も含めて注目しています。
安野たかひろさんの政策・・・の話ではこれもなく、マニフェスト議論用に公開されたGitHubレポジトリのCI(継続的インテグレーション。手動確認作業を減らし、開発の生産性を上げるための取り組み)が素晴らしい、という話。
イシューやコメントが投稿される度に、以下のCIの仕組みを導入。非常に低コストかつ実用的で参考になると開発者界隈で話題に。
不適切な文章や画像ではないかをOpenAIの技術を利用して判定。例えば画像であればGPT-4oに「この画像が暴力的、もしくは性的な画像の場合trueと返してください。」と聞く。
類似イシューの重複判定。文章の意味検索で類似イシューを検索し、GPT-4oで重複判定。重複している場合はイシューを突合。