Nishika AI News Letter - Issue #65
まずは弊社から発表した、日本のビジネス会議音声に特化し最高水準の精度を誇る音声認識AI「shirushi」のニュースからPick。実際の会議音声をテストデータとした精度比較で、間違いなく日本の商用サービスで最高水準の精度であることが確かめられています。
とは言え、AI議事録ツールが音声認識の精度で競うのは、早々に時代遅れな争いになると考えています。発話を聞き取れるのは当然で、「実際に会議録に落とす時はこの発言は不要だな」「この発話は滑舌が悪くて聞き取れないけどこの人はこう言いたかったんだよな」と言った点が汲み取れるAIが今後は必要です。ただ発話された音声をテキストに変換する、を超えたところを我々は目指していきます。
セキュリティ要件から、ローカルLLMで今のGPT-4水準のタスクはできないか、という問い合わせを多数いただきます。弊社によく質問いただくのが最も困難なタスクの1つである要約ということもあり、クラウドで利用できるLLMとローカルLLMの性能は未だ大きな差があると言わざるを得ませんが、Metaが発表したllama3は光明が一筋見えたという印象。
LLMによる推論に特化したチップ(LPU)のGroq登場もあり、現代LLMが乗り越えたい2大要件、回答速度・オフライン化にも進捗が見えてきています。
Promotion
SecureMemoCloudは、オンプレミスAIソフトウェア SecureMemoに続きご提供を開始した、世界最高水準の文字起こしAIを搭載した会議録作成支援サービスです。
単なるSecureMemoのクラウド移植版ではなく、会議録の特性に特化したAI要約機能も付加している点も特徴です。
24/4/3に正式版リリースを迎え、現在進行形で追加機能を搭載中です。
さらに将来は、文字起こし結果をもとに会議アシスタントとしてあなたをサポートする生成AIの搭載を目指しています。
SecureMemoは、世界最高水準の精度94.7%のAIを搭載しつつ、オフライン環境で処理が完結するAI文字起こしソフトウェアです。
「精度の圧倒的な高さ」「オフライン完結」の2つを両立しているサービスは他になく、警察・医療機関・民間企業の経営企画/IR/人事部門様といった皆様にお使いいただいています。
音声認識AIとしてOpenAI Whisperを搭載、オリジナルWhisper由来の課題を解決すべく独自チューニングを行い、実用可能な水準に改善を行った上でご提供しています。
さらに、独自開発した完全自動の話者特定AIも搭載しています。
Application
日本のビジネス会議音声に対して最高水準の精度を誇る音声認識AI「shirushi」をAI議事録ツールSecureMemoCloudに搭載
弊社Nishikaから、日本のビジネス会議音声に特化してさらに性能を高めた音声認識AI「shirushi」をリリース。実際の会議音声をテストデータとした精度比較で、間違いなく日本の商用サービスで最高水準の精度であることが確かめられています。AI議事録ツールSecureMemo/SecureMemoCloudに既に搭載されています。
とはいえ、AI議事録ツールが音声認識の精度で競うのは、早々に時代遅れな争いになると考えています。発話を聞き取れるのは当然で、「実際に会議録に落とす時はこの発言は不要だな」「この発話は滑舌が悪くて聞き取れないけどこの人はこう言いたかったんだよな」と言った点が汲み取れるAIが今後は必要です。ただ発話された音声をテキストに変換する、を超えたところを我々は目指していきます。
「実務で後一歩使えない」を解決するLLM・RAG ~質問回答に必要なドキュメントを適切に検索する~
「実務で後一歩使えない」を解決するLLM・RAGシリーズ、第2弾。
「LLMを社内ドキュメント検索に入れたんだけどうまく回答してくれないんだよな」の半分以上は、LLMというより検索の問題という体感があります。もしかすると、検索の部分は実は生成AIでは全くなく、従来からあった検索技術を適用しているんだ、ということも現場ではそこまで知られていないかもしれません。自社のユースケースに応じて、どんな検索技術を活用するかが重要です。
Build the future of AI with Meta Llama 3
Metaが提供するOSSの生成AIモデルLlama3。「GPT-4に近い性能」などという謳い文句はベンチマークスコアの話であり、実務とは全く切り離して検証すべきだと本Letterでも何度も繰り返してお伝えしていますが、弊社でニーズのある要約タスクをやらせたところ、GPT-4レベルとは全くなりませんが、日本語は崩れておらずさほど嘘が含まれない要約を返してくれました(これまでのモデルではそれすら無理だった)。少パラメータである8Bのモデルなら、VRAM24GBのGPUがあれば動くので、企業でも十分導入可能な水準。
ちなみに、Microsoftからほぼ同時期に発表された同じくOSSの生成AIモデルPhi3では、AI要約タスクは全く対応できず。
Groqは、LLMの推論を高速化するために設計された言語処理ユニット(LPU)を開発している。OSSのLlama3をGroq上で動かすと、GPUで動かすよりも圧倒的に速いこともあり話題となっている。はじめは半導体として売ろうとしていて苦戦していたが、GroqCloudというクラウドサービスをリリースしたことでAPI経由で利用できることから開発者が雪崩れ込み、ビジネスが拡大しているというストーリーも面白い。
個人的には、ビジネスパーソン向けメディアのNewsPicksで取り上げられるのが予想以上に早かったという印象。NewsPicksの技術面のアンテナも素晴らしい。
Technology
A Careful Examination of Large Language Model Performance on Grade School Arithmetic
最近のLLMは、評価用のベンチマークと酷似したデータを学習しており、いわばカンニングに近い状態となり、ベンチマークスコアが高く評価され過ぎていたのではないか、という指摘を検証。完全に新規ベンチマーク(GSM1k)を作り評価すると、ほとんどのLLMの性能が下がった。これは残念だが、体感とは合っている。
最近のOSSモデル勢は軒並み評価が下がっているが、GPT-4とClaudeは下がっておらず素晴らしい。Llamaも耐えている。
Editor Picks
【参戦】動画編集の王者Adobeは「生成AI競争」に勝てるのか
Adobeが動画生成AIツールを構築中だが、ライブデモが避けられプロモーションビデオして見せていないことなどから、自信のなさが垣間見える、という指摘。OpenAIなどは著作権によって保護されたコンテンツでAIを訓練し、高い精度を示せている代償として知的財産権侵害で訴えられているのとは対照的、とのこと。
この記事の内容をそのまま信じれば、利用規約違反を顧みずオープンデータを大量に収集しない限り、今のユーザーが満足する水準のサービスは出せないということ。
法律を遵守すればビジネスで負けるという構造は辛すぎるが、この状況をひっくり返す手立てもない気がします。
謎の高性能AIモデル「gpt2-chatbot」がChatbot Arenaに登場、GPT-4.5かGPT-5なのではないかと話題に
ユーザーがログインせず様々なLLMとチャットしてその出力を評価できるサイトChatbot Arenaで、GPT-4.5ないしGPT-5と思われるモデル「gpt2-chatbot」が現れたとのこと。gpt2-chatbotの性能の高さ、gpt-4で見られるのと同じバグが発生したことから、GPT-4.5である可能性が指摘されている。期待は膨らむが、真実は不明。(5/6現在、Chatbot Arenaでgpt2-chatbotへのアクセスはできなくなっている)