Nishika AI News Letter - Issue #70
企業内の巨大データ資源を利用した企業専用のLLM開発の流れがきていることがパナソニックのニュースから分かります。これは以前のLetterでも言及した流れですが、もう一歩先を考えると、LLMを一企業で開発・運用するだけのROIは得られるのか?というところはまだ結構疑義があるかなと思っています。そもそもOpenAIも黒字化する道筋はまだ見えていませんしね。
個人的には、特に音声とテキストのマルチモーダル処理ができるようになり、今のように限られた人だけでなく多くの人の日常で(スマホのように)価値を発揮できるようになったとき、payするかどうかが分岐点と思っています。
Promotion
SecureMemoCloudは、世界最高水準の精度96.2%の音声認識AIを搭載した会議録作成支援サービスです。
評価用に作成された綺麗な読み上げ音声ではなく、リアルなビジネス会議音声について他社の追随を許さない高精度を誇るAIモデル「shirushi」を搭載している点が最大の特徴です。
会議録の特性に特化したAI要約機能も備えており、最新のGPTモデル「GPT-4o」を搭載しております。
将来は、文字起こし結果をもとに会議アシスタントとしてあなたをサポートする生成AIの搭載を目指しています。
SecureMemoは、世界最高水準の精度96.2%の音声認識AIを搭載しつつ、オフライン環境で処理が完結するAI文字起こしソフトウェアです。
「精度の圧倒的な高さ」「オフライン完結」の2つを両立しているサービスは他になく、警察・医療機関・民間企業の経営企画/IR/人事部門様といった皆様にお使いいただいています。
評価用に作成された綺麗な読み上げ音声ではなく、リアルなビジネス会議音声について他社の追随を許さない高精度を誇るAIモデル「shirushi」を搭載している点が最大の特徴です。さらに、独自開発した、声紋登録不要で完全自動の話者特定AIも搭載しています。
Application
パナソニック、1000億パラメータの社内専用LLMを開発へ AIスタートアップ・ストックマークと協業
以前のLetterでも、企業内の巨大データ資源を利用した企業専用のLLM開発の流れがきそう、というトピックを取り上げましたが、パナソニックが動いています。
学習も運用も大きなコストがかかる一方、基盤となるLLMも日々進化していき「今だったらこっちのLLMを基盤にしたい」と思う日が必ずくるので、巨大すぎるサンクコストで身動きがとれなくならないよう、うまくLLMを差し替えられるような作り方をしていかないといけません。難しい課題に挑まれています。
テキストを入れるだけで、数分の解説動画を自動生成してくれるサービス。
「マルチモーダルLLMについて」と入れて作られた解説動画は以下。
https://no-lang.com/video/c0528574-1f11-4322-abc0-685824d2042f?type=vod
飲み会の席に「AI幹事」ベンチャー開発 乾杯の音頭も率先、グラスの空き具合を把握し注文提案
ChatGPTと音声対話していると、話をただ聞いてほしいのに問題解決しようとしてくるように、「空気を読む」はナイーブにAIに任せてもなかなかできないことの1つです。
如何にプログラム設計するかが肝となりそう、イコール開発者が如何に「空気を読めるか」がユーザー体験に直結してきそうです。
Technology
How Does Quantization Affect Multilingual LLMs?
次々に新たなLLMが発表される昨今ですが、その多くは一般の環境で動作させるのは難しい巨大なモデルとなっています。そのようなときに有用な技術として量子化があります。モデルの重みなどを低ビット表現に変換する技術で、推論速度の向上やモデルの軽量化が実現できる一方、性能とのトレードオフとなります。
本論文は、英語以外の言語についての量子化によるモデル性能への影響を調べたものです。傾向としてはどのタスクにおいても量子化することで性能劣化が認められますが、例えば翻訳タスクにおいては量子化後の方が性能がわずかに良いものも認められました。
環境の制限でどうしても量子化せざるを得ない、というときの性能予測の一助となります。
BM42: New Baseline for Hybrid Search
LLMの知識を拡張して回答を生成するRAG(検索拡張生成)は、意外にLLMではなく検索のところがボトルネックとして性能向上の壁にぶつかります。
ユースケースによっては、一般によく利用されているセマンティック検索(意味検索)よりもキーワード検索の方が有用な場合があり、しかしセマンティック検索が有用なシーンもあるのでハイブリッド検索が検討され・・・という過程は誰しもが経ています。
この記事は、キーワード検索でよく使われる手法「BM25」をセマンティック寄りに改変した手法「BM42」を提案しています。
もっとも、BM25の精度を超えたという評価結果には疑問が呈されている現状です。
ちなみに、RAGの取り組みで誰もが通る道とするXのポストが共感しかありません。私としては、検索の精度はいきなり上がることはないので、さまざまな検索手段で関連性のありそうなドキュメントを大量に集めてきて、その全てをプロンプトに入れ込む手法が結局最も実用的では?と感じています。
その場合、入力トークンが嵩むのでコストが一番の問題になってきますが。
Editor Picks
お得すぎて怖い…6つの最新生成AIを無料で同時に利用できる、GMO「天秤AI」の衝撃
6つの生成AIを無料かつ同時に利用できるという破格のサービス。
当然ながらマーケティング施策で、一人当たり獲得コスト(CAC)で見たときに、API使用料を払っても安いということ。その投資判断ができる体制が良いですね。