Nishika AI News Letter - Issue #52
テキスト以外の情報を生成AIが扱えるようになっていく動向が注目です。ChatGPTのAll Tools機能導入や自然言語クエリで音源分離する研究などを見るに、1つの生成AIが様々な形式のデータを扱え、様々なタスクをこなせるようになってきた中、「どんなお願いの仕方をしても、よしなに適切な手段でタスクをこなしてほしい」という要望が顕在化してくるのが次の段階だと思います。
一方で、米国ではバイデン大統領によるAIに関する大統領令発布やOpenAIのPreparedness Challengeに見られるように、「AIが広まるのは当たり前、今気にしなければいけないのはリスクの統制だ」という動きが本当に活発に見えて、日本との温度差を感じます。一AI開発企業としては、周囲がリスクで騒がしくなるくらいにAIを当たり前の存在としていかなければいけない、と感じます。
Promotion
弊社ではオンプレミスAIソフトウェア “SecureMemo” を提供していますが、SecureMemoの音声認識・話者特定の精度の高さをご評価いただくお客様の声が多いことから、SecureMemoのクラウド版と言える “SecureMemoCloud” のリリースを決定し、無償トライアル版を公開いたしました!
単なるSecureMemoのクラウド移植版ではなく、会議録の特性に特化したAI要約機能も付加している点も特徴です。
無償でお試しいただけますので、こちらで是非その精度を体感ください!
Nishikaは、世界最高水準のAIを搭載しつつ、オンプレミス・オフライン環境で動作するAI文字起こしソフトウェア “SecureMemo” を提供しております!
音声認識AIとしてOpenAI Whisperを搭載、オリジナルWhisper由来のバグ修正など実用可能な水準に改修した上でご提供しています。さらに、独自開発した話者特定AIも搭載しています。
ChatGPTの使い方について、とても追いきれないほどの速さで日々報告がされる中、結局ビジネスで使える使い方は何なのか?とお考えの企業の皆様向けに、ChatGPT研修を提供することとしました!
ChatGPTの基本原理から、有用性だけではなく把握しておくべき危険性、業務で効果を生み出す活用方法までお伝えした上で、ワークショップ形式でお客様自身にとって有益なChatGPTの使い方を編み出すプログラムです。
弊社が実際に日々行なっている活用方法をお伝えしたり、コンペを通じて蓄積した危険性に関する知見をお伝えするなど、弊社独自の実践的コンテンツとなっております。
ご関心あれば、是非お声がけください!
Nishikaがデータ分析コンペティションを通じて蓄積した画像検索AIに関する知見をもとに開発した、最高水準の精度を誇るEC向け画像検索AI「Nishika Image Finder」をリリースいたしました!
約50万件の商品をお持ちのあるEC事業者様のデータを活用した検証にて、MRR (Mean Reciprocal Rank), Recallのいずれの指標でも、GoogleのVision API Product Searchの水準を10ポイント近く上回りました。
Application
New Version Of ChatGPT Gives Access To All GPT-4 Tools At Once
これまでのChatGPTはWeb検索をさせたければBingのブラウジングモード、画像を扱わせたければDALLE3、などとユーザーが用途に応じて選択する必要がありましたが、どのモードを採用するかをChatGPTが自律的に判断してくれる機能が導入されます。一部ユーザーから徐々に使えるようになっているようです。
生成AI以前から、まずはじめにユーザーの意図をテキストなどから分類するAIがいて、個別ユースケースに誘導する仕組みはありましたが、それがChatGPTにも適用されました。AI側が自律的に使う道具を選んで対応する世界の第一歩という感じです。
バイデン大統領がAIに関する大統領令を発布。特にAIを開発する一定以上の規模の企業に対して、政府との情報共有を義務付けている点が話題になっています。
AI開発企業の目線では、自社の機密情報を開示させられる可能性があり脅威ですが、米国が生成AIをはじめとするAIが今後当たり前に普及していくと思っていることが見て取れる動きですね。
ちなみに本気か冗談かわからないニュースとして、政府との情報共有を嫌って公海上にGPUの計算クラスタを用意し、ここでAIの学習を行うサービスを展開しようとしている団体がいるようです。
ちょっと笑ってしまいましたが、こんなサービスに本当に需要があるとすれば、日本の感覚以上にAIの開発競争は苛烈なものになっていると思った方が良さそうです。
「実務に使えるプロンプト技術集」。プロンプトエンジニアリング自体が一大研究分野で、日々新たな研究成果が発表されている状況ですが、我々がビジネスの現場で使うときに当たり前に知っておくべき技術をまとめた記事。
ちなみに、同様にプロンプト技術についてまとめた論文もあります。
今後プロンプトエンジニアリングをお願いする人は「良い感じになるように頑張って!」ではなく、チェックリスト化して「このリストのアプローチ試した?」でマネジメントしたいところです。
ソフトバンク、3500億パラメーターの国産LLM構築へ 「国内最大級」生成AI計算基盤、稼働スタート
パラメータ数350Bの国産LLM。 計算基盤もさることながら、データをどう集めるのか、LLMをアラインメントさせるための人材はどこから調達するのか(日本人を使うのではコストが高すぎる?)、気になります。
ELYZA、東京海上日動の事故対応におけるお客様応対業務で言語生成AIの活用に成功
オペレーター単独での回答作成時間・言語AIの回答素案を活用した回答作成時間を比較していますが、コンタクトセンター向けに過去の応対履歴を検索するソリューションは昔からあり、そことの比較が気になります。
ELYZAさんが関わる価値はやっぱり独自LLMだと思うので、そこの価値がどういうところに発揮されたのかも追っていきたいところ。
Technology
「話し声と足音だけ抜き出して」など、複雑な言語指示で音を分離できるモデル 英国チームが開発
自然言語クエリで音源分離を行う研究。
こういうタスクを自然言語でやる一番の目的は、日々の言語コミュニケーションの中で非言語データを取り扱えるようにすること。平たく言えば、ChatGPTで音声が取り扱えるようにするための第一歩でもあると思います。
Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
資産運用会社 BlackRockによる研究で、LLMで決算報告書の質疑応答から情報抽出をするもの。メタデータをRAGにおける情報選択フィルタとして用いることで,LLM の誤りを軽減
Editor Picks
もはや必須? 企業の「AIを使いました」報告 米国では“明示なし”フェイク音声が物議に
ニューヨーク市長が市民にかけた多言語の電話が、TTS(Text2Speech)のAIが使わていたとのこと。
メッセージが幅広い人に伝わるのは良いことではと思ったが、「新しい市長はスペイン語が話せるんだ」とヒスパニック系の人々が思ってしまい、再選に有利になる、という話を聞いて考えさせられてしまった。
OpenAIのPreparedness Challenge。OpenAIの各種モデルに無制限にアクセスできたとして、影響の大きいモデル悪用のシナリオをsubmit。上位10チームに25000USDのAPIクレジットを付与。
グーグル、AI新興企業アンソロピックに20億ドル追加投資へ-関係者
MS vs Google/Amazonの代理戦争感が益々増しますが、投資額が何に使われるか気になりますね。 大量のデータが自然と収集されるようにGoogleのスマホにClaudeを標準搭載するとかが重要そう。