Nishika AI News Letter - Issue #43
GPT APIのアップデートが最大のニュースでしょうか。特にFunction Callingは、何が嬉しいのかイマイチ伝わりにくいかもしれませんが、GPTと他システムとの接続の可能性を大きく広げる非常にインパクトのあるアップデートです。Googleのバーチャル試着機能、音声生成のVoicebox、動画生成のRERENDER A VIDEOなど言語以外の領域でのアップデートも続々ときています。
一方で、生成AIを実用的で利益の出るサービスに昇華させられている企業は一握りで、「これで何でもできます」ではなく、Synthesiaのように用途を絞って実用水準をクリアすることに専念するのが、事業家目線では重要と感じます。
Promotion
ChatGPTの使い方について、とても追いきれないほどの速さで日々報告がされる中、結局ビジネスで使える使い方は何なのか?とお考えの企業の皆様向けに、ChatGPT研修を提供することとしました!
ChatGPTの基本原理から、有用性だけではなく把握しておくべき危険性、業務で効果を生み出す活用方法までお伝えした上で、ワークショップ形式でお客様自身にとって有益なChatGPTの使い方を編み出すプログラムです。
弊社が実際に日々行なっている活用方法をお伝えしたり、コンペを通じて蓄積した危険性に関する知見をお伝えするなど、弊社独自の実践的コンテンツとなっております。
ご関心あれば、是非お声がけください!
AI News Letterでは各社の提供する最先端AIをご紹介し続けていますが、News Letter中でも何度か取り上げている、音声認識AI OpenAI Whisperを搭載したソフトウェア “SecureMemo” をリリースいたしました!
Whisperを搭載・チューニングし、名実ともに世界最高水準の精度を示しながら、オンプレミス・オフライン環境で利用可能でありセキュアな用途に有用な点が特徴です。
Application
Function calling and other API updates
GPT APIの大幅アップデートがOpenAIから発表。一部APIは価格改定で安くなり、さらにGPT-3.5のトークン数が4kから16kに拡張。記事タイトルにもなっているFuntion Callingは、簡単に言うとこちらの指定したデータフォーマットで出力してくれるというもの。開発者でない方にはイマイチ恩恵が伝わりづらいかもしれませんが、今までのGPTの出力は定型的でないテキストであったのでそれを受け取って後続のシステムで処理する点に困難がありました。それが改善されたということは、GPTを他システムに繋ぎこむハードルが格段に下がり、活用の幅が圧倒的に広がるという、実は今回のアップデートで最大のインパクトと言って良いものになります。Function Callingの実用例・詳しい解説はこちら。
グーグルの新AIモデル「PaLM2」、どれほどパフォーマンスが改善されたのか? GPT4との比較
Googleが新たなLLM「PaLM2」をリリース。前モデルとなる「PaLM」よりも約5倍のテキストデータ(トークン)を学習に使用しつつも、そのサイズ(パラメータ数)は小さくなっており、より効率化されたモデルとなっている。公式発表や公式テクニカルレポートでは、PaLM2は、常識的推論、論理的解釈、数学、多言語会話、コーディングで大幅な改善が見られたと報告されている。
以前のBardも使った経験があるが、今回改めて実際に使ってみてのChatGPT(GPT-4)との比較として、最新の情報を知っている点は優れているが、一方で回答の正確さ・量はChatGPTに劣っていると感じた。一方で複数の回答案を出してくれたり、コードはGoogle Colabへの直接のエクスポートが可能だったり、アプリケーション全体として、GPT-4にはない良さがあるのも事実。これで精度が追いついてくれば、いよいよLLM自体もアプリとしての機能を競い合う世界になってくるのかもしれない。
OpenAIのGPT-4を使った「AI家庭教師」が投げかける波紋…著名な無料オンライン学習「カーンアカデミー」がベータテスト中
生徒の質問に答えるGPT-4を使ったAIチャットボットKhanmigo。回答のスタンスに面白さがあり、質問しても答えをすぐ教えてくれるのではなく、あくまで生徒が自分で答えに辿り着くサポートをしてくれるのみとなっている。まさに家庭教師。
さらに、生徒だけでなく教師の支援ツールにもなっており、立場ややりたいことをインプットすると授業の組み立て方やレッスンの概要を作ってくれる。
Virtually try on clothes with a new AI shopping feature
GoogleがAIを活用した"バーチャル試着機能"を公開。1枚の洋服の画像を与えると、様々なポーズ、体型、肌の色に合わせた試着画像が生成される。服のシワや影、密着具合なども高い精度で再現している。今は米国内かつ女性用トップス限定。
Nvidia-backed platform that turns text into A.I.-generated avatars boosts valuation to $1 billion
テキストもしくは音声データの原稿を入力するだけで、本物と区別がつかないほどのAIアバターが話している動画を生成できるSynthesiaがユニコーン入り。社内研修やマーケティング素材などの用途に絞り、生成AIを実用的なサービスに昇華させた稀有なAI企業。
地に足のついたデータ分析の事例もpick。Facebookの通知に関する実験と分析。通知を減らして重要なものに絞ると、短期では訪問頻度は下がるものの長期ではリテンションが改善。顧客体験とリテンションというKPIが両立することを立証。
Technology
Meta、音声生成AIモデル「Voicebox」発表 ノイズ除去や言い間違い修正、多言語会話など多機能
Metaは新たな音声生成AIモデル「Voicebox」を開発したと発表。素材となる音声とテキストを入力すると、入力した声で入力したテキストを読み上げてくれる。ノイズの除去、言い間違いの補正、同じ声のまま、ある言語のスピーチを別言語に変換するなど、驚きの機能も。
ただし、Metaは論文やサンプル集は公開したが、アプリやソースコードは公開していない。Text2Speechの技術の悪用を懸念して慎重な対応をとっている。
ブレない動画を生成する「RERENDER A VIDEO」。動画に対して「ゴッホ調で」とテキストプロンプトで指示をすると、新たな動画に変換してくれる。今まではブレがあり高品質なものができなかった。VIDEO2VIDEOが進化している。
LTM-1: an LLM with a 5,000,000 token context window
500万ものトークン上限(GPT-4が約3.2万)を持ち、50万行のコードをカバーできるプログラミング特化LLM「LTM-1」が登場。これはGithubのレポジトリを完全にカバーするのに十分な量で、今後はレポジトリ単位でのリファクタリングも一発でできるようになりそう。現在はwaitlistに登録する形。
Editor Picks
AIというより、AIの学習データ・参照データになるデータの整備というトピックですが、先々週くらいにTwitter界隈で住所の名寄せが話題になりました。本記事では如何に古くて新しい課題であり、今も解決困難な課題であることが説明されています。「静岡県下田市2ー4ー26」の例は思わず笑ってしまいますが、名寄せする側からすれば全く笑い事ではありません。
その他、氏名や生年月日の名寄せについてもこちらの記事で解説されています。いろんな渡辺さんがいることは理解していたつもりですが、140種類あるとは知りませんでした。。。