Nishika AI News Letter - Issue #45
Googleの生成AI Bardがマルチモーダル対応(テキストだけでなく画像を入力として受け取れる)したり、ChatGPT Code Interpreter Pluginを使ってデータ分析や動画の変換を行うことができたり、生成AIの守備範囲がさらに広がった2週間でした。
人間と同じように学習しているわけではないので、「1本のバナナ問題」のように、あんなに凄いことができてそれできないの?と思うようなことが実はできないことも多いのですが(簡単な画像を生成できなかったり、集計表を読み取れなかったり)、生成AIを必要以上に怖がらず・盲信せず、使い倒す姿勢が重要だと日々感じます。
Promotion
Nishikaがデータ分析コンペティションを通じて蓄積した画像検索AIに関する知見をもとに開発した、最高水準の精度を誇るEC向け画像検索AI「Nishika Image Finder」をリリースいたしました!
約50万件の商品をお持ちのあるEC事業者様のデータを活用した検証にて、MRR (Mean Reciprocal Rank), Recallのいずれの指標でも、GoogleのVision API Product Searchの水準を10ポイント近く上回りました。
AI News Letterでは各社の提供する最先端AIをご紹介し続けていますが、News Letter中でも何度か取り上げている、音声認識AI OpenAI Whisperを搭載したソフトウェア “SecureMemo” をリリースいたしました!
Whisperを搭載・チューニングし、名実ともに世界最高水準の精度を示しながら、オンプレミス・オフライン環境で利用可能でありセキュアな用途に有用な点が特徴です。
ChatGPTの使い方について、とても追いきれないほどの速さで日々報告がされる中、結局ビジネスで使える使い方は何なのか?とお考えの企業の皆様向けに、ChatGPT研修を提供することとしました!
ChatGPTの基本原理から、有用性だけではなく把握しておくべき危険性、業務で効果を生み出す活用方法までお伝えした上で、ワークショップ形式でお客様自身にとって有益なChatGPTの使い方を編み出すプログラムです。
弊社が実際に日々行なっている活用方法をお伝えしたり、コンペを通じて蓄積した危険性に関する知見をお伝えするなど、弊社独自の実践的コンテンツとなっております。
ご関心あれば、是非お声がけください!
Application
チャットAIで画像入力が可能に。ChatGPTより一足早くやってきたGoogle Bardマルチモーダルの使い方(Google特別対策室)
Googleの生成AI Bardが、GPT-4に先駆けてマルチモーダル、つまりテキストだけでなく画像の入力も受け取るようになったとのこと。日本語版ではまだ未対応だが、画像を貼って「この画像について、XXの観点で評価して」という指示ができる未来もすぐそこに。
ChatGPTのCode Interpreterとは何なのか?何ができて何がスゴいのか?
ChatGPTが、かねてから実装予定を発表していたCode Interpreter Pluginをついにリリース。これまでコードの生成までしかできなかったChatGPTに、コードの実行まで行わせることができる。内部では様々なPythonライブラリを活用していて、データの分析や可視化、OCR、コードリポジトリ丸ごとアップロードしての修正、GIF映像にエフェクトを加えながらMP4に変換、といったことができ、ChatGPTの行動範囲がさらに一段広がったと言える。
ジェネレーティブAIが抱える問題を浮き彫りにする「1本のバナナ問題」とは?
画像生成AIを活用した際に直面する「1本のバナナ問題」について。「1本のバナナ」というプロンプトをいくら与えてもバナナ2本1セットの画像ばかりが描画されてしまい、実はバナナ1本だけを描かせるのは難しい、という話。これはバナナ1本だけが写った画像を学習していないからではないかと推察されている。所望の画像を得るために画像生成AIを使う、という用途は実は向いていないことも多い、という示唆。
弊社でも経験のある実例として、画像に対する異常検知の学習のために、傷の入った対象物の画像をAIに生成させようとしても、所謂日常的な傷というよりも非現実的な「かっこいい」感じの傷が入った画像ばかりが生成されてしまうという問題がありました。
Technology
Retentive Network: A Successor to Transformer for Large Language Models
Transformerの後継となるべく新たに提案されたRetentive Network(RetNet)。アーキテクチャとしては並列処理と再帰構造を組み合わせ、メモリ効率・推論効率が改善しているほか、2B以上の規模になると精度もTransformerを上回り始めるとのこと。これまでも高速なアーキテクチャは提案されていたが、精度も追いついたという発表は初めて。
Exploiting Diffusion Prior for Real-World Image Super-Resolution
低解像画像を高解像化する技術超解像について、text2imageの生成モデルに含まれる事前知識を活用し、トレーニングコストを抑え、さらに画像のサイズに関係なく高解像化することを実現したとのこと。
Editor Picks
AIの教師データを作成する “Data Labellers” にインタビューし、不安定で困難の多い生活を克明にした記事。
Centaur Labs, Surge AI, Remotasksといったデータラベリングサービスを提供する企業で働くワーカーは、資格試験・トレーニング・パフォーマンス監視を受けながら日々のデータ作成業務を行う。データのラベリング作業自体、数多の例外についてどう判断すべきなのか?悩みながら行う点がストレスフルで、また仕事も定常的にあるものではなく散発的にあるものなので、労働環境としては決して良いものではない。
一方で、その待遇は、ケニアでは時給1ドルから、米国では時給25ドルからと必ずしも良いものではないとは言え、専門知識が必要なタスクではさらに高給が払われる場合もある。
生成系AIの登場で、実用レベルのAIの開発に際して、これまでよりも少数のデータで済むようになってきた中で、少数のデータでも専門知識が必要なタスクに対応できるアノテーターの価値は、引き続き高いものとなりそうです。