Nishika AI News Letter - Issue #63
生成AIを使い、自然言語の指示でWebUIが作れてしまうcreate.xyzが話題です。触って見るとこれはすごい!となると思いますが、一方で世で成功を収めているWebアプリを作るまでには結構な壁が存在することも体感できると思います。今までは壁の体感ですら非技術者では難しかったので、まずは触って見ることをおすすめします。
じゃらん上で生成AIを通じて旅行先や宿のレコメンドをしてもらえる体験では、実用水準の対話型UIができたことで、従来型UIでは把握できなかったニーズを捉えられる点が大きな進歩と思います。「春に旅行すると気持ち良い関東圏のエリアは?」と聞けるようになったのは、ユーザー・サービサー両方の目線で素敵なことです。
Promotion
SecureMemoCloudは、オンプレミスAIソフトウェア SecureMemoに続きご提供を開始した、世界最高水準の文字起こしAIを搭載した会議録作成支援サービスです。
単なるSecureMemoのクラウド移植版ではなく、会議録の特性に特化したAI要約機能も付加している点も特徴です。
24/4/3に正式版リリースを迎え、現在進行形で追加機能を搭載中です。
さらに将来は、文字起こし結果をもとに会議アシスタントとしてあなたをサポートする生成AIの搭載を目指しています。
SecureMemoは、世界最高水準の精度94.7%のAIを搭載しつつ、オフライン環境で処理が完結するAI文字起こしソフトウェアです。
「精度の圧倒的な高さ」「オフライン完結」の2つを両立しているサービスは他になく、警察・医療機関・民間企業の経営企画/IR/人事部門様といった皆様にお使いいただいています。
音声認識AIとしてOpenAI Whisperを搭載、オリジナルWhisper由来の課題を解決すべく独自チューニングを行い、実用可能な水準に改善を行った上でご提供しています。
さらに、独自開発した完全自動の話者特定AIも搭載しています。
Application
ノーコードでWebUIを作成できるツールだが、生成AIとの連携機能が豊富(ChatGPT, Stable Diffusion,Anthropic)で自然言語のみの指示でUIが作れてしまうことで話題に。
さて、いよいよ「生成AIの力も加わったノーコードツールで誰でもアプリを作れる時代が到来するのか!?」というと、まだそうではないと私は考えています。
例えばこちらやこちらを見ていただくとわかりますが、少し凝ったアプリでは、生成AIに対する指示は緻密かつ構造化されていて、Webアプリでそもそも何ができるのか、何を伝える必要があるのかの深い理解が前提です。その力は、既存の優れたエンジニアが有している力でもあります。
じゃあノーコードツールは限られた人にしか使えないかというと、私は別の可能性を感じていて、ビジネス側からエンジニアに依頼を伝えるときに力を発揮すると思っています。
ビジネス側から「こんな感じで」とテキストや口で伝えても、エンジニアから「具体的にどういうイメージ?」と返され、結果figmaなどのツールでデザインを起こす必要がある、というのはお決まりのパターンですが、
ビジネス側で自然言語でノーコードツールに指示を出しながらWebUIを作っていくことができれば、互いにコミュニケーションコストを抑えられる可能性が高いと思います。
Azure OpenAI Service を活用した対話型 UI を「じゃらんnet」に試験実装、従来型検索ではわからなかったユーザー ニーズが短期間で把握可能に
じゃらんで実装されている、対話型で旅行エリア・宿を推奨してくれる機能(こちら)。
最も面白い事実は、対話型UIであることで、テーマ・目的軸や移動方法軸で旅行先を探したいニーズが高いことが分かり、従来型UIの制約の中で抜けてしまっていたニーズを捉えられた点だと思います。
ユーザー目線でも、普段使っている自然言語で入力できることで、「UIに合わせて自分のニーズを整理しよう!」と肩肘張ることなくニーズを伝えられるのが大きな利点です。
また細かな工夫として、悪意のある質問「プロンプトインジェクション」に対して、「旅行に関係ある質問か」を生成 AI で判定してスコアリングした上で、スコアが低い場合には「ご要望には答えられません。どのような旅行をご希望ですか?」などの定型文を返すようにしている点は、他でも応用可能な工夫です。
Technology
競技プログラミングという界隈で著名な技術者の方がまとめられた、LLMの現在について。技術的な観点で詳しいですが面白いトピックが多数詰まっています。
高品質なデータセットがあれば、1/10のモデルサイズ、1/100のデータでも性能が上回れる
LLMの学習で最も差がつくのは計算資源量で、米国のスタートアップでは大規模なGPU調達が続いている
現在のLLMの学習ではデータを1度しか使わないが、4度までなら新規データとほぼ同様の学習価値がある
などなど
Corrective Retrieval Augmented Generation
RAGでは、LLMが外部知識として参照すべく検索してきたドキュメントが誤っていた場合、回答の誤りを助長する問題がある。そこで本論文のアプローチCRAGでは、ドキュメントの内容が正しいものかチェックする機構を入れ、誤っている場合はWebから追加の知識を取得してから回答することで回答精度を高めている。
The Power of Noise: Redefining Retrieval for RAG Systems
RAGシステムを構築する際に、データベースに無関係なドキュメントを混ぜた方が検索精度が上がる可能性。
一見直感に反するこの結果は、関係性の高い文書ばかりだとモデルの注意が分散されてしまうためであったり、無関係な情報があった方が関係性の有無のフィルタリング能力が上がるため、と説明されています。
Editor Picks
OpenAI、日本を含む一部地域でChatGPT利用をサインアップ不要に
ChatGPTがサインナップなしに使えるように。サインナップがないということはユーザー情報が取れない、ユーザへの連絡手段がなくなりますが、それでも「まずは使ってもらって価値を感じてもらうことが最優先」という判断です。
ChatGPTの価値なんてこれだけ騒がれてるんだから自明だろう、と思ってしまいがちですが、触ってない人は触ってない、というのは正しいマーケットの理解だと私も実感しています。
MSがInflectionを事実上買収(人材引き抜き)し、OpenAI, Mistralに続き生成AI企業との関係性を多様化している話。
戦略としては当然の話のように思いますが、この背景に生成AI企業の勝ち負けがはっきりしてきていることが気になります。「個人に寄り添いより人間らしい回答をする」を目的としたサービスPiが劣勢なのは、多言語対応が十分でないのと、「人間らしい」で収益化するには技術が追いついていないからと推察します。