Nishika AI News Letter - Issue #60
OpenAIの発表したText2Videoの新技術Soraが大変話題になっています。Xでトレンドになっていただけでなく、発表から間もなくテレビニュースでも取り上げていて、マスメディアの生成AIへのキャッチアップスピードも相当に上がっているのかと思いました(出力が動画という「映える」ものだったからかもしれませんが)。
ところで、OpenAIの驚くべき発表が出る度に在野で頑張っているAI技術者に「俺がやってること意味ないんじゃないか・・・」と虚無が広がる現象があり、個人的に気になっています。
最強の解決策の1つは「俺は趣味でやってるからOpenAIがどうしようと関係ない」ポジショニングをとることですが、仕事として取り組む場合はちょっとずらしたポジショニングを取らないと、定期的に来る虚無の波に耐えないといけなくなる。ずらしたポジショニングというのがアプリケーションなのか、ドメイン特化のデータセットなのか、身体性なのか、AI界隈でも色々ありますが、自らキャリアの立ち位置を考えないといけないプレッシャーはAI技術者では特に強いなあと思います。
Promotion
SecureMemoCloudは、オンプレミスAIソフトウェア SecureMemoに続きご提供を開始した、世界最高水準の文字起こしAIを搭載した会議録作成支援サービスです。
単なるSecureMemoのクラウド移植版ではなく、会議録の特性に特化したAI要約機能も付加している点も特徴です。
現在β版であり、無償でお試しいただけますので、是非その精度を体感ください!
SecureMemoは、世界最高水準の精度94.7%のAIを搭載しつつ、オフライン環境で処理が完結するAI文字起こしソフトウェアです。
「精度の圧倒的な高さ」「オフライン完結」の2つを両立しているサービスは他になく、警察・医療機関・民間企業の経営企画/IR/人事部門様といった皆様にお使いいただいています。
音声認識AIとしてOpenAI Whisperを搭載、オリジナルWhisper由来の課題を解決すべく独自チューニングを行い、実用可能な水準に改善を行った上でご提供しています。
さらに、独自開発した完全自動の話者特定AIも搭載しています。
Application
OpenAIがテキストから動画を生成する技術Soraを公開。これまでの動画生成AIは数秒程度の生成にとどまっていた中、最長1分と非常に長尺の動画生成を実現。
尺もさることながら、生成の質も向上。こちらの動画は、窓の反射具合、窓が暗くなった時に映り込む人の描き方は非常に本物に近く、驚きの声が上がっている。
一方で以下画像のように、日本らしい街並みと思われる動画で表示されている文字は何語でもない適当なもの。文字に限らず、Detailのチューニングが難しいのは画像生成AIから変わらずで、多くのビジネスシーンでの活用ではノックアウト、となりそう。
ただし、逆に言えば「Detailにこだわらない、何かそれっぽい1minくらいの動画が欲しい」というビジネスシーンでは超有用。技術の限界を知るとユースケースもはっきり見えてくる。
ちなみに上記画像の動画はOpenAIのSoraの紹介ページの最も目立つところにある。「こんなに文字が適当な動画を目立つところに出すってことは、OpenAIは気にしてない?」と推測してしまう。他の技術で直してしまえば良いだろう、と思っているのかもしれない。
グーグル、早くも次世代AIモデル「Gemini 1.5」 長文理解が進化
最大100万トークンを処理できる、新たなLLM Gemini1.5 をGoogleが発表。23年12月のGenimiの発表から早くも新たなモデルを発表。
長大なコンテキストウィンドウについては、GPT-4 128kでも後半の文章を読み飛ばして(本当は読むべき質問であっても)回答が生成される現象などよく発生しています。
受け付けられるトークン数が増えるのは、エンジニアリング的には手間が減り嬉しいのですが、性能面ではそれだけですごい!とは反応しない方が良いと考えています。
Geminiの技術レポートはこちら。長大なドキュメントの様々な場所に仕込んだ秘密の番号を抽出するタスクで、ほとんど成功していることを示している。
Technology
日本ディープラーニング協会主催 NeurIPS 2023 技術報告会講演資料
NeurIPSという機械学習領域の国際学会の技術報告資料。多分に技術的な話が含まれていますが、ビジネス系の方々も斜め読みしてみると非常に面白いと思います。
キャッチーなトピックを挙げると
LLMは時系列予測にもレコメンドにも使える
「LLMのパラメタ数が増加すると突然新しい能力が開花する」は評価指標の問題
あたりが注目トピックでしょうか。
Editor Picks
NVIDIA時価総額275兆円 アルファベット超え、世界4位
NVIDIAが時価総額でアルファベットやアマドンドットコムを抜き、世界4位に。
生成AI関連のプレイヤーは軒並み評価が高まってますが、OpenAIをはじめ大赤字の投資段階であるプレイヤーが多い中、NVIDIAはハードウェアが一番はじめに売れるということで業績への好影響が表れていて、その点も評価が高まったと思われます。
生成AIの導入が日本企業で思ったほど進んでいないという話。
しかし、SimilarWebでopenai.comのトラフィックシェアを調べると、デスクトップで日本は4位、モバイルではなんと1位です。少なくとも個人レベルでの利用は進んでいます。
本当は法人用途でも使いたい人は多いが、法人の意思決定が壁になっているという状態かもしれません。