Nishika AI News Letter - Issue #71
AI議事録ツールSecureMemoCloudに、End-to-End音声認識AIと生成AIを組み合わせた専門用語・社内用語の認識機能を搭載しました。これは業界初の技術であり特許出願中ですが、誰もが思い付かない技術を搭載している、というより、生成AIの得意不得意を理解し、他技術と役割分担をうまく行うことでユーザーにとっての価値を最大化した、という発想です。
OpenAIの業績を見て、LLMは本当にpayする技術なのか?という疑念が出るのは理解できますが、チャットやRAGだけではない用途をしっかり見れば、十分社会的ニーズを叶えられる(=対価が支払われる)場所がたくさんあるのでは、という意見を私は持っています。
Promotion
SecureMemoCloudは、世界最高水準の精度96.2%の音声認識AIを搭載した会議録作成支援サービスです。
評価用に作成された綺麗な読み上げ音声ではなく、リアルなビジネス会議音声について他社の追随を許さない高精度を誇るAIモデル「shirushi」を搭載している点が最大の特徴です。さらに、音声認識AIと生成AIを組み合わせた専門用語・社内用語の認識機能を備えており、圧倒的な認識性能を誇ります。
将来は、文字起こし結果をもとに会議アシスタントとしてあなたをサポートする生成AIの搭載を目指しています。
SecureMemoは、世界最高水準の精度96.2%の音声認識AIを搭載しつつ、オフライン環境で処理が完結するAI文字起こしソフトウェアです。
「精度の圧倒的な高さ」「オフライン完結」の2つを両立しているサービスは他になく、警察・医療機関・民間企業の経営企画/IR/人事部門様といった皆様にお使いいただいています。
評価用に作成された綺麗な読み上げ音声ではなく、リアルなビジネス会議音声について他社の追随を許さない高精度を誇るAIモデル「shirushi」を搭載している点が最大の特徴です。さらに、独自開発した、声紋登録不要で完全自動の話者特定AIも搭載しています。
Application
【業界初・特許出願中】AI議事録ツールSecureMemoCloudが、End-to-End音声認識AIと生成AIを組み合わせた情報処理手段により新たな文字起こし体験を提供
SecureMemoCloudにおいて従来より高精度を誇っていた音声認識AIですが、専門用語・社内用語を認識できない課題は引き続き課題でした。当社は、この問題を生成AIを併用した情報処理手段により解決しました。AI議事録ツールの世界では単語登録と呼ばれる機能ですが、これを生成AIを併用して実現したのは業界初の事例だと我々は考えています。
Meta、無料で商用可の「Llama 3.1」リリース 「世界最大かつ最も高性能なオープンモデル」
Llama 3.1の価値は、環境構築の仕方次第でコストを下げられること、オンプレミスでの利用も可能なことですね。ベンチマークスコアで一部GPT-4oを上回っているとしても、ユーザーが体感で感じられるほどの差はあまりないはずです。
元の学習データもさほど変わらないでしょうし、LLMの賢さという意味での性能は天井に近づいています。
ドメイン特化でない汎用LLMとしては、音声も含めたマルチモーダルがまだ各社できていない最後の領域(Geminiは少しできますが)。その先は速度など精度以外の性能競争、アプリケーションとしての機能の競争になりそうです。
そこまでくると、今はLLMの性能をアピールしているOpenAIやAnthropicがどう戦うのか気になってきます。
「どうしてこんな単純なミスを」うっかり見逃す“文章の間違い” 出版社も導入する校正特化型AIは、生成AIと何が違うのか
校正特化型AIを開発するスタートアップ。確かに校正は生成AIの得意分野とは言えず、パラメタ数数十B程度のLLMだと意外にまともに校正ができないことに逆に驚きます(期待値がインフレしてますね。。。)。
しかし、少なくとも、てにをはや漢字の誤脱レベルではGPTやClaudeで正しく校正できるので、そことの差別化はどうかなというところです。
Technology
Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach
Google DeepMindの、RAGとロングコンテキストを包括的に比較する研究。
RAGはロングコンテキストに比べて性能が劣るが、RAGの方が圧倒的に安価であり、コンテクストの量が多くなると優位性が出る。
そこで、両者をうまく使い分ける手法「Self-Route」を考案。最初のステップでは、RAGにより解答に関連しそうなチャンクを与え、解答可能かどうかLLMに判断させる。解答可能ならそのまま解答を生成するが、そうでなければ「解答できない」と答えさせる。解答できないときは、チャンクではなく完全なコンテキストを与え、解答を生成する。
文章を書いたのは人間?AI? 「透かし」で判定 日立が世界初技術
「学生が生成AIにレポートを書かせる問題」というのは、そもそも問題設定がおかしい気がしています。生成AIで書くことが問題というより、レポート提出内容について提出者が理解していないことが問題。
例えば、提出したレポートからLLMを使ってQを自動生成して回答させ、問題なく答えられたら自分できちんと書いているとみなす、という方が良いのではないでしょうか。
この記事の手法には、AIと一致するような文章を書いている人を偽陽性と判定してしまうリスクもありますし、
LLM自体多種多様でパラメタ(temperatureやtop_nなど)もいじれる中、AIが生成しやすい単語を特定すること自体も難しい気がします(ここは、技術的に何か工夫をされているのかも)。
Editor Picks
Why OpenAI Could Lose $5 Billion This Year
OpenAIは今年度50億ドルの損失を出しており、増資が必須であるという分析。LLMは果たして持続的なビジネスなのかどうかはまだ分からない。
ちなみに、AIの学習および推論のコストは70億ドル、人件費も15億ドルに達しているとのこと。AI側のコストが物凄いのは以前から知られていたが、サムアルトマン解任騒動のときの社員数は数百人後半だったはずで、それから急成長しているにせよ人件費単価も凄まじい。