クローズドLLMだけではない技術発展 Nishika AI News Letter - Issue #85
前回のLetterからかなり間が空いてしまいました。言い訳は色々ありますが、基本的には事業拡大に伴うポジティブな忙しさによるものです。。。
AIで記事作成を自動化したいところですが、キュレーションの目線をどうもうまく教えられず、引き続き人力で作成した記事をお届けしています。
さて、GPT/Gemini/ClaudeによるクローズドLLMの開発競争も続いていますが、我々が注力する「プライベートAI」領域でもQwen3、parakeet v2など注目のリリースもありました。我々もモデルが発表され次第すぐに製品搭載の可能性を検証する体制を整えていますが、いずれも必要リソースにも優しく実用可能性は高そうという結果です。
Promotion
「業務で生成AIを使いたいがパブリックな環境でインターネット通信されるのが不安」というニーズのある企業様向けに、自社専用のオフライン生成AI・RAGアプリケーション導入を支援しています。
プライベートな環境で社内Qに回答してくれる生成AI「AIコンシェルジュ」
自社専用生成AI「クラフト生成AI」
AI議事録ツールSecureMemoで培った生成AI開発の知見、および自然言語検索・前処理の技術を組み合わせた、高精度な体験を提供します。
SecureMemoは、世界最高水準の精度96.2%の音声認識AIを搭載し、生成AIによる要約に至るまでをオフライン環境で完結するAI文字起こしソフトウェアです。
「オフライン×世界最高水準の音声認識」「オフライン×生成AI要約」の2つを両立しているソフトウェアとして、現在日本で唯一無二であると考えています。
警察・医療機関・製造業・金融機関・大学等へ導入実績がございます。
SecureMemoCloudは、世界最高水準の精度96.2%の音声認識AIを搭載した会議録作成支援サービスです。
評価用に作成された綺麗な読み上げ音声ではなく、リアルなビジネス会議音声について他社の追随を許さない高精度を誇るAIモデル「shirushi」を搭載している点が最大の特徴です。
もう1つの特徴は、ほぼ完成版の議事録「ほぼ完議事録」機能。
日時・参加者・決定事項・議事要旨を備えつつ、トピック分割やインデントを活用した構造化を行い、さらに話者の付与・清書・文体の統一などを全てAIが行なった、業界で他に類を見ない機能です。
Application
推論コスト、DeepSeekの3分の1に⋯世界を揺らすアリババ「Qwen3」、オープンソースLLMで“最強“評価
5/9にAlibabaがオープンソースLLM Qwen3を発表。知能水準でオープンソースモデルとしてトップを獲得。
弊社でも、VRAM数GB-十数GB程度の消費で推論できるLLM群は手軽におすすめできるためによく比較しているので実際に試したところ、Qwen3-30B-A3BはMoEアーキテクチャであることもありますが他のLLMに比べて圧倒的な指示追従性能。
非中国製LLMで同様の性能を実現しようと思うと、もう一段パラメータサイズを上げないと戦えない印象。
最大24分の音声も一発変換!「NVIDIAのParakeet」次世代音声認識の実力とは?
こちらもオープンソースだが、音声認識AIのリリース。NVIDIAの発表したparakeet -tdt-0.6b-v2がオープンソースASRとしてトップの性能を獲得。phi4-multimodalやwhisperを超えているとのこと。
最大の特徴は圧倒的な推論速度。GPU環境を利用し60minの音声を1sec程度で処理可能とのこと。CPU環境でも1secとはいかないが十分早く、実務的にはリアルタイム認識での活用で有用。
現時点では英語のみ対応だが、v1は日本語対応モデルが公開されているので今後の対応に期待される。v1でもwhisperに次ぐ程度の性能(特に固有名詞の認識精度)は確認できているので、期待したいところ。
最強スペックなのに無料 謎の画像生成AI「HiDream-l1」
現状最もクオリティが高い画像生成AIが、オープンソース公開されているのに要求スペックが高いせいで普及が進まないという話。要求スペックを一定下げたモデルとすることで、ユーザーを増やしエコシステムを発展させることの重要性を指摘している。
オープンソースLLMにおいて巨大モデルは必要?という指摘にもつながりそうだが、小型LLMを訓練する学習データを合成するのに、出力を学習に利用可能な巨大なモデルのニーズはある。
【図解】生成AIのバリューチェーン、「DeepSeekショック」余波続く…勝者と敗者を一覧
DeepSeekの登場が生成AIバリューチェーンの各事業者にポジネガどのような影響を与えいるかのまとめ。
今後も新たなLLMが続々登場すると思われるが、その際のバリューチェーン全体への影響を見るのに役立つまとめ。
AIモデルプロバイダーにネガティブな影響がある、AIアプリプロバイダーにポジティブな影響がある、などはよく言われていることだが
モデルトレーニングが効率的になることで、ネットワーク機器や熱交換器への需要も抑えられる点まで言及している。
1点付け加えると、DeepSeekが中国発企業であることで、特に日本のエンプラ向けアプリではDeepSeekの利用はNGであると明示するところが増えた。DeepSeekの登場でAIアプリについても市場が二分されていく流れになりそう。
Technology
Analyzing Cognitive Differences Among Large Language Models through the Lens of Social Worldview
LLMによる考え方の差異を調査。以下の6タイプに分類できるとのこと。
正解が1つでないタスクをやらせるときにどのLLMを選ぶかの指針となりそう。
1. 「どっちつかず」の様子見タイプ
例:Gemma-3
2. 「社会は不公平、弱い人を守る」と信じるタイプ
例:InternLM2.5
3. 前向きであり協力的
例:Qwen2.5、GLM-4
4. 実力主義で現実的
例:DeepSeek-V3、Llama-3.3
5. 一歩引きがちな冷静タイプ
例:Phi-4
6. ルールが大事なしっかり者
例:Gemini-2.0、GPT-4o
Editor Picks
『話者分離AIコンペ』声のカオスを断ち切れ!D-1グランプリ
久々に弊社でデータ分析コンペを開催。D-1グランプリと題して、話者認識AIの精度を競い合うコンペを開催しています。
近々SecureMemo/SecureMemoCloudの話者認識AIについて、業界に例のない新機能を発表できますが、さらに精度を改善する成果が得られることを期待しています。