Nishika AI News Letter - Issue #10
Summary
今回のLetterでは様々なユースケースを取り上げました。手前味噌ながら弊社コンペにて開発中の類似商標画像の検索モデルを取り上げていますが、商標に限らず類似画像を検索したいという需要はかなりあるはずで、汎用性のあるテーマかと思います。障害のある方向けにアクセシビリティを改善する事例を2点(Apple, Google)取り上げていますが、お金の払い手が少ないという事業観点・学習データを集めにくいという技術観点でなかなか難しい領域ではあるので、是非発展していってほしいと感じます。(M)
Nishika AI News Letterへのご質問はこちら
※本Letterに関する質問、取り上げて欲しいトピック、自社のAI導入の相談、何でも結構です
Application
AI×商標:イメージサーチコンペティション(類似商標画像の検出)
特許庁様ホストのNishikaコンペをご紹介します。年間18万件に渡る商標出願に対して、既存商標画像との類似判定を行う審査業務の質・効率向上を図るため、イメージサーチモデルを開発するというコンペです。
検索対象となる既存商標の数は約80万件(!)と、実審査業務に近い問題設定となっており、大河の一滴とも言える正しい類似画像を如何に探し当てられるかが焦点です。
AI開発では様々なタスクで手軽に使えるモデル・ライブラリが開発されていますが、類似画像検索の領域では意外に多くありません(2021年9月に発表された Tensorflow Similarity など)。コンペによるモデル開発の貢献も大きいと見られ、果たして優勝ソリューションがどの程度の精度に達するのか非常に楽しみです。1月末終了予定。
Tensorflow - Help Protect the Great Barrier Reef
こちらは弊社コンペではありませんが、ダイバーでもある筆者個人としても非常に興味深いコンペが開催されているのでPick。オーストラリアのグレートバリアリーフにて、サンゴ礁に有害なオニヒトデを検出するAIモデルを開発するコンペ。現在はダイバーがボートを使い200m間隔で目視確認という古典的な手法が取られているが、水中カメラからの画像検出へと進化させるべく開催されています。
AIの社会的貢献が高い領域ということで、アクセシビリティ系の記事を2点Pickします。
1点目は、アプリのスクリーンショット(画像)から機械学習を使ってUIコンポーネントを認識し、アクセシビリティ機能を補完するMaking Mobile Applications Accessible with Machine Learningという研究。
iOSには様々なアクセシビリティ機能があるが、 その中でも、画面を音声で読み上げる視覚サポート機能であるVoiceOverは初期のiOSから備わっている。しかしこのVoiceOverは、開発者が適切に値を設定しなければ読み上げが行われない。
しかし、アプリを使っているユーザは視覚的にボタンやテキストを認識しているわけなので、機械も人間と同様に、機械学習を使って視覚的に (アプリのスクリーンショットのような画像から) UIコンポーネントを認識しVoiceOverを出力すれば、開発者による値の設定がなくとも障害のある方が快適に操作ができるようになるのでは、というもの。
A communication tool for people with speech impairments
2点目は、GoogleのProject Relate。言葉の発音に影響を与える疾患を持つ人々のために、音声認識を改善しているプロジェクト。
Relateでは、筋萎縮性側索硬化症、脳性麻痺、ダウン症、パーキンソン病、脳卒中、外傷性脳損傷などの症状を持つ人々から集めた100万以上の音声サンプルを用いて音声認識モデルを開発している。ユーザーは500のフレーズを話すことで、自分の声に合わせてシステムを微調整することが可能。
さらに、音声をリアルタイムでテキストに変換し、ユーザーが話した内容を合成音声で再表現し、照明の調光や音楽の再生など、ユーザーの音声コマンドをGoogleアシスタントに翻訳できる。
Technology
OpenAI’s API Now Available with No Waitlist
自然言語で「こういうWebページを作りたい」と入力すると、実際にそのようなページとなるコードを生成してくれる、といった驚くべき挙動で話題になったOpenAIの汎用言語モデルGPT-3ですが、実はつい先日までそのAPIは一部開発者しか利用ができないウェイトリストの状態でした。これがついに解除され、一般に利用できるようになりました。
チャット、Q&A、文法訂正、要約、自然文のプログラムへの変換など、大量のユースケースが提示されています。さらに、提示されているユースケース全てについて、Playgroundという形でWeb上で動作を簡単に確認できるようにもなっています。自然言語を使ったユースケースのアイデアジェネレーションには、このページを見ながら考えるのがおすすめですね。
もう1点注目すべきは、有害コンテンツの生成および社会に与える影響について、有害なコンテンツの生成目的での利用を禁じるようガイドラインを整備するなど、細やかな対応をしている点です。実際に筆者がPlaygroundでチャットを利用している中で、生成したコンテンツの安全性に問題があると判断し「出力をSNSで共有することは控えるように」というメッセージが出たこともありました。イマイチ日本のビジネスシーンでは活発な議論がされていない論点な気がしますが、改めて、性能だけが議論されるフェーズは超えた技術が出てきたと言えると思います。
Editor Picks
Amazon releases dataset to help detect counterfactual phrases
「もし〜だったら」という反事実を含む商品レビューのデータセットをAmazonが公開。英語、ドイツ語、日本語(!)が含まれている。「赤いシャツ」と検索したときに「赤いシャツはない」「もし赤いシャツだったら良いのに」などという検索結果がヒットするとユーザーの体験が悪くなるため、そのような反事実の記述を選り分けるモデルの開発に役立つ。
「もし〜だったら」という記述はユーザー体験の悪化につながり得るというのが本活動のモチベーションのようですが、一方でこのような表現は充足されていないユーザーニーズを現している可能性もあると感じます。いずれにしても意味検索の解像度が上がることは素晴らしいですね。