Nishika AI News Letter - Issue #9
Summary
マウスを合わせるだけで物体選択してくれるAdobeのツールや、写真を検索に投げると写真に写っているもののテキスト検索もしてくれるGoogle Lensの新機能など、一般の層にも使いやすいレベルでAIが提供されるニュースが続いています。「ビジネスパーソンもPythonを学ぼう」といった流れがありますが、やはりソフトウェア開発は向き不向きもあり誰でもできることではないので、誰もが気軽に使える形でアプリが提供される価値は揺るぎません。
AIの著作権については、多分AIを実務利用しようとした方全てが一度は考える問題ではないかと思います。AIはデータの著作権の問題もあればOSSのライセンスの問題もあるので、グレーな部分を完全に排除しようと思うとなかなか大変です。
Facebookの投稿の上位表示アルゴリズムが流出した件については、自分の投稿を是非みんなに見てもらいたい!という人はしっかり読み解いていただくのも良いかもしれません(Hackはメチャクチャ難しいと思いますが)。(M)
Nishika AI News Letterへのご質問はこちら
※本Letterに関する質問、取り上げて欲しいトピック、自社のAI導入の相談、何でも結構です
Application
「ヤバすぎ」「神ツール」──Photoshop新機能が話題に “マウスを合わせるだけで物体選択”
アドビが10月26日に発表した「Photoshop」の新機能、「ホバー選択」の記事。マウスカーソルを画像内の物体に合わせるだけで物体を認識し、自動で選択マスクを作る機能。
実務の文脈で言えば、セマンティックセグメンテーション(画像領域分割)の教師データを作成する際、何の支援機能もなければpixelごとに塗りつぶすような気の遠くなる作業が必要でしたが、それを大幅に効率化してくれるような機能になります。とは言え、最も恩恵を受けるのはアニメーターの方々でしょうね。
Google Lens is coming to desktop Chrome, will soon handle text+image search
Googleのコンピュータビジョン検索エンジン「Google Lens」が、デスクトップ版Chromeに搭載されることになりました。具体的な搭載時期は未定ですが、この機能がどのようなものになるかを示すティーザーツイートがありました。
デスクトップChromeでは、画像を右クリックして「Google Lensで検索」を選択すると、クリッピングツールが表示されて、特定の画像をGoogleの写真AIに投げることができるようになります。従来の画像検索のように似た画像を見つけるだけでなく、画像に写っているものに言及しているテキスト等も検索するようになります。
AIの世界ではマルチモーダルAIという、画像とテキスト・画像と音声など複数種類のデータを統合的に処理するAIの開発が進んでいます。本事例は入力は画像のみなので厳密にマルチモーダルというわけではないですが、画像とテキストという本来分けて処理しなければならなかったものを繋いだアプリケーションという意味で、今後"来る"領域だと考えられます。
THIS AI CAN SPOT AN ART FORGERY
「レオナルド・ダ・ヴィンチが本当に描いたものか否か」を判定するAIを使い、史上最高額の絵画「サルバトール・ムンディ」がダ・ヴィンチにより描かれたものではない、と判定したという報告。
ダ・ヴィンチの絵画は制作数が少ないため、12枚の絵画を350×350ピクセルに切り出す形で大量の正解データを作り、学習に有用なものみ抽出するといった工夫でAIの学習データを増やしたそう。
さらに、ダ・ヴィンチは多く弟子を雇っていたことが知られているが、開発したAIを用いダ・ヴィンチが描いた可能性の高い部分と低い部分を示すヒートマップを作成した結果、ダ・ヴィンチは「サルバトール・ムンディ」の背景や右手を上げた人物は描いていないが、顔や体の一部は描いている可能性が高いこともわかったそう。
真相は神のみぞ知る、という結論ではありますが、考察としては面白いです。また、非常に少ない画像からデータセットを水増しする手法も応用が効きそうです。
Technology
How Google plans to improve web searches with multimodal AI
上記でGoogle Lensによる検索機能を取り上げましたが、研究レベルでもGoogleは検索のマルチモーダル化に力を入れています。
Googleは来年初めに、Multitask Unified Model(MUM)と呼ばれる新しいアーキテクチャを、従来の検索アルゴリズムとLens写真検索システムに統合する予定。この新しいモデルにより、検索エンジンはより複雑なクエリを処理できるようになるとのこと。
「来年の秋に富士山をハイキングしたいけど、何を準備すべき?」と聞くと、「準備」を天候の観点や事前のトレーニングの観点などで捉えて色々回答してくれる
登山靴の写真を撮って「これ富士山ハイキングに使える?」と聞くと、登山靴が適切かどうかや、富士山登山のブログの紹介をしてくれる
といった事例が紹介されています。
裏では、クエリに対する適切な回答のペアという教師データをもとに学習したAIが動いている、というのは従来と変わりません。しかし大量のデータで学習したAIを活用することで、複雑な質問に対してもほとんど人間と変わらないレベルの回答ができるようになってきているのは事実です。
Editor Picks
AI開発で非常によく話題になる、著作権に関する法律事務所の解説記事。為になります。
自身が著作権を有していない入力データをAI開発に用いても、サービス提供事業者内部で処理や学習を行なっただけでは著作権侵害にはならない。問題となるのは、著作物を使って開発したAIがなんらかの出力をするとき。自動翻訳など、ユーザー主体で出力が行われる場合はユーザーの責になるが、著作物を蓄積し(検索結果の一部分というレベルを超えて)出力するサービスは侵害になるとのこと。
Five points for anger, one for a ‘like’: How Facebook’s formula fostered rage and misinformation
"AIの裏側"的なトピックとして、Facebookでどの投稿を上位表示するかのアルゴリズムは極秘事項となっていますが、流出した文書でアルゴリズムが明らかになったというニュースを取り上げます(尚、正確には「アルゴリズム」ではなく人間が決めた点数づけルール「数理モデル」が明らかになったと言うべきですが、わかりやすさのため「アルゴリズム」と呼びます)。
投稿は様々な属性に応じてスコアを獲得し、スコアの高い順にフィードに表示される。例えば、シェアやインタラクションを誘発しそうなストーリーの種類、動画の有無(ライブ動画はスコアが高いとのこと)、「いいね!」の数、リアクション絵文字の数、再シェアの数、テキストコメントの数とその長さ(1文字のコメントはカウントされない)に応じてポイントを付与される。