Nishika AI News Letter - Issue #3
Summary
今週は、機械学習系技術の活用事例に限らず、AI周辺領域?とも言える話題も取り上げています。
AIのライセンスの話は普段なかなか日の目を浴びる類のものではないですが、取り上げました。GPLライセンスはAIに限らないソフトウェアライセンスの1つで、ソースコードに一部でもGPLでライセンスされたものが含まれるとGPLとして公開が義務付けられることから、"GPL感染"などと呼ばれてしまうこともあります。世界最大のデータ分析コンペティションKaggleでもその取り扱いが話題になったこともあり、当該コンペ参加者でもあった私個人的には印象深いニュースでした。
データサイエンス人材の育成も昨今話題になりがちですが、NASAの「データサイエンス人材のスキルギャップの可視化のためにデータサイエンスを使う」という事例は一石二鳥というか、データサイエンスって何の役に立つの?という疑問に一気に二通りの回答を出す感じが面白いです。
Twitterのリツイートの拡散状況からフェイクニュースか否か判定する研究は、機械学習は使っていないのですが非常に面白いです。フェイクであっても多くの人が信じてしまえば真実のように扱われる、そしてその拡散速度が非常に速い世の中なので、このような技術を実用化して拡散を未然に防ぐことができると社会的に価値が高いですね。
Nishika AI News Letterへのご質問はこちら
※本Letterに関する質問、取り上げて欲しいトピック、自社のAI導入の相談、何でも結構です
Application
Analyzing the Legal Implications of GitHub Copilot
先日のLetterでご紹介した、GitHub上のコードから学習した言語モデルを活用し、コード補完を行うツールGitHub Copilotですが、ライセンスの問題が加速する可能性があるのでは、と指摘されています。特にGPLライセンスという、ソースコードの一部にでもGPLが含まれると全体がGPLとして公開が義務付けられるというライセンスが問題で、補完されたコードにGPLライセンス由来のものが含まれているにもかかわらず、ユーザーが意識せずにコードを作り上げてしまう事態が頻発する可能性が指摘されています。記事中で“The more complex and lengthy the suggestion, the more likely it has some sort of copyrightable expression.”と指摘されている通り、Copilotは何をする関数かを書くだけで複数行の長文コードを補完してしまうため、尚更リスクが高いと見られます。
ちょうど昨今は、オープンソースのチェスエンジンであるStockfishが、チェスソフトウェアChessbaseがGPLでライセンスしているStockfishを含むことを隠匿していたとして訴訟を起こすというニュースも聞かれ、ソフトウェアライセンスの問題は古くて新しい問題という印象です。
NASAはいかにしてデータサイエンス人材のスキルギャップ解消に取り組んでいるのか
データサイエンス人材が足りないとはよく言われることですが、そもそもどんなデータサイエンス人材が必要なのか、そのスキルギャップを認識すること自体も容易ではありません。
NASAでは、自社のデータサイエンス人材のスキルセットをNeo4jというグラフ型のDB(通常のDBと異なり、データ間の関係性の情報を持つ。この場合、人材・スキル・プロジェクトの関係性の情報)上に整備することでスキルギャップの可視化・そしてギャップの解決を試みており、必要な人材が社内のどこにいるか特定することができたとしています。
「6年解けなかった構造があっさり」──タンパク質の“形”を予測する「AlphaFold2」の衝撃 GitHubで公開、誰でも利用可能に
遺伝子配列情報からタンパク質の立体構造を予測するAIモデルで、その精度を競うコンペで2位以下に圧倒的な差をつけたことで話題になったAlphaFold2のソースコードが公開されました。実際に使ってみた研究者の皆様の声はこちら。まだ適用の難しいタンパク質もあるようですが、驚くべき予測制度も示しているようです。本領域で長年頑張ってこられた研究者の方もいらっしゃるように思い、なんともいえない思いもあります。
How Google used machine learning to dramatically improve chip design
コンピューターチップのフロアプラン(物理的なレイアウト)を強化学習を使って自動で生成する取り組み。1万枚のフロアプランを学習データとし、AIは部分的に構築した開発中のフロアプランの状態を評価し、学習して、次のマクロブロックをどこに配置すべきかの行動を特定する。強化学習といえばAlphaGoなどゲームにおける活躍が印象深いですが、当然ながら産業用途の実用もされているという例です。
Technology
データで見破るフェイクニュースの傾向とは? SNSに潜む社会の「空気感」の数理的構造解明
いわゆる機械学習を使った例ではないのですが、非常に面白い研究なのでPick。Twitterのリツイートの拡散状況を視覚化すると、フェイクニュースが見分けられるのではないかというもの。例えば下図のLevel 1は、情報の発信源を中心として「まりも」のような形にリツイートが広がっており、本物の情報の広がり方。これに対してLevel 2は発信源を中心として拡散するのではなく、小さな「まりも」のような形がいくつも散らばっているのが特徴で、フェイク情報(以下記事に譲ります)。
このようにフェイクニュースの拡散の仕方に明確な差が認められるのであれば、フェイクニュース判定をテキストの内容と関係なくできる可能性があります。Facebookなどが実施しているファクトチェック機関によるフェイクニュース判定は人力に頼らざるを得ず限界がある中で、非常に有望な技術と感じます。
Editor Picks
AIモデルの計算量が年々加速度的に上昇しているグラフが必見。ページを開いてすぐに見えるグラフは線形に見えますが、よく見ると縦軸がLogであることに驚いてしまいます。2012年以降、最大規模のAIモデルで使用される計算量は、ムーアの法則「半導体回路の集積密度が2年間で倍になる」をはるかに上回る3, 4か月で倍増しており、指数関数的に増加しているとのこと。
AIに特化したチップも開発中であり、十分な経済的インセンティブがあればこのペースはまだまだ続くだろうと述べられていますが、正直なところ経済的インセンティブをある程度度外視してこのペースが続くだろうと個人的には感じます。ムーアの法則はいよいよ限界かと言われていますが、果たしてどこまで行くのか。。。