Nishika AI News Letter - Issue #20
Summary
先日、弊社にて独自に作成した日本語個人情報抽出向けデータセットを無償公開しました。データセットに加え、データ分析コンペで優勝した個人情報抽出ソリューションのモデル・ソースコードも同時に公開しており、いずれも商用利用可となっています。
個人情報を文書中から検出するニーズは相当普遍的なものと思いますが、AIの学習に活用可能な、日本語個人情報を固有表現としてラベリングした言語資源は、世界的に見ても公開例がないものでした。
是非自社のPoCや研究開発にお役立ていただきたいと考えていますし、今後もコンペを通じて開発した希少価値の高いデータセットを公開、データサイエンスのさらなる発展に貢献していきます。このようなデータセットがあると嬉しい!というものがありましたら、是非お知らせください。(M)
Nishika AI News Letterへのご質問はこちら
※本Letterに関する質問、取り上げて欲しいトピック、自社のAI導入の相談、何でも結構です
Application
Nishikaが独自に作成した日本語個人情報抽出向けデータセットを無償公開
人名、組織名・施設名、地名、時間などを27000箇所超アノテーションした文書データを公開。同時に公開した過去コンペの優勝ソリューションは、91.4%の精度で個人情報を抽出可能。
Artificial Intelligence Could Be About To Change Soccer Player Scouting
サッカー選手のスカウトにAIを活用。見た瞬間に面白い!と思ったが、パス、シュート、ドリブルなど8つのドリルを行う動画をupして採点、という形式がインテリジェンス面(オフザボールの動きなど)を考慮してないように見え、少し片手落ちには感じる。
システムの開発に協力したチーム(プレミアリーグ・バーンリー)が二部リーグに落ちたことも、まず間違いなく関係ないがちょっと不吉…笑
1枚の写真と30秒の音声データから、GANにより本人そっくりの動画コンテンツを生成。個人的には残念なことだが、内容ではなく純粋に誰が話しているかが重要な場面も多いので、有用そう。
RIZAPなど100施設が導入、「ジム運営のAI化」を支援する名古屋発スタートアップ
フィットネスジムにおけるAI監視ソリューション。転倒などユーザーの危険な状態を検知。介護施設などで導入されている転倒検知技術をフィットネスに展開した事例。確かにベンチプレスなど夜に1人でやっているときは力尽きた時怖いので、ニーズを肌で感じます。
Technology
人の歩き方「歩容」特徴量データベースに基づく類似検索により、歩いている人物の個人を特定。
1700人に対して精度90%(何の精度を言っているのかはソース見つからず)。実際のユースケースを考えるとこれの何万倍の人を対象とする必要があるので、実用に耐えるかどうか。
Editor Picks
Web scraping is legal, US appeals court reaffirms
一般にアクセス可能な公開データのスクレイピングは違法でないという米国の判決。ログイン後や利用規約同意後にのみ取得できるデータは「一般にアクセス可能」とはされないが、逆に言えばログイン前に取得できるデータであれば問題ない。
個人的には、どちらかと言えば今よりはデータ活用の制限がなくなれば良いという立場なので、前向きに捉えたい。