Nishika AI News Letter - Issue #33
ChatGPTをはじめとした文書生成系の記事が大半を占めました。特段意識はしていないのですが、純粋にAI関連ニュースにおけるシェアが文書生成系が圧倒的に高い印象です。
あれだけ精度の高いAI、教師データはどうやって集めているのか?と疑問に思われる方も多いと思います。もちろん人力で収集しているのではなく、Webページ・ブログ・SNSなどから自動収集されたものが教師データとなっていますが、一部有害データの除去は実は人間が行っています。その労働環境は、徐々に改善しているのは確かなものの今も劣悪なのでは?と指摘する記事もありました。
さて、今回の記事から、疑問に思ったことをChatGPTに聞きながら執筆しています。その一部回答を記事中に掲載していますので、ご覧ください。
Application
DeepL、文章作成サポートツール「DeepL Write」ベータ公開--英語・独語の文法を訂正
皆様お馴染みの機械翻訳サービスDeepLが、文書校正を行う「DeepL Write」をリリース。「DeepL(和文→英文)→chatGPT(校正)→DeepL(確認)→Grammarly(修正)→DeepL(最終確認)で英語能力が雑魚でも英語書けてしまう」との声も。英語学習の世界が変わる次元に入ってきている。
We provided mental health support to about 4,000 people — using GPT-3. Here’s what happened
メンタルヘルスカウンセリングにGPT3を利用した実験結果の報告。相談者の半数が回答を受け入れ、回答の評価も人間がのみが作る場合に比べ高まる傾向にあったが、人間が作った回答ではないと知った瞬間に評価が下がったとのこと。示唆に富む。
オープンAIの「限界」を突破するイスラエル企業AI21 Labsの挑戦
ChatGPTの弱点の1つとして、引用したコンテンツのクレジット表記をしないことがあるが、イスラエルの企業AI21 Labcは、それを解決した文書作成支援ツールWordtune Spicesを提供。出典元のリンクを付与。
出典元のリンクを必ず付与する制約をつけると、今ChatGPTが実現しているような(一部虚偽も含むが)自由かつ広範な回答はできなくなる。両者使い所が異なる印象。
NET pauses publishing AI-written stories after disclosure controversy
CNETにて、テキスト生成モデルが作成した記事に多くの誤りや盗作の可能性がある点が指摘される。具体的には、ローンの利息がどれだけ発生するかについて誤った表現がされるなど。
Finding the materials of the future with AI
KoBold Metalsは、学術論文、衛星画像、土壌分析、手書きの現地報告書などから抽出した地質データを用いて、未発見の鉱床を探索するためのモデルを構築。まだ実用性は証明されていないようだが興味深い。
世界中の輸送データを把握し、最適なプランを提案するフレックスポート
フレックスポートは、自ら輸送手段を持たず、荷主と契約して貨物輸送を行い、関税などの手続きを代行するフォワーダー。物流におけるコストや輸送効率、温室効果ガスの量をデータで抑えており、最適な輸送プランを提案できる点が強み。あらゆる輸送手段のデータを世界的な規模で把握しているが故に競争力がある。
(閑話)さて、ここまで来るとフレックスポートはなぜあらゆる輸送手段のデータを抑えられているのか?と疑問に思います。試しに、ChatGPTにこの疑問をぶつけてみた答えが以下です。事実でない可能性がある点には十分ご注意ください。
フレックスポートは次のような手法を使用して物流データを収集しています。
物流サービスプロバイダーとの契約:物流サービスプロバイダーとのパートナーシップを通じて、実際の物流データを収集します。
API統合:物流サービスプロバイダーが提供するAPIを通じて、物流データを収集します。
自社システム:自社システムを通じて、物流データを収集します。これには、物流トラッキングシステム、物流管理システムなどが含まれます。
オープンデータソース:オンライン上で公開されているオープンデータソースから物流データを収集します。
データマッピング:異なる形式の物流データを統一された形式にマッピングして分析することで、より正確な物流データを収集します。
Technology
Improving alignment of dialogue agents via targeted human judgements
ChatGPTは虚偽を尤もらしく言うなどの弱点が知られているが、DeepMindがチャットボットSparrowにて望ましくない回答を返さないよう人間のFBによる強化学習を行った結果。望ましくない回答は全体としては減ったが一部挙動は増幅される。
事前学習・強化学習のどちらが良いかどうか、さらなる研究が待たれる。
Editor Picks
高性能チャットボット「ChatGPT」を支える“劣悪な労働搾取”を米誌がスクープ
DALLE-2やChatGPTを提供するOpenAIが、有害なネット情報を選別するデータラベリング作業において、時給2ドル以下でケニア人労働者を雇っていた件。実際に時給2ドルという水準が高いか低いかは議論がある模様だが、メンタルにダメージを与えるコンテンツを長い時間見る必要があり、それが労働者に与える影響は注目すべき論点。弊社もヘイトスピーチ検出コンペティション開催時には、誹謗中傷表現を含むデータについてのアノテーションを行ったため、データ数の確保と同時にアノテーターへの配慮は行っていました。
現時点では、どんなに精度の高いAIであっても、大元には人間の作った教師データがあり、AIの「性格」、つまり出力傾向を変えたければ人間が新たなデータを与えるしかない、という状況は変わっていません。