/note/tech

無料GPT-4アプリの公開とクリーンデータセットの作成について

このモデルの作成に使ったデータの大元(Alpacaデータ)はText-davinci-003というOpenAIサービスで出力した結果になりますが、OpenAIの利用規約ではコンテンツ生成者はOpenAIサービスで出力した結果を競合モデルの開発用途に使用してはならないと記載されています。ただ、コンテンツ生成者以外の第三者には利用規約は適用されないため、第三者が出力結果を競合モデルの開発用途に使用することは可能であり、今回私が利用したAlpacaデータも私がモデル開発に使用することは可能です。ただし、法的に問題ないとしても倫理的には問題があると思っており、仮に企業が堂々とAlpacaデータをモデル開発に使うのであれば多少のレピテーションリスクが発生すると思っています。タイムリーですが、Googleの開発したLLMのBardが実はChatGPTの出力結果を知識蒸留で使っていることが判明し批判を受けていたりすることを見ても企業が使用するとリスクを伴うのは間違いないと思います。

前述した通り、Alpacaデータを用いると多少のリスクが伴います。そのため、何の懸念もなく商用モデルの開発に使用できるクリーンなデータセットを作りたいと考えました。そこで今回、GPT-4を利用できるアプリを無料で公開し、そのアプリで収集したデータを活用してクリーンデータを作成することにいたしました。

おぉー