胡瓜のプログラミング日記

Azure OpenAI と Open AI (ChatGPT) の重要な違い

いろんなところでいろんな人が言及しているけど、かなり重要な違いがあるのでメモ。

Azure OpenAI はユーザーの学習データを自分たちのモデルの学習に使わない

https://help.openai.com/en/articles/5722486-how-your-data-is-used-to-improve-model-performance

The training data (prompt-completion pairs) submitted to the Fine-tunes API through the Azure OpenAI Studio is pre-processed using automated tools for quality checking including data format check. The training data is then imported to the model training component on the Azure OpenAI platform. During the training process, the training data are decomposed into batches and used to modify the weights of the OpenAI models. Training data provided by the customer is only used to fine-tune the customer’s model and is not used by Microsoft to train or improve any Microsoft models.

Azure OpenAI Studio から Fine-tunes API に送信された学習データ(プロンプトとコンプリーションのペア)は、データ形式チェックなどの品質チェックのための自動ツールを使って前処理が行われます。その後、学習データは、Azure OpenAI プラットフォーム上のモデル学習コンポーネントにインポートされます。学習プロセスでは、学習データはバッチに分解され、OpenAI モデルの重みを修正するために使用されます。 お客様から提供された学習データは、お客様のモデルの微調整にのみ使用され、MicrosoftMicrosoft のモデルを学習または改善するために使用されることはありません。

"training data" であって、じゃあ実際のモデルとのやりとりはどうなの?と思ったけどそこまでは調べきれず。
さすがに「学習データは使わないけど、実際のやりとりは使います」というだまし討ちみたいなことはやらないだろうと思う。
あと、今は利用できるユーザーをかなり制限していて、専用のフォームからリクエストして審査を受ける必要がある。
フォームの注意事項には「個人からのリクエストは受け付けない」みたいなことが書いてあるので、個人で試すことはできないっぽい。

OpenAI(ChatGPT) はユーザーのデータを自分たちのモデルの学習に使う

OpenAI について https://help.openai.com/en/articles/5722486-how-your-data-is-used-to-improve-model-performance

As part of this continuous improvement, when you use OpenAI models via our API, we may use the data you provide us to improve our models. Not only does this help our models become more accurate and better at solving your specific problem, it also helps improve their general capabilities and safety.

この継続的な改善の一環として、お客様が OpenAI のモデルを API 経由で使用する場合、当社は、お客様から提供されたデータを使用して、当社のモデルを改善することがあります。これは、私たちのモデルが、より正確で、あなたの特定の問題を解決するのに役立つだけでなく、一般的な能力と安全性を向上させるのにも役に立ちます。

ChatGPT について https://help.openai.com/en/articles/6783457-chatgpt-general-faq

  1. Will you use my conversations for training?
    Yes. Your conversations may be reviewed by our AI trainers to improve our systems.

とのこと。
OpenAI の方の "the data you provide us" というのが Fine tuning のための学習データだけを差すのか、実際の API とのやりとりも含むのかはこのページだけでは読み取れず。そもそもユーザーは"us"に対して提供したつもりはないのではないかと思うのだけれども。
ただ、ChatGPT の方では会話を学習に使うと明言しているし、API の方も同様だと考えた方がよいだろう。

所感

現時点で OpenAI を業務で使うのは厳しいのでは?という印象。
会社の業務固有の知識を大量に与えれば簡単に社内ヘルプ的なの作れないかなとか考えていたのだけれど。
お試しでいろいろ触っておいて、Azure OpenAI が広く利用できるようになるのを待とう。あるいは Google のやつか。