「OpenAIの新しいAIトレーニングウェブクローラーがデータを取り込むのをブロックする方法」

OpenAIの新しいAIトレーニングウェブクローラーのデータ取り込みをブロックする方法

ChatGPTの開発者であるOpenAIは、新しいウェブクローラーであるGPTBotとそのブロック方法について公開しました。

ChatGPTは、最近の知識に関する報告にもかかわらず、これまでに作られた最も能力のあるAIシステムの一つです。AIチャットボットの背後にある企業であるOpenAIは、GPT-3.5やGPT-4などの大規模言語モデル(LLM)のトレーニングを続けています。

また:今週、ChatGPTには数多くのアップデートが行われています。知っておくべきことはこちらです

GoogleやBingなどの検索エンジンがウェブサイトをスキャンしてコンテンツをインデックス化するために使用するウェブクローラーは、AI企業がLLMをトレーニングするためにも使用されます。これらのモデルは、ウェブサイトのコンテンツやその他のデータから学習します。ウェブクローラーを使用することにより、LLMは大量のデータでトレーニングできるようになります。

“GPTBotにサイトへのアクセスを許可することで、AIモデルはより正確になり、一般的な能力と安全性が向上することができます”、OpenAIはGPTBotのドキュメントで述べています。同社は、支払いが必要なウェブページや個人を特定する情報を収集するウェブページ、OpenAIのポリシーに違反するテキストを持つウェブページをフィルタリングしていると主張しています。

開発者は、GPTBotがサイトにアクセスし、その情報を使用してAIシステムをトレーニングすることをブロックするオプションがあります。

OpenAIは、GPTBotにサイトへのアクセスを許可しない方法やカスタマイズ方法を説明しています。

サイトの所有者は、GPTBotがサイトにアクセスできないようにするために、サイトのrobots.txtにGPTBotトークンを追加して「Disallow: /」としてブロックすることができます。

OpenAIはまた、ユーザーがGPTBotのアクセスをカスタマイズできるようにしています。特定の部分のみをクロールさせる場合は、サイトのrobots.txtにGPTBotを追加して「Allow: /directory-1/」および「Disallow: /directory-2/」としてブロックし、必要に応じてカスタマイズします。

また:NvidiaはAI向けのより速いメモリを搭載した「スーパーチップ」Grace-Hopperを強化しています

OpenAIは、無料版のChatGPTの背後にあるLLMであるGPT-3.5やBing AIを駆動する最新のLLMであるGPT-4をトレーニングするためにウェブクローラーを使用していると以前に発表していませんでした。

GPTBotがOpenAIが現在利用可能なLLMをトレーニングするために使用されたかどうかは明確ではありませんが、特に同社が7月にその名前の商標を出願したことを考えると、GPT-5をトレーニングするためのウェブクローラーである可能性があります。OpenAIはGPT-5のリリース日を発表していませんが、この新しいLLMは現在利用可能な最大のLLMであるGPT-4よりも強力で大きいと予想されています。

また:AIボットはまもなく新しいカスタマーサービスエージェントになるかもしれません

ChatGPTのローンチ以来、OpenAIはデータをユーザーから盗むという訴訟に直面しており、著作権侵害の訴訟によりFTCの調査の対象になりました。Stack Overflow、Reddit、Twitterなどのウェブサイトは、AI企業にデータへのアクセスに対して料金を請求する予定だと述べています。