OpenAIがウェブクローラーGPTBotをリリースし、それをブロックする方法についての指示

OpenAIのウェブクローラーGPTBotのリリースとブロック方法の指示

OpenAIは、GPT-4のような人工知能モデルを改善するためのWebクローラーを開発しました。

このシステム、GPTBotと呼ばれるものは、インターネットを検索し、AIの能力をトレーニングして向上させることができます。OpenAIのブログ投稿によると、GPTBotを使用することで、既存のAIモデルの精度や安全性などの側面を改善する可能性があります。

投稿には、「GPTBotのユーザーエージェントでクロールされたウェブページは、将来のモデルの改善に使用される可能性があり、ペイウォールアクセスを必要とするソース、個人を特定する情報(PII)を収集することが知られているソース、または当社のポリシーに違反するテキストを削除するためにフィルタリングされます」とあります。

ウェブサイトは、部分的にまたは完全にウェブクローラーのアクセスを制限し、GPTBotが自分たちのサイトにアクセスできないようにすることも選択することができます。OpenAIは、ウェブサイトのオペレーターがIPアドレスをブロックするか、サイトのRobots.txtファイルでクローラーのアクセスを禁止することができると述べています。

以前、OpenAIはデータの収集方法や著作権侵害、プライバシーの侵害などで問題になったことがありました。今年の6月には、ChatGPTのトレーニングに個人データを「盗む」ためにAIプラットフォームが訴えられました。

最近、ChatGPTの履歴を無効にするなどの機能が導入され、ユーザーは個人データにアクセスされる範囲をより制御することができるようになりました。

ChatGPT 3.5および4は、2021年9月までのオンラインデータとテキストを使用してトレーニングされました。現在、そのデータセットからコンテンツを削除する方法はありません。

GPTBotによるウェブサイトのコンテンツの使用を防止する方法

OpenAIによれば、ウェブサイトのRobots.txtにGPTBotを追加することで、GPTBotのアクセス範囲を指示することができます。Robots.txtは、ウェブクローラーがウェブサイトからアクセスできる内容やできない内容を指示するテキストファイルです。

また、ウェブクローラーが使用できる部分や使用できない部分をカスタマイズすることもできます。