Extreem veel hits en dataverkeer AI Bot’s. Bescherm uw website tegen diefstal!

Bij diverse clienten zien wij dat er extreem veel hits en dataverkeer veroorzaakt wordt door de AI Bot’s. Dat zijn ‘zoekmachines’ die data scannen van je website om daarmee hun ‘kunstmatige intelligentie’ te voeden.

Niet alleen is dat een inbreuk op uw rechten, er is ook een grote kans dat uw website automatisch offline wordt gezet wegens overschrijding van de datalimiet van uw pakket. Zo gebeurde dit gisteravond nog bij een cliënt van Brinkman.IT waar in 2 dagen tijd 214.066 “hits” op de site kwamen en maar liefst 9 gigabyte aan data werd ‘weggetrokken’ door één AI-bot (https://openai.com/gptbot).

AI Kunstmatie Intelligentie Afb. https://www.vpnsrus.com/, CC BY 2.0 via Wikimedia Commons

Afb. https://www.vpnsrus.com/, CC BY 2.0 via Wikimedia Commons

Technische beperking AI bots

In de logging (onder de statistieken in uw DirectAdmin panel) ziet u dan bijvoorbeeld regels als dit voorkomen:

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)

Het is zaak dat u, als eigenaar van een website, hier actie op onderneemt.

Een copyright melding op uw website volstaat niet meer. Een AI-bot zal dit niet herkennen en ook wordt dit volledig genegeerd. Dit omdat de Amerikaanse wetgeving (waar de meeste AI Bots zijn gehost en ontwikkeld worden) anders is en men denkt dat de regels daar ook voor ons deel van de wereld geldt. Dat is natuurlijk niet het geval (lees er hier meer over). Daarom een tip voor een technische beperking op het stelen van uw kostbare data (in meerdere opzichten) en datatransfer.

Als je een website hebt waar je origineel materiaal publiceert kun je een bestandje plaatsen met de naam ‘robots.txt’. Dat is een tekstbestandje, bijvoorbeeld met kladblok gemaakt, waarin je zoekmachines en andere bots wel- of geen toegang verleend tot je website.

Tekstregels die je bijvoorbeeld in de robots.txt kunt opnemen:

User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: Amazonbot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Omgilibot
Disallow: /
User-Agent: FacebookBot
Disallow: /
User-Agent: Applebot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: Claude-Web
Disallow: /
User-agent: Diffbot
Disallow: /
User-agent: ImagesiftBot
Disallow: /
User-agent: Omgilibot
Disallow: /
User-agent: Omgili
Disallow: /
User-agent: YouBot
Disallow: /

Ze hóeven er niet aan te gehoorzamen maar het is een good practice. Een andere methode is blokkeren via een .htaccess regel maar het risico daarvan is dat er een conflict met andere instellingen voor uw site kan ontstaan ingeval er een foutje wordt gemaakt,..

Deel deze pagina: