Bij diverse clienten zien wij dat er extreem veel hits en dataverkeer veroorzaakt wordt door de AI Bot’s. Dat zijn ‘zoekmachines’ die data scannen van je website om daarmee hun ‘kunstmatige intelligentie’ te voeden.
Niet alleen is dat een inbreuk op uw rechten, er is ook een grote kans dat uw website automatisch offline wordt gezet wegens overschrijding van de datalimiet van uw pakket. Zo gebeurde dit gisteravond nog bij een cliënt van Brinkman.IT waar in 2 dagen tijd 214.066 “hits” op de site kwamen en maar liefst 9 gigabyte aan data werd ‘weggetrokken’ door één AI-bot (https://openai.com/gptbot).

Afb. https://www.vpnsrus.com/, CC BY 2.0 via Wikimedia Commons
Technische beperking AI bots
In de logging (onder de statistieken in uw DirectAdmin panel) ziet u dan bijvoorbeeld regels als dit voorkomen:
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)
Het is zaak dat u, als eigenaar van een website, hier actie op onderneemt.
Een copyright melding op uw website volstaat niet meer. Een AI-bot zal dit niet herkennen en ook wordt dit volledig genegeerd. Dit omdat de Amerikaanse wetgeving (waar de meeste AI Bots zijn gehost en ontwikkeld worden) anders is en men denkt dat de regels daar ook voor ons deel van de wereld geldt. Dat is natuurlijk niet het geval (lees er hier meer over). Daarom een tip voor een technische beperking op het stelen van uw kostbare data (in meerdere opzichten) en datatransfer.
Als je een website hebt waar je origineel materiaal publiceert kun je een bestandje plaatsen met de naam ‘robots.txt’. Dat is een tekstbestandje, bijvoorbeeld met kladblok gemaakt, waarin je zoekmachines en andere bots wel- of geen toegang verleend tot je website.
Tekstregels die je bijvoorbeeld in de robots.txt kunt opnemen:
User-agent: GPTBot Disallow: / User-agent: ChatGPT-User Disallow: / User-agent: Google-Extended Disallow: / User-agent: PerplexityBot Disallow: / User-agent: Amazonbot Disallow: / User-agent: ClaudeBot Disallow: / User-agent: Omgilibot Disallow: / User-Agent: FacebookBot Disallow: / User-Agent: Applebot Disallow: / User-agent: anthropic-ai Disallow: / User-agent: Bytespider Disallow: / User-agent: Claude-Web Disallow: / User-agent: Diffbot Disallow: / User-agent: ImagesiftBot Disallow: / User-agent: Omgilibot Disallow: / User-agent: Omgili Disallow: / User-agent: YouBot Disallow: /
Ze hóeven er niet aan te gehoorzamen maar het is een good practice. Een andere methode is blokkeren via een .htaccess regel maar het risico daarvan is dat er een conflict met andere instellingen voor uw site kan ontstaan ingeval er een foutje wordt gemaakt,..
