Robots Exclusion Protocol

Het Robots Exclusion Protocol, robots exclusion standard of robots.txt protocol is een conventie om (delen van) een normaal toegankelijke website af te schermen voor bepaalde webspiders en zoekrobots.

Dit wordt met name gebruikt om te voorkomen dat (delen van) een website ongevraagd automatisch wordt gekopieerd en bijvoorbeeld daarmee wordt opgenomen in zoekresultaten van zoekmachines. Het kopiëren kan ook gevolgen hebben voor de bereikbaarheid van een website, vooral als het een druk bezochte website is. Tevens gebruiken websites dit protocol om er bijvoorbeeld voor te zorgen dat zoekmachines alleen de startpagina van een website weergeven.

Het protocol maakt gebruik van het robots.txt-bestand, dat in de rootdirectory van een website wordt gezet. Als alternatief voor dit speciale bestand kan in bestaande HTML-bestanden middels HTML-tag Meta het attribuut "robots" worden opgenomen.

Ontstaan en gebruik

Er is geen officiële standaard of RFC van het Robots Exclusion Protocol. Het werd met behulp van een consensus in juni 1994 gecreëerd door leden van de WWW Robots Mailing List ([email protected])

Het protocol dient echter alleen ter advies en gaat uit van medewerking van de bezoekende webrobot. Het kan dus niet daadwerkelijk de toegang tot bestanden en mappen ontzeggen en is daarmee ongeschikt om (delen van) een website af te schermen. Er zijn robots die het protocol (al dan niet bedoeld) negeren of niet kennen. Tevens is het robots.txt-bestand voor iedereen zichtbaar. Dat kan dan weer gebruikt worden om bijvoorbeeld de useragent van een robot als een normale webbrowser in te stellen, zodat de robot zonder problemen zijn werk op een website kan doen. Ook al wordt zulk gedrag afgeraden en als zeer onbeleefd gezien, het protocol kan dus absoluut niet de afscherming van de website garanderen. Het protocol is dan ook voornamelijk bedoeld om gegevens die irrelevant zijn voor bezoekers niet weer te geven in de zoekresultaten van zoekmachines.

Optie 1: speciaal bestand robots.txt

robots.txt is het computerbestand dat instructies bevat voor useragents, conform het protocol.

Een simpel voorbeeld van de syntaxis is:

User-agent: spambot10000 Disallow: / 

Bovenstaande zegt dat alle useragents die zich identificeren als spambot10000 verzocht worden om geen toegang te nemen tot "/" en alle onderliggende mappen. In andere woorden: geen toegang tot de gehele website.

User-agent: * Disallow: /cgi-bin/ Disallow: /test/ Disallow: /prive/ 

In het tweede voorbeeld zien we een asterisk staan: * achter User-agent:. Dit betekent: "alle robots". Alle robots mogen in dit voorbeeld dus alle directory's bezoeken behalve de directory's cgi-bin, test en privé.

Zie externe links voor enkele voorbeeldbestanden.

Optie 2: attribuut Meta name="robots" in bestaande HTML-pagina's

Het alternatief voor het speciale bestand robots.txt is om aan bestaande HTML-pagina's een attribuut van de HTML-tag Meta toe te voegen, genaamd "robots". Hiermee kan een robot de instructie gegeven worden om een bepaalde webpagina wel of niet te indexeren en wel of niet de links te volgen naar een andere webpagina. Het volgende voorbeeld is een instructie in een HTML-pagina waarmee alle robots verzocht worden om deze pagina wel te indexeren, maar niet de links te volgen die in de pagina staan:

 

Het is met deze optie echter niet mogelijk om instructies te geven aan bepaalde useragents. Dit kan alleen met gebruik van robots.txt.

Zie ook

Algemeen

Voorbeelden

Tags:

Robots Exclusion Protocol Ontstaan en gebruikRobots Exclusion Protocol Optie 1: speciaal bestand robots.txtRobots Exclusion Protocol Optie 2: attribuut Meta name=robots in bestaande HTML-paginasRobots Exclusion Protocol Zie ookRobots Exclusion Protocol Externe linksRobots Exclusion ProtocolConventieWebsiteWebspiderZoekmachineZoekrobot

🔥 Trending searches on Wiki Nederlands:

Deelstaten van DuitslandANWBIndiaMiddeleeuwenEline Vedder-MonasterNationale DodenherdenkingElfstedentochtEredivisie (mannenvoetbal)Johan CruijffRoma (volk)KrezipElvis PresleyVincent van GoghMazelenWolfMenselijke vaginaKretaTravellersPremier League Darts 2024Jos GeyselsJelle De BeuleK3 (muziekgroep)Lijst van Nederlandstalige cabaretiersCivil War (film)Anne De BaetzelierLijst van grootste gemeenten in NederlandAftrekken (seksuele handeling)Het JachtseizoenCoen van Vrijberghe de ConinghLeonardo da VinciHaarlemRwandaToto (band)Andrew van YorkGraham PotterWelmoed SijtsmaNancy PelosiDavid BowieColin CoosemansWillem III der NederlandenLiefde voor muziek (televisieprogramma)Russische invasie van Oekraïne sinds 2022Femke HalsemaXavi HernándezMike PinderPatty BrardJohn de WolfVlaanderenGuus TilVolksrepubliek ChinaOxycodonMalik TillmanMathieu van der PoelKlimaatMark UytterhoevenSunneklaasXXXXWillem HolleederTreinkaping bij De PuntLondenVantage Point (film)Provincies van NederlandKinkhoestCristian ChivuHeerenveen (plaats)Europees kampioenschap voetbal mannenIJslandAxel DaeseleireProvincies van BelgiëPokerKevin De BruyneDe slechtste chauffeur van NederlandLijst van seizoenen van Liefde voor muziekLucas HammingMillennialsXabi AlonsoSparta RotterdamChristendom🡆 More