Wat is een robots.txt? Heers.nl

Je hebt vast wel eens een SEO specialist inhuren horen praten over ‘robots.txt, maar wat is dat nou eigenlijk? Een robots.txt bestand zit in de hoofdmap op de server, ook wel de root van de website genoemd. Zoekmachines zoals Google gebruiken dit bestand om te checken welke delen van de site ze mogen crawlen en welke juist niet. Hieronder zie je een voorbeeld van een robots.txt bestand van Heers.

Inhoudsopgave

Heeft jouw website een Robots.txt bestand?

Wil jij graag weten of jouw website een Robots.txt bestand heeft? Type dan achter de / van jouw website ‘robots.txt’ Daarnaast kan je in Search Console testen of zoekmachines de websites wel of niet mogen crawlen. Ga dan naar het kopje ‘indexeren‘, klik op pagina’s en hier kun je zien welke pagina’s wel of niet zijn geïndexeerd.

pagina's indexeren in Google Search Console

Waarom kan jouw website niet zonder Robots.txt?

Met dit bestand kan jij bepalen welke pagina’s wel en niet gecrawld mogen worden door zoekmachine-robots. Je kan verschillende pagina’s uitsluiten die bijvoorbeeld geen meerwaarde bieden voor de bezoeker, zoals een admin-omgeving of een bedankt-pagina na het afrekenen van de spullen in het winkelmandje van je webshop.

Hierdoor gaat de aandacht van de zoekmachine-robots alleen langs de pagina’s die je wel wil laten indexeren. Let wel op dat je het robots.txt bestand op een goede manier gebruikt. Het verkeerd gebruiken van het robots.txt bestand kan schadelijk zijn voor de SEO resultaten van je website.

Robots.txt: hoe werkt het?

We beloven je altijd begrijpelijke taal, dus bij deze: het robots.txt bestand kan toestemming geven of toestemming weigeren om pagina’s te crawlen. Crawlen betekent eigenlijk gewoon dat zoekmachinerobots jouw website eenvoudig kunnen checken. Deze bots houden zich aan de Robots Exclusion Standard.

Een zoekmachine robot brengt dus een bezoek aan jouw website. Voordat deze zoekmachine robot begint met crawlen (onderzoeken), wordt eerst het Robots.txt bestand gecontroleerd.

Bekijk het screenshot van de robots.txt van Heers hierboven maar eens. Hierin zie je dat de admin omgeving moet worden geweigerd door de bots, maar dat deze wel gelijk toegang hebben tot de sitemap van Heers. ‘Disallow’ is dus weigeren en ‘allow’ is toestaan om te crawlen. In de Robots.txt een verwijzing naar jouw website is één van de belangrijkste dingen als het gaat om SEO.

Wat is een sitemap in het robots.txt bestand?

Zie de sitemap als een Google Maps, maar dan de wegenkaart van jouw website. Doordat de zoekmachine robot in het Robots.txt bestand wordt gestuurd naar de sitemap – ook wel de wegenkaart – kan de robot jouw website heel efficiënt crawlen zonder crawl budget te verspillen.

Wél belangrijk hierbij is dat de sitemap zichzelf op reguliere basis update. Als de zoekmachinerobot bepaalde pagina’s niet kan vinden, maar deze wel in de sitemap staan vermeld, is het mogelijk dat je een foutmelding krijgt in de Google Webmaster Tools. Dit wil je absoluut voorkomen.

Ook dit kan je in Search Console checken. Surf naar Google Search Console, ga naar ‘indexeren’ en klik op sitemaps. Hier kan je checken of jouw sitemap regelmatig wordt gecrawld.

Belangrijke onderdelen in het robots.txt bestand

Doordat het robots.txt bestand voor iedereen toegankelijk is, is het af te raden om hier wachtwoorden en gevoelige informatie in te verwerken. Deze gegevens wil je koste wat het kost beschermen.
Niet alleen zoekmachine-robots crawlen het robots.txt bestand, sommige bots negeren juist het robots.txt bestand. Dit gaat dan bijvoorbeeld om malware en andere virus software. Deze zullen dus jouw gehele website alsnog crawlen.

Waar moet het staan?

Deze dient in de ‘root’ van jouw domein te staan, zoals we al eerder zeiden achter de slash. Controleren of jouw robots.txt bestand werkt en klopt? Type dan (we nemen Heers als voorbeeld) https://www.heers.nl/robots.txt in in de zoekbalk. Dit dienen allemaal kleine letters te zijn en geen hoofdletters.

De functies van het dit bestand

User agent: deze geeft aan dat de zoekmachine-robots de website mogen crawlen
Disallow: dit geeft aan dat de zoekmachine-robots bepaalde gedeeltes over moet slaan en dus niet mogen crawlen
Allow: geeft aan de zoekmachine-robots aan welke bestanden, files en pagina’s ze wel mogen crawlen voor de zoekmachine
Sitemap: deze geeft een ‘roadmap’ aan van de website en geeft aan waar deze sitemap te vinden is
#: door middel van een hashtag heb je de mogelijkheid om tekst toe te voegen aan je robots.txt bestand

Een robots.txt bestand aanmaken: hoe doe je dat?

Heb jij een WordPress website? Dan kun je gebruik maken van handige plugins zoals bijvoorbeeld Yoast. Deze genereert eenvoudig het robots.txt bestand voor jouw website en maakt tegelijk ook een XML sitemap aan. De sitemap dien je wel handmatig in het robots.txt bestand te plaatsen. Heb jij geen WordPress website en wil je het robots.txt bestand zelf maken? Dan dien je dit in HTML te doen. Dit kan met een HTML editor. Is het bestand klaar? Dan upload je deze naar de root van jouw website.