Anonym / vrijdag 2 december 2016

Robots.txt in DNN

In DNN plaats het robots.txt bestand in de root van de website. In de robots.txt geef je de user-agent en de te indexeren pagina’s aan. Het is een cruciaal onderdeel van SEO.

Wat is een robots.txt?

Het robots.txt bestand geeft webmasters de mogelijkheid om zoekmachines te instrueren welke pagina’s zij wel en niet mogen indexeren. Dit is een "gewoon" text-bestand dat werkt op basis van het Robots Exclusion Protocol. Dit protocol stelt webmasters in staat bepaalde pagina's uit te sluiten van indexering in specifieke zoekmachines. De syntax die gebruikt dient te worden in robots.txt:

User Agent: [naam specifieke spider]
Disallow: [paginanaam]

Het robots.txt bestand van een website is normaliter te vinden op:

Domeinnaam.nl/robots.txt

Wat is de invloed van robots.txt op zoekresultaten?

Voordat je het robots.txt bestand instelt, moet je eerst weten wat zoekmachines nodig hebben om jou website zo goed mogelijk te indexeren. Het wijzigen of instellen van het robots.txt bestand beïnvloedt namelijk de vindbaarheid in zoekmachines.

Blokker nooit JavaScript of CSS via het robots.txt bestand. Waarom? Omdat zoekmachines het Document Object Model (DOM) interpreteren. Dus als toch een JS of CSS bestand blokkeert kan Google niet zien of je witte teksten op een witte achtergrond heb gezet. Het DOM interpreteren biedt zoekmachines de mogelijkheid om black hat seo technieken af te straffen. Wanneer je in Google Search Console dus een daling ziet van het aantal weergaven, controleer dan eerst altijd het robots.txt bestand en de indexeringsstatus van je website.

Search Console grafiek ingestort na wijziging in de robots.txt

Zelf maakt Google de aanbeveling om de Googlebot nooit te blokkeren. Bij een verslechtering van de vindbaarheid in de zoekresultaten biedt Google een stappenplan aan webmasters.

Wat kunnen zoekmachines indexeren?

Een veel voorkomende uitspraak is dat Google geen JavaScript kan indexeren, niets is echter minder waar. Uit onderzoek van Searchengineland blijkt namelijk dat de bots van Google slim genoeg zijn om dynamische websites perfect te indexeren.

Google heeft een lijst gepubliceerd met alle bestandtypen die het kan indexeren. Dat Google al deze bestanden kan indexeren wilt niet zeggen dat je ze ook moet gebruiken. Onder meer Flash wordt afgeraden om te gebruiken. Google heeft namelijk nog steeds moeite om Rich Media te indexeren. Geef bij dergelijke bestanden dan ook altijd een goede alt tekst en title.

Spiders en crawling van robots.txt

In principe indexeren en tonen zoekmachines elke webpagina die zij kunnen vinden. Elke zoekmachine maakt daarbij gebruik van zijn eigen crawler. Alle crawlers zijn in te zien in de robots database. Gelukkig kan je met een aterisk (*) al deze spiders in één keer instrueren.

Toestaan dat alle pagina’s worden geïndexeerd:

User-agent: *
Disallow:

Of:

User-agent: *
Allow: /

Uitsluiten dat de website wordt geïndexeerd:

User-agent: *
Disallow: /

Uitsluiten van de Admin & search omgeving in DNN:

User-agent: *
Disallow: /Admin
Disallow: /Default.aspx?*
Disallow: /?Search=

Voor het instellen van de robots.txt per spider, stel je naast generieke uitsluitingen ook uitsluitingen per spider in:

/*User Agent Google*/
User-agent: Googlebot
Disallow: /App_Browsers/

/*User Agent Yahoo*/
User-agent: Yahoo Pipes 1.0
Disallow: /Resources/

/*User Agent Bing*/
User-agent: msnbot
Disallow: /Resources/

/*User Agent Twitter*/
User-agent: Twitterbot
Disallow: /Resources/

Een goed robots.txt bestand

Afhankelijk van de opbouw van je DNN website stel je de robots.txt in. Voor een DNN website geldt dat de Adminomgeving moet worden geblokkeerd. Een goed robots.txt bestand bevat naast blokkeringen ook een verwijzing naar de XML sitemap.

Sitemap: http://dotnetnuke.nl/sitemap.aspx

Robots.txt vs meta robots

Op rootniveau stel je het robots.txt bestand in. Op paginaniveau kan je de spiders extra informatie meegeven aan de hand van meta tags. Het robots.txt bestand instrueert zoekmachines of ze überhaupt een pagina mogen indexeren, de meta tag instrueert zoekmachines op welke wijze die pagina moet worden geïndexeerd. Een typische robots meta tag:

<meta name="googlebot" content="noindex" />

Voor de metatag bestaan verschillende instructies.

Instructie	Beschrijving
All	Er gelden geen beperkingen voor het indexeren of de weergave. Opmerking: Deze instructie is de standaardwaarde en heeft geen effect als deze expliciet wordt vermeld.
noindex	Deze pagina niet weergeven in zoekresultaten en geen link 'In het cachegeheugen opgeslagen' weergeven in zoekresultaten.
nofollow	De links op deze pagina niet volgen.
none	Gelijk aan noindex, nofollow.
noarchive	Geen link 'In het cachegeheugen opgeslagen' weergeven in zoekresultaten.
nosnippet	Geen fragment in de zoekresultaten weergeven voor deze pagina.
noodp	Geen metadata uit het Open Directory-project voor titels of fragmenten weergeven voor deze pagina. Deze data is te vinden op DMOZ.
notranslate	Geen vertaling voor deze pagina aanbieden in zoekresultaten.
noimageindex	De afbeeldingen op deze pagina niet indexeren.
unavailable_after: [RFC-850 date/time]	Deze pagina niet na de opgegeven datum/tijd weergeven in zoekresultaten. De datum/tijd moet worden opgegeven in RFC 850-indeling.

Voor een complete uitleg verwijs ik je naar Google.

Robots.txt testen en verzenden naar Google

Als je het robots.txt bestand hebt geplaatst in de www directory van je website kan je hem naar Google verzenden. Dit wordt gedaan via Search Console.

In de balk geef je de url op waar de robots.txt is te vinden om vervolgens aan te geven welke bot de pagina moet indexeren.

Enthousiast geworden? Mis niets met de maandelijkse DNN nieuwsbrief!

Delen

Printen

Laat een reactie achter

Naam:	Voer een naam in.
Email:	Voer een e-mailadres in. Voer een geldig e-mailadres in.

Reactie:	Voer een reactie in.
I agree	This form collects your name, email, IP address and content so that we can keep track of the comments placed on the website. For more info check our Privacy Policy and Terms Of Use where you will get more info on where, how and why we store your data. You must read and accept this rules.

Reactie toevoegen

.NET CMS DNN

Online marketing blog

Robots.txt in DNN

Wat is een robots.txt?

Wat is de invloed van robots.txt op zoekresultaten?

Wat kunnen zoekmachines indexeren?

Spiders en crawling van robots.txt

Een goed robots.txt bestand

Robots.txt vs meta robots

Robots.txt testen en verzenden naar Google

Laat een reactie achter

Theme picker

GVG Oliehandel

Het Beekdal Lyceum

De Spil

Vindjeruimte.nl

Noordwest Ziekenhuisgroep

Parrow

Bald Logistics

NVLA

Tribuut

Vmbo 't Venster

Maarten van Rossem VMBO