.NET CMS DNN

Online marketing blog

Anonym
/ Categorie: Online marketing
Robots.txt in DNN

Robots.txt in DNN

In DNN plaats het robots.txt bestand in de root van de website. In de robots.txt geef je de user-agent en de te indexeren pagina’s aan. Het is een cruciaal onderdeel van SEO.

 

Wat is een robots.txt?

Het robots.txt bestand geeft webmasters de mogelijkheid om zoekmachines te instrueren welke pagina’s zij wel en niet mogen indexeren. Dit is een "gewoon" text-bestand dat werkt op basis van het Robots Exclusion Protocol. Dit protocol stelt webmasters in staat bepaalde pagina's uit te sluiten van indexering in specifieke zoekmachines. De syntax die gebruikt dient te worden in robots.txt:

User Agent: [naam specifieke spider]
Disallow: [paginanaam] 

 

Het robots.txt bestand van een website is normaliter te vinden op:

 

Wat is de invloed van robots.txt op zoekresultaten?

Voordat je het robots.txt bestand instelt, moet je eerst weten wat zoekmachines nodig hebben om jou website zo goed mogelijk te indexeren. Het wijzigen of instellen van het robots.txt bestand beïnvloedt namelijk de vindbaarheid in zoekmachines.

Blokker nooit JavaScript of CSS via het robots.txt bestand. Waarom? Omdat zoekmachines het Document Object Model (DOM) interpreteren. Dus als toch een JS of CSS bestand blokkeert kan Google niet zien of je witte teksten op een witte achtergrond heb gezet. Het DOM interpreteren biedt zoekmachines de mogelijkheid om black hat seo technieken af te straffen. Wanneer je in Google Search Console dus een daling ziet van het aantal weergaven, controleer dan eerst altijd het robots.txt bestand en de indexeringsstatus van je website.

Search Console grafiek ingestort na wijziging in de robots.txt

 

Zelf maakt Google de aanbeveling om de Googlebot nooit te blokkeren. Bij een verslechtering van de vindbaarheid in de zoekresultaten biedt Google een stappenplan aan webmasters.

 

 

Wat kunnen zoekmachines indexeren?

Een veel voorkomende uitspraak is dat Google geen JavaScript kan indexeren, niets is echter minder waar. Uit onderzoek van Searchengineland blijkt namelijk dat de bots van Google slim genoeg zijn om dynamische websites perfect te indexeren. 

Google heeft een lijst gepubliceerd met alle bestandtypen die het kan indexeren. Dat Google al deze bestanden kan indexeren wilt niet zeggen dat je ze ook moet gebruiken. Onder meer Flash wordt afgeraden om te gebruiken. Google heeft namelijk nog steeds moeite om Rich Media te indexeren. Geef bij dergelijke bestanden dan ook altijd een goede alt tekst en title.

 

Spiders en crawling van robots.txt

In principe indexeren en tonen zoekmachines elke webpagina die zij kunnen vinden. Elke zoekmachine maakt daarbij gebruik van zijn eigen crawler. Alle crawlers zijn in te zien in de robots database. Gelukkig kan je met een aterisk (*) al deze spiders in één keer instrueren.

Toestaan dat alle pagina’s worden geïndexeerd:

User-agent: *
Disallow:

 

Of:

User-agent: *
Allow: /

 

Uitsluiten dat de website wordt geïndexeerd:

User-agent: *
Disallow: /

 

Uitsluiten van de Admin & search omgeving in DNN:

User-agent: *
Disallow: /Admin
Disallow: /Default.aspx?*
Disallow: /?Search=

 

Voor het instellen van de robots.txt per spider, stel je naast generieke uitsluitingen ook uitsluitingen per spider in:

/*User Agent Google*/
User-agent: Googlebot
Disallow: /App_Browsers/

/*User Agent Yahoo*/
User-agent: Yahoo Pipes 1.0
Disallow: /Resources/

/*User Agent Bing*/
User-agent: msnbot
Disallow: /Resources/

/*User Agent Twitter*/
User-agent: Twitterbot
Disallow: /Resources/
 

Een goed robots.txt bestand

Afhankelijk van de opbouw van je DNN website stel je de robots.txt in. Voor een DNN website geldt dat de Adminomgeving moet worden geblokkeerd. Een goed robots.txt bestand bevat naast blokkeringen ook een verwijzing naar de XML sitemap.

Sitemap: http://dotnetnuke.nl/sitemap.aspx
 

Robots.txt vs meta robots

Op rootniveau stel je het robots.txt bestand in. Op paginaniveau kan je de spiders extra informatie meegeven aan de hand van meta tags. Het robots.txt bestand instrueert zoekmachines of ze überhaupt een pagina mogen indexeren, de meta tag instrueert zoekmachines op welke wijze die pagina moet worden geïndexeerd. Een typische robots meta tag:

<meta name="googlebot" content="noindex" />

Voor de metatag bestaan verschillende instructies.

Instructie Beschrijving
All Er gelden geen beperkingen voor het indexeren of de weergave. Opmerking: Deze instructie is de standaardwaarde en heeft geen effect als deze expliciet wordt vermeld.
noindex Deze pagina niet weergeven in zoekresultaten en geen link 'In het cachegeheugen opgeslagen' weergeven in zoekresultaten.
nofollow De links op deze pagina niet volgen.
none Gelijk aan noindex, nofollow.
noarchive Geen link 'In het cachegeheugen opgeslagen' weergeven in zoekresultaten.
nosnippet Geen fragment in de zoekresultaten weergeven voor deze pagina.
noodp Geen metadata uit het Open Directory-project voor titels of fragmenten weergeven voor deze pagina. Deze data is te vinden op DMOZ.
notranslate Geen vertaling voor deze pagina aanbieden in zoekresultaten.
noimageindex De afbeeldingen op deze pagina niet indexeren.
unavailable_after: [RFC-850 date/time] Deze pagina niet na de opgegeven datum/tijd weergeven in zoekresultaten. De datum/tijd moet worden opgegeven in RFC 850-indeling.

Voor een complete uitleg verwijs ik je naar Google.

 

Robots.txt testen en verzenden naar Google

Als je het robots.txt bestand hebt geplaatst in de www directory van je website kan je hem naar Google verzenden. Dit wordt gedaan via Search Console.

In de balk geef je de url op waar de robots.txt is te vinden om vervolgens aan te geven welke bot de pagina moet indexeren.

Enthousiast geworden? Mis niets met de maandelijkse DNN nieuwsbrief!

Delen

Printen

Laat een reactie achter

This form collects your name, email, IP address and content so that we can keep track of the comments placed on the website. For more info check our Privacy Policy and Terms Of Use where you will get more info on where, how and why we store your data.
Reactie toevoegen

Theme picker

  • GVG Oliehandel

    GVG Oliehandel: internationaal actief in alles wat met benzine, olie en reiniging te maken heeft. Idas heeft deze responsive website gerealiseerd in meerdere talen. Doel is het etaleren van de 6 merken die GVG vertegenwoordigt.

    Bekijk project
  • Het Beekdal Lyceum

    Bekijk project
  • De Spil

    Bekijk project
  • Vindjeruimte.nl

    Vindjeruimte is een online platform dat vraag en aanbod van het maatschappelijk vastgoed bij elkaar brengt. Op de website kun je eenvoudig een ruimte of accommodatie vinden en boeken. Het complete platform wordt door diverse gemeenten en organisaties gebruikt als reserveringssysteem.

    Bekijk project
  • Noordwest Ziekenhuisgroep

    Bekijk project
  • Bald Logistics

    Bekijk project
  • Tribuut

    Bekijk project
  • Vmbo 't Venster

    Bekijk project
  • Maarten van Rossem VMBO

    Bekijk project