Soft 404’s in on-site zoekresultaten: De oplossing!

Sinds vorig jaar meldt Google in Webmaster Tools naast ‘gewone’ 404’s ook soft 404’s. Google geeft zelf een heel specifieke uitleg voor deze 404’s:

“De inhoud van de pagina is niet gerelateerd aan de HTTP-reactie die wordt geretourneerd door de server.

Als op een pagina een 404-bericht ‘Bestand niet gevonden’ wordt weergegeven, betekent dit niet dat dit een 404-pagina is.

Het is vergelijkbaar met een giraffe met een naamplaatje waarop ‘hond’ staat.

Al staat er ‘hond’, dat betekent nog niet dat het ook daadwerkelijk een hond is.

Als er op een pagina dus 404 staat, houdt dit dus ook niet in dat er een 404-pagina wordt geretourneerd.

kunt ophalen als Googlebot (of andere hulpprogramma’s die beschikbaar zijn op internet) gebruiken om te controleren of de URL daadwerkelijk de juiste code retourneert..”

Bron: Google 

Okay. Pagina’s die bijvoorbeeld aangeven ‘pagina niet gevonden’ maar die een statuscode 200 hebben in plaats van de (met de inhoud van de pagina overeenkomende) 404, zijn dus giraffes die geen honden zijn.

En dat noemen we soft 404’s.

Vooruit.

soft 404

Maar na het bestuderen van de soft 404’s van verschillende klanten, valt me op dat deze uitleg niet altijd klopt. Google Webmaster Tools (GWMT) laat namelijk soft 404’s zien die volgens het bovengenoemde stukje niet per se een soft 404 zouden moeten zijn.

Zoals bij zoekresultatenpagina’s op de betreffende website(s), waarbij geen resultaten gevonden worden.

Deze pagina’s blijken echter wel een 404-statuscode te retourneren.

En dat is vreemd, omdat dit juist het tegenovergestelde is van wat Google als soft-404 bestempelt.

Hoe lossen we deze 404’s op?

Als het er niet te veel zijn en als het gaat om pagina’s die niet van belang zijn voor je rankings of traffic zijn 404’s in principe geen onoverkomelijk probleem.

Toch is het goed ze bij te houden zodat Google pagina’s die ‘doodlopen’ niet langer meer indexeert.

Zo is het ook eenvoudiger overzicht te houden over nieuwe (en soft) 404’s die er wel toe doen.

Om de soft 404’s veroorzaakt door sitesearch op te lossen, hoef je eigenlijk maar één ding te regelen.

Zorg dat de zoekresultaten op je site niet worden geïndexeerd door Google. Dit kan op verschillende manieren:

  • Disallowen via robots.txt
  • Een no-follow, no-index in de metatag plaatsen
  • Uitsluiten in GWMT

Puntsgewijs

Vallen alle zoekopdrachten onder een subdirectory, bijvoorbeeld: /search/dan is het eenvoudig om deze uit te sluiten via de robots.txt. Naar dit model:

robots.txt

Is dit niet altijd het geval en wordt er ook gebruikgemaakt van een parameter bij elke zoekopdracht, dan is het daarnaast mogelijk om die ook uit te sluiten in GWMT. Als de parameter q?= in elke URL van een zoekopdracht staat, is dat de parameter die je uitsluit.

Dit kan in GWMT onder het kopje Crawlen > URL-Parameters.

 

urlparameter

 

De derde optie, het plaatsen van een metatag in de broncode, is in dit laatste geval niet mogelijk, omdat de gegenereerde URL’s steeds uniek zijn.

Conclusie?

Ga nauwkeurig te werk en zorg dat je het aantal gewone en soft 404’s in GWMT altijd zo klein mogelijk houdt en deze zo snel mogelijk oplost.

Zo blijft de optimale gebruiksvriendelijkheid voor zowel de gebruiker als de zoekmachine gewaarborgd.

En, zoals Thessa afgelopen week al even aanstipte, voorkomen blijft natuurlijk altijd beter dan genezen.

NB Hoe denken jullie dat complexe soft 404’s nog meer te verhelpen zijn?

Zijn er nog andere oplossingen voor vergelijkbare situaties?

 

  •  
  •  
  •  
  •  
  •  
  •  
  •  

Partners

Read more about our partners