Robots.txt

El Robots.txt es un archivo que pude dar o restringir el acceso de determinadas secciones de tu sitio web a los bots de los motores de búsqueda. Moz lo define de la siguiente manera.

Robots.txt es un archivo de texto que los webmasters crean para instruir a los robots web (generalmente robots de motores de búsqueda) sobre cómo rastrear páginas en su sitio web. El archivo robots.txt es parte del protocolo de exclusión de robots (REP), un grupo de estándares web que regulan cómo los robots rastrean la web, acceden e indexan contenido y sirven ese contenido a los usuarios. 

El REP también incluye directivas como meta robots , así como instrucciones de página, subdirectorio o en todo el sitio sobre cómo los motores de búsqueda deben tratar los enlaces (como «seguir» o «no seguir»).

En definitiva, gracias al archivo robots.txt podemos mandar órdenes a los bots y decirles qué contenido queremos que rastreen dentro de nuestros sitios webs, por lo general su configuración puede ser sencilla, pero su configuración se puede volver más técnica según la optimización que se quiera dar.

También, el archivo robots.txt es utilizado para hacer privadas algunas secciones, aunque eso no quite que se pueda acceder a ellas, o bien para mejorar el crawler del sitio web.

¿Para qué sirve el archivo robots.txt?

Esto nos dice la guía de webmaster de Google. El archivo robots.txt se utiliza sobre todo para gestionar el tráfico de los rastreadores a tu sitio web y, a menudo, para que Google no rastree determinadas páginas, según el tipo de archivo:

Tipo de páginaGestión del tráficoOcultar de GoogleDescripción
Página web

En el caso de las páginas web (HTML, PDF y otros formatos no multimedia que Google puede leer), los archivos robots.txt se pueden usar para gestionar el tráfico de los rastreadores si crees que tu servidor se sobrecargará con solicitudes del rastreador de Google, o bien para evitar que se rastreen páginas sin importancia o similares en tu sitio web.

No uses robots.txt para ocultar una página web de los resultados de la Búsqueda de Google, ya que, si otras páginas apuntan a esa página con texto descriptivo, es posible que se indexe aunque no se visite. Si quieres bloquear una página para que no aparezca en los resultados de búsqueda, usa otro método; por ejemplo, protégela con contraseña o utiliza una directiva noindex.

Si tu página web está bloqueada por un archivo robots.txt, puede seguir apareciendo en los resultados de búsqueda, pero sin ninguna descripción y más o menos con este aspecto. Se excluirán los archivos de imagen y vídeo, así como los archivos PDF y otros archivos que no sean HTML. Si la búsqueda de tu página muestra este resultado y quieres corregirlo, elimina la entrada del archivo robots.txt que bloquea la página. Si quieres ocultar la página completamente de la búsqueda, utiliza otro método.

Archivo multimedia

Con archivos robots.txt, puedes gestionar el tráfico de los rastreadores y evitar que los archivos de imagen, vídeo y audio aparezcan en los resultados de la Búsqueda de Google. De todas formas, ten en cuenta que no impedirá que otras páginas o usuarios enlacen a tu archivo de imagen, vídeo o audio.

Archivo de recursos

Con archivos robots.txt, puedes bloquear los archivos de recursos (como los de imagen, secuencias de comandos o estilo que no sean importantes) si crees que prescindir de ellos no afectará de forma significativa a las páginas que se carguen sin dichos recursos. No obstante, si crees que complicaría el análisis del rastreador de Google, no debes bloquearlos; si lo haces, Google no podrá analizar correctamente las páginas que dependan de dichos recursos.

Ejemplos de robots.txt

Deberás saber que el parámetro User-agent: * es para dar acceso total a las arañas para rastrear, y el parámetro «Disallow:, seguida de una url» será para indicar que, de todo el contenido permitido, no se rastree esa url. 

Por último, es importante que facilites tu sitemap en el archivo Robots.txt. Vamos a indicar varias situaciones posibles de aplicación del archivo robots.txt en un sitio web.

Acceso denegado para todos los bots

User-agent: *
Disallow: /

Con esta configuración bloqueamos a todos los bots que accedan y rastreen nuestro sitio web.

Acceso total para los bots

User-agent: *
Disallow:

Al no tener / estamos indicando que no bloqueamos ningún acceso, por tanto, cualquier bot podrá rastrear nuestro sitio web sin ninguna restricción.

Acceso básico robots.txt

Si utilizas wordpress, puedes empezar a crear un archivo robots.txt básico como este

#Acceso General con exclusión al wp-admin
User-agent: * Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

#Previene problemas de recursos bloqueados en Google Webmaster Tools
User-Agent: Googlebot
Allow: /*.css$
Allow: /*.js$

#Indica tus sitemaps aquí
Sitemap: tusitemap.xml

Configuración robots.txt avanzado

La siguiente configuración sería ideal para wordpress. Recuerda que debes entender previamente qué se está bloqueando o permitiendo en cada momento.

User-agent: *
Allow: /wp-content/uploads/*
Allow: /wp-content/*.js
Allow: /wp-content/*.css
Allow: /wp-includes/*.js
Allow: /wp-includes/*.css
Disallow: /cgi-bin
Disallow: /wp-content/plugins/ 
Disallow: /wp-content/themes/ 
Disallow: /wp-includes/ 
Disallow: /*/attachment/
Disallow: /tag/*/page/
Disallow: /tag/*/feed/
Disallow: /page/
Disallow: /comments/
Disallow: /xmlrpc.php
Disallow: /?attachment_id*

# Previene problemas de recursos bloqueados en Google Webmaster Tools
User-Agent: Googlebot
Allow: /*.css$
Allow: /*.js$ # Bloqueo de las URL dinamicas Disallow: /*? #Bloqueo de busquedas User-agent: * Disallow: /?s= # Bloqueo de trackbacks User-agent: * Disallow: /trackback Disallow: /*trackback Disallow: /*trackback* Disallow: /*/trackback # Bloqueo de feeds para crawlers User-agent: * Allow: /feed/$ Disallow: /feed/ Disallow: /comments/feed/ Disallow: /*/feed/$ Disallow: /*/feed/rss/$ Disallow: /*/trackback/$ Disallow: /*/*/feed/$ Disallow: /*/*/feed/rss/$ Disallow: /*/*/trackback/$ Disallow: /*/*/*/feed/$ Disallow: /*/*/*/feed/rss/$ Disallow: /*/*/*/trackback/$ # Ralentizamos algunos bots que se suelen volver locos User-agent: noxtrumbot Crawl-delay: 20 User-agent: msnbot Crawl-delay: 20 User-agent: Slurp Crawl-delay: 20 # Bloqueo de bots y crawlers poco utiles User-agent: MSIECrawler Disallow: / User-agent: WebCopier Disallow: / User-agent: HTTrack Disallow: / User-agent: Microsoft.URL.Control Disallow: / User-agent: libwww Disallow: / User-agent: Orthogaffe Disallow: / User-agent: UbiCrawler Disallow: / User-agent: DOC Disallow: / User-agent: Zao Disallow: / User-agent: sitecheck.internetseer.com Disallow: / User-agent: Zealbot Disallow: / User-agent: MSIECrawler Disallow: / User-agent: SiteSnagger Disallow: / User-agent: WebStripper Disallow: / User-agent: WebCopier Disallow: / User-agent: Fetch Disallow: / User-agent: Offline Explorer Disallow: / User-agent: Teleport Disallow: / User-agent: TeleportPro Disallow: / User-agent: WebZIP Disallow: / User-agent: linko Disallow: / User-agent: HTTrack Disallow: / User-agent: Microsoft.URL.Control Disallow: / User-agent: Xenu Disallow: / User-agent: larbin Disallow: / User-agent: libwww Disallow: / User-agent: ZyBORG Disallow: / User-agent: Download Ninja Disallow: / User-agent: wget Disallow: / User-agent: grub-client Disallow: / User-agent: k2spider Disallow: / User-agent: NPBot Disallow: / User-agent: WebReaper Disallow: / # Sitemaps Sitemap: tusitioweb/sitemap.xml

Espero que te sea de mucha utilidad.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *