Robots.txt: por qué la mayoría de WordPress lo tienen equivocado y tú deberías de leer esto

¿Es posible que la mayoría de los archivos robots.txt que se usan en WordPress estén mal enfocados?

Después de la experiencia que tengo optimizando páginas web tengo una respuesta clara.

Si, la mayoría de los que veo están equivocados.

Bien porque están bloqueando más de lo que deben o todo lo contrario.

Por eso hoy voy a ayudarte a entender como funciona realmente el archivo robots.txt.

Además, veremos algunos casos de los fallos más comunes que se suelen ver.

Ya decides tú.

[toc]

¿Qué es un archivo robots.txt?

El robots.txt es un archivo físico que se crea en la raíz donde se aloja la página web o en caso de WordPress también puede ser virtual.

Sirve para dar indicaciones a los buscadores y bots de como tienen que rastrear nuestro sitio web.

Con él podemos limitar el modo que rastrear nuestra web, qué es lo que tienen que rastrear y como, y muchas más cosas.

Aunque debes de saber que puede que estas indicaciones las tengan en cuenta o no, dado que mucho no siguen estos estándares.

¿Para qué nos puede servir?

Este archivo tiene muchos usos, pero te diré los más comunes.

Intentar controlar lo que los bosts pueden rastrear

Desde él se pueden indicar qué directorios y contenidos permitimos que puedan ser rastreados.

Ojo: digo rastreados y no indexados, porque este archivo no impide que se indexen contenidos, aunque sí se muestran bloqueados en los resultados.

También se les puede indicar cada cuanto tiempo queremos que rastreen la web para que no tener un consumo desmesurado de recursos.

Añadir el sitemap o mapa del sitio

Si ya has creado tu mapa del sitio y lo has enviado a los buscadores, estos ya tendrán estos datos.

Pero puede que te interese que otros buscadores puedan acceder a él, así que lo podemos indicar en este archivo para facilitarles la tarea.

¿Para qué NO sirve el robots.txt?

Veo muchos sitios web que hacen un uso inadecuado de este archivo, así que voy a darte algunas indicaciones para que sepas los usos que no debes hacer.

Para ocultar o proteger directorios

Si tienes algo que no quieres que vean, no lo pongas aquí porque será todo lo contrario.

Todo bot o persona que vea tu archivo sabrá que intentas proteger ese directorio y más ganas le entrarán de ver qué hay.

Para NO indexar directorios de WordPress

Si por algún motivo se te están indexando directorios como el wp-admin, wp-includes o el wp-content, debes de saber que no es problema de este archivo como más abajo te explicaré.

Es porque tu hosting no está configurado para evitar el listado de directorios.

Si encima los bloqueas desde este archivo, lo que haces es empeorarlo.

La diferencia entre noindex y disallow

Debes de tener claros estos 2 conceptos para que puedas entender lo que viene a continuación.

Cuando indicamos a un contenido que sea noindex, estamos evitando que se indexe en los buscadores. Osea que no aparecerá.

Pero si lo que hacemos es bloquearlo mediante disallow no evitamos que se indexe, sino que lo hará, pero aparecerá bloqueado con la frase de «No hay disponible una descripción de este resultado debido al archivo robots.txt de este sitio».

Pero este seguirá indexado, cosa que hará que aumente el número de páginas que los buscadores deben rastrear.

El archivo robots virtual de WordPress

Antes de seguir debes de saber que en WordPress existen 2 tipos de archivos robots.txt, uno virtual y uno físico que puedes crear.

El archivo virtual lo trae WordPress de serie y solo se puede editar desde plugins o desde código.

En el momento en el que tú crees uno de forma física, el virtual queda invalidado, así que tenlo en cuenta.

La finalidad es la misma, pero el físico lo podemos editar de forma sencilla y el virtual no.

Analizo el típico robots.txt y te explico porqué es erróneo

El otro día haciendo una búsqueda de ejemplos para crear estos archivos, dí con un artículo de Raiola Network que son un hosting especializado en WordPress.

En él nos ponen como ejemplo el archivo perfecto para WordPress que todos deberíamos de crear.

Si no tienes conocimientos, lo normal es que cojas este archivo y lo copies en tu web al cuál.

Pero déjame decirte que estarías cometiendo un error garrafal si lo hicieras de esa manera.

Mi intención es ponerlo como ejemplo simplemente para poder analizarlo con profundidad, dado que es uno de los más «completos».

Me gustaría aclarar que ellos junto a Siteground y Webempresa son mis hostings favoritos, así que no hay ninguna intención de perjudicar a nadie.

El archivo robots.txt que ponen de ejemplo es el siguiente:

#robots de Raiola Networks
#es necesario personalizar algunas opciones o puede dar problemas

# Bloqueo basico para todos los bots y crawlers
# puede dar problemas por bloqueo de recursos en GWT
User-agent: *
Allow: /wp-content/uploads/*
Allow: /wp-content/*.js
Allow: /wp-content/*.css
Allow: /wp-includes/*.js
Allow: /wp-includes/*.css
Disallow: /cgi-bin
Disallow: /wp-content/plugins/ 
Disallow: /wp-content/themes/ 
Disallow: /wp-includes/ 
Disallow: /*/attachment/
Disallow: /tag/*/page/
Disallow: /tag/*/feed/
Disallow: /page/
Disallow: /comments/
Disallow: /xmlrpc.php
Disallow: /?attachment_id*

# Bloqueo de las URL dinamicas
Disallow: /*?

#Bloqueo de busquedas
User-agent: *
Disallow: /?s= 
Disallow: /search

# Bloqueo de trackbacks
User-agent: *
Disallow: /trackback
Disallow: /*trackback
Disallow: /*trackback*
Disallow: /*/trackback

# Bloqueo de feeds para crawlers
User-agent: *
Allow: /feed/$ 
Disallow: /feed/ 
Disallow: /comments/feed/
Disallow: /*/feed/$ 
Disallow: /*/feed/rss/$ 
Disallow: /*/trackback/$ 
Disallow: /*/*/feed/$ 
Disallow: /*/*/feed/rss/$ 
Disallow: /*/*/trackback/$ 
Disallow: /*/*/*/feed/$ 
Disallow: /*/*/*/feed/rss/$ 
Disallow: /*/*/*/trackback/$

# Ralentizamos algunos bots que se suelen volver locos
User-agent: noxtrumbot
Crawl-delay: 20
User-agent: msnbot
Crawl-delay: 20
User-agent: Slurp
Crawl-delay: 20

# Bloqueo de bots y crawlers poco utiles
User-agent: MSIECrawler
Disallow: / 
User-agent: WebCopier 
Disallow: / 
User-agent: HTTrack 
Disallow: / 
User-agent: Microsoft.URL.Control 
Disallow: / 
User-agent: libwww 
Disallow: / 
User-agent: Orthogaffe 
Disallow: / 
User-agent: UbiCrawler 
Disallow: / 
User-agent: DOC 
Disallow: / 
User-agent: Zao 
Disallow: / 
User-agent: sitecheck.internetseer.com 
Disallow: / 
User-agent: Zealbot 
Disallow: / 
User-agent: MSIECrawler 
Disallow: / 
User-agent: SiteSnagger 
Disallow: / 
User-agent: WebStripper 
Disallow: / 
User-agent: WebCopier 
Disallow: / 
User-agent: Fetch 
Disallow: / 
User-agent: Offline Explorer 
Disallow: / 
User-agent: Teleport 
Disallow: / 
User-agent: TeleportPro 
Disallow: / 
User-agent: WebZIP 
Disallow: / 
User-agent: linko 
Disallow: / 
User-agent: HTTrack 
Disallow: / 
User-agent: Microsoft.URL.Control 
Disallow: / 
User-agent: Xenu 
Disallow: / 
User-agent: larbin 
Disallow: / 
User-agent: libwww 
Disallow: / 
User-agent: ZyBORG 
Disallow: / 
User-agent: Download Ninja 
Disallow: / 
User-agent: wget 
Disallow: / 
User-agent: grub-client 
Disallow: / 
User-agent: k2spider 
Disallow: / 
User-agent: NPBot 
Disallow: / 
User-agent: WebReaper 
Disallow: /

# Previene problemas de recursos bloqueados en Google Webmaster Tools
User-Agent: Googlebot
Allow: /*.css$
Allow: /*.js$

# En condiciones normales este es el sitemap
Sitemap: https://raiolanetworks.es/sitemap.xml

# Si utilizas Yoast SEO estos son los sitemaps principales
Sitemap: https://raiolanetworks.es/sitemap_index.xml
Sitemap: https://raiolanetworks.es/category-sitemap.xml
Sitemap: https://raiolanetworks.es/page-sitemap.xml
Sitemap: https://raiolanetworks.es/post-sitemap.xml

Sin duda alguna es un archivo muy currado, menos por un pequeño detalle.

Este archivo no sirve o por lo menos no es la forma adecuada para hacer las cosas y te lo voy a explicar punto por punto.

El bloqueo de directorios de WordPress

Como la siguiente directiva están intentando evitar que directorios como wp-adminwp-content y wp-includes se rastreen.

Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/

Aquí tenemos varios problemas.

Desde que salió el algoritmo penguin 4 de Google, este quiere tener acceso a todos los archivos de una web ya sean CSS, JS, etc.

Ya no basta con que pueda examinar los HTML, debe de analizar la web completa incluidos todos los scripts.

Estos archivos se encuentran dentro de wp-includes y wp-content.

Si bloqueamos estas carpetas, lo único que estamos haciendo es entorpecer a los buscadores, por mucho que le demos acceso a algunos recursos.

Puede que mediante algunas directivas le des acceso a ciertos directorios, pero desde mi punto de vista no se debería de bloquear ninguno y hasta Yoast lo cuenta en su blog.

Si no me crees mira su archivo y verás como en él no bloquean nada.

Robots Yoast

Pero por otra parte y como te he comentado antes, puede que se nos estén indexando estos directorios y el motivo es porque el hosting permite el listado de directorios, cosa que es un error garrafal de seguridad.

Pero no se debería de arreglar de este modo porque al final lo estamos haciendo peor.

Si quieres ver otro ejemplo tienes la web de WordPress.com que gracias a indicar que quiere bloquear la carpeta admin de los resultados, ahora la está indexando, aunque indique que está bloqueada por robots.

Wp-admin indexado

Esto lo puedes probar tú mismo usando los comandos avanzados de Google.

Bloqueo de categorías y etiquetas

Es cierto que si no optimizamos correctamente el SEO de las categorías y etiquetas producen contenido duplicado y eso nos penaliza en los resultados.

Y que la mejor forma que tenemos de que no se indexen es aplicando noindex.

Pero si aplicamos el bloqueo directamente en el archivo robots, lo que vamos a conseguir es que jamás podamos eliminar esas urls de los resultados porque están bloqueadas.

Disallow: /category/
Disallow: /tag/

¿Se puede aplicar las directivas a categorías y etiquetas?

Puedes depende de la web, depende de la estrategia de contenidos y más cosas.

Pero es que si  además le hemos quitado de la url el «tag» y el «category» que WordPress trae de serie y como muchos sitios hacen, estas directivas no sirven para nada.

Bloqueo de los feeds

Si le echas un ojo a lo siguiente, lo que se supone que hace es bloquear los feeds RSS de WordPress para que no se rastreen y tampoco den problemas de contenido duplicado.

User-agent: *
Disallow: /feed/

El problema de esto es que no sirve absolutamente para nada, dado que WordPress aplica noindex a los feeds, osea que no se indexan y en la siguiente imagen te lo muestro.

Noindex feeds WordPress

He testeado los feeds de mi web con una herramienta y WordPress les está aplicando noindex mediante x-robots.

Osea que no sirve todo lo que se está poniendo para bloquearlos.

Bloqueo de urls dinámicas

Las urls dinámicas son todas las que después de la url, tienen un símbolo de interrogación que hace que cambie el contenido.

Sería algo así como http://miweb.cm/?lo-quesea.

Dentro de este tipo de urls entran las de búsqueda, las urls de los comentarios de WordPress y muchas otras.

Estas sí que son un calentamiento de cabeza a la hora de tener contenido duplicado, porque cada plugin que instalemos puede tener las suyas, además de las de WordPress.

Normalmente se bloquean con la siguientes directivas:

User-agent: *
Disallow: /?s=
Disallow: /*?

El problema aquí es que esto NO va a evitar que estos contenidos se indexen, sino que lo harán, pero aparecerán bloqueados.

Si, puede que no te den problemas de contenido duplicado, pero no es la forma correcta de hacerlo, porque aunque esas páginas estén bloqueadas, están indexadas.

Lo que habría que hacer es evitar el indexado.

Bloqueo de bots y crawlers

Con esta directiva lo que se intenta es bloquear a robots malos o menos buenos indicándoles de buena manera que no indexen nuestro sitio web.

# Bloqueo de bots y crawlers poco utiles
User-agent: MSIECrawler
Disallow: /
User-agent: WebCopier
Disallow: /
Y resto…

Puede que haya alguno que sí respete la normativa y no indexe la web, pero desde mi punto de vista, la mayoría lo rastrearán.

Es más, a muchos les estarás dando más pistas de directorios que no conocían para que los rastree.

Para esto hay mejores soluciones como bloquearlos con algún plugin como Wordfence o directamente desde el hosting.

Url del sitemap

Respecto a la url del sitemap o mapa del sitio, hay varias cosas que debemos de tener en cuenta.

Lo primero es que si queremos que Google u otro buscador indexe el mapa del sitio que crea el plugin Yoast, no debemos de poner todas las urls.

Con poner la url del mapa principal tenemos, porque los buscadores accederán a los que hay internamente y los podremos controlar mejor desde nuestra web.

Aquí te dejo una captura para que vea que solo enviando el principal que está arriba, hemos hecho clic en él y se van indexando los demás.

Sitemap índice

Osea que no hace falta añadir a mano los mapas del sitio de entradas, páginas, categorías y demás como ellos los están poniendo.

# Si utilizas Yoast SEO estos son los sitemaps principales
Sitemap: https://raiolanetworks.es/sitemap_index.xml
Sitemap: https://raiolanetworks.es/category-sitemap.xml
Sitemap: https://raiolanetworks.es/page-sitemap.xml
Sitemap: https://raiolanetworks.es/post-sitemap.xml

Pero es que además pasa otra cosa.

Si indicas el mapa del sitio en el archivo robots, cualquier bot puede tener acceso a él y ver lo que estás indexando.

Puede que la cosa interese o no, ya dependiendo del tipo de web.

La pregunta del millón: ¿qué archivo robots.txt debo de crear entonces para mi web?

Supongo que si has llegado a leer todo esto, te estarás preguntando qué debes de poner en el archivo.

¿No debes crearlo? ¿Debes de dejarlo vacío? ¿Debes de bloquear solo algunas cosas? ¿Cuáles?

La respuesta es sencilla, pero además compleja.

Lo primero decirte que el archivo es fundamental para cualquier web, pero no se puede hacer a la ligera.

No hay un archivo robots.txt que sirva para 2 sitios web, dado que cada uno tiene sus necesidades.

No es lo mismo una web que tiene una tienda online, un blog que no se usa, un blog que tiene miles de entradas, etc.

Tampoco te puedo decir por ejemplo bloquea las categorías sin saber porqué hay que bloquearlas.

Si te digo pon esto o pon lo otro te mentiría porque hay muchas variables en este juego que te pueden perjudicar o mejorar el posicionamiento.

Así que desde mi punto de vista no deberías de copiar ningún archivo robots, porque no te sirve.

Es más, posiblemente te perjudique el posicionamiento.

Necesitas una solución real y personalizada

Te seré sincero, he dado miles de vueltas pensando en como ayudarte a crear un archivo robots personalizado para tu web y no lo puedo hacer con un artículo.

No es solo crear un archivo, necesitas una solución completa y adaptada a tu web, según las necesidades de tu proyecto.

Así que mi recomendación por ahora es que si no sabes qué bloquear, lo dejes en blanco como tengo yo.

Mira mi archivo.

¿Te he roto todos los esquemas?

Supongo que después de leer este artículo estarás en duda con ese archivo robots que tanto te has trabajado o al que le has dado tantas vueltas.

Tranquilo, yo he estado en tu misma situación después de la investigación que he estado haciendo durante semanas.

Podría haber hecho un artículo sobre «toma, el mejor archivo robots.txt para tu web».

Incluso bien currado se podría haber posicionado delante de mi competencia, pero no es lo que quiero, no sería una solución real, sino un artículo con el que aumentar las visitas a web.

En fin, espero que este artículo te guste y si tienes alguna duda o quieres comentar algo, sabes que tienes la puerta abierta en mis comentarios.

Foto: https://es.123rf.com/profile_ktsdesign

50 comentarios en “Robots.txt: por qué la mayoría de WordPress lo tienen equivocado y tú deberías de leer esto”

  1. Raúl muchas gracias por el tutorial muy útil,
    el robots.txt lo genere con yoast automáticamente esto:
    User-agent: *
    Disallow: /wp-admin/
    Allow: /wp-admin/admin-ajax.php

    1. Si Javier, ese es el típico archivo robots que crea WordPress, aunque como digo en el artículo, hay que ver muy bien lo que se bloquea, porque la reglas de hoy día han cambiado. Saludos.

  2. Hola Raúl,

    Mi robots sale con 3 sitemaps, esta bien? Yo agregue el tercero siguiendo tu guía de sitemap en Yoast, cuando le di crear robots.txt los otros ya estaban.

    Sitemap: sitemap.xml
    Sitemap: news-sitemap.xml
    Sitemap: sitemap_index.xml
    User-agent: *
    Disallow: /wp-admin/
    Allow: /wp-admin/admin-ajax.php

    Por cierto buenas guías.

    1. Raúl González

      Hola Antonio,

      En tu caso solo necesitas 2 Sitemaps. Uno el de Yoast y otro el de las noticias.

      No te preocupes, ya he borrado la url.

      Saludos.

  3. Hola Raúl. Yo tengo una web de carátulas. En la cuál cada una de ellas está en una entrada de wordpress, por lo que tengo miles.
    Que me aconsejas que ponga en el robot?.
    Muchas gracias.

    1. Aarón no te puedo recomendar crear un archivo robots.txt así por que sí. Eso requiere un estudio de la web, porque si no podemos hasta perjudicarla.

      Saludos.

  4. Hola Raúl, te felicito por tus conocimientos y porque es de los mejores textos que he leído con sentido y que realmente ayudan. Necesito que me aconsejes sobre mi web almelx.es. Es una web construida por mi, con mis burdos conocimientos, pero intentando conseguir buenos resultados (no soy programador pero llevo trasteando ordenadores desde que existían el Amstrad, Dragon o el Spectrum). Montada con wordpress y WooCommerce, es una web de comercio que tambien uso categorias para productos, pero también quiero tener un blog. Tengo instalados Akismet, All in one Seo, Async JS and CSS, Aviso de Cookie, Contact Form 7, Postman SMTP y WP Rocket, que robots.txt me aconsejas y como quitar las URL duplicadas y/o con cadena de consulta. Por cierto uso también WPS Hide Login ¿puede alterar el rastreo o indexación ?. Un montón de gracias por ayudar con tus conocimientos.

    1. Raúl González

      Hola José,

      Muchas gracias y me alegro que te haya sido de ayuda.

      Mándame un email y hablamos de lo tuyo.

      Saludos.

  5. Hola Raúl necesito ayuda para mi sitio y es al buscarlo en google en la descripción sale lo mismo «No hay descripciones de este resultado disponibles debido al archivo robots.txt de este sitio.» y quiero que aparezca mi descripción de WordPress. Busque muchas soluciones y no funcionan, espero que me ayudes por favor.

    1. Diego puede ser porque has bloqueado tu sitio desde el archivo robots o a lo mejor has marcado las casilla de «Disuade a los motores de búsqueda de indexar este sitio» en ajustes – lectura de WordPress. Saludos.

      1. Muchas gracias por la respuesta Raul, pero ya desmarque la casilla y tengo un plugin e igual sigue apareciendo el mensaje de “No hay descripciones de este resultado disponibles debido al archivo robots.txt de este sitio.” en la descripción de mi web, en mi archivo robots.txt solo tengo
        User-agent: *
        Disallow: /wp-admin/
        Disallow: /wp-includes/
        Por favor ayudame a que aparezca mi descripción

  6. Pues de verdad que me has roto todos los esquemas. Lo extraño, es que Google no informe sobre lo que aquí afirmas y, si lo hace, me gustaría saber dónde.

    El motivo de llegar aquí después de muchas búsquedas, es aclarar una duda.

    Normalmente este es un archivo típico:
    User-agent: *
    Disallow: /wp-admin/
    Allow: /wp-admin/admin-ajax.php

    Pero que sucede si lo sustituimos por el siguiente:
    User-agent: *
    Disallow: /wp-admin

    Muchas gracias por todo.

    1. Si cambias el código por el segundo «bloqueas» todo el admin y Google no puede acceder a algunos archivos que necesita.

      Como has podido ver, no hay necesidad de bloquear tanto contenido desde el Robots porque por un lado hace que no puedan analizarla bien y por otro hay muchos que pasan de lo que dice.

      Saludos.

  7. Hola Raúl.
    Yo tengo el robots típico de wordpress:
    User-agent: *
    Disallow: /wp-admin/
    Allow: /wp-admin/admin-ajax.php

    Sin embargo en «explorar como Google» en algunas páginas me bloquea las imágenes y la secuencia de comandos y el robots aparece así:
    User-agent: *
    Disallow: /

    El «probador de robots.txt» no da ningún error, tampoco en estas páginas.

    ¿Existen diferentes robots.txt?
    ¿Te has encontrado con este problema antes?
    Pone que la gravedad es «Bajo» pero supongo que afecta al SEO, ¿verdad?

    Un saludo y gracias por el post.

    1. Hola Eduardo,

      Está el robot normal y el virtual como comento en el post. Aunque el primero machaca al segundo.

      Puede que tu problema venga por algún plugin, aunque así de primeras y sin verlo no sabría decirte. Problemas de este tipo hay montones y todos los días descubro alguno.

      Claro que te afecta al SEO, estás bloqueando toda la web, así que míralo bien.

      Saludos.

  8. Hola Raul . La verdad es que después de dar un paseo para informarte del famoso robots.txt te quedas un poco desorientado y más, si al final lo mejor es dejarlo en blanco. Yo tengo un del tipo del principio de este post. Y hasta ahora no parece ir mal. Solo tengo un problemilla que no logro desactivar.

    Es respecto a un error 403 de acceso denegado. Se supone que el robot está intentando acceder a la zona de wp-admin a través del archivo wp-login con cadenas como esta «wp-login.php?redirect_to=https%3A%2F%……………» en la que en los puntos suspensivos sigue el nombre de mi dominio y la ruta de wp-admin

    Claro. Google no puede entrar porque es un area de login, pero ¿Como le digo que no entre ahí? Me ha generado más de 100 errores de este tipo todos con la estructura indicada.

    Mi robot.txt en la parte que puede afectar a esto es el siguiente (que ya me estoy planteando reducir a la mínima expresión después de lo leído)
    —————————-
    User-agent: *
    Allow: /wp-content/uploads/*
    Allow: /wp-content/*.js
    Allow: /wp-content/*.css
    Allow: /wp-includes/*.js
    Allow: /wp-includes/*.css
    Disallow: /cgi-bin
    Disallow: /wp-includes/
    Disallow: /*/attachment/
    Disallow: /tag/*/page/
    Disallow: /tag/*/feed/
    Disallow: /category/*/*
    Disallow: /page/
    Disallow: /author/
    Disallow: /comments/
    Disallow: /location/
    Disallow: /xmlrpc.php
    Disallow: /?attachment_id*
    Disallow: */comment-subscriptions/

    Disallow: /*?

    User-agent: *
    Disallow: /?s=
    Disallow: /search

    User-agent: *
    Disallow: /trackback
    Disallow: /*trackback
    Disallow: /*trackback*
    Disallow: /*/trackback

    User-agent: *
    Allow: /feed/$
    Disallow: /feed/
    Disallow: /comments/feed/
    Disallow: /*/feed/$
    Disallow: /*/feed/rss/$
    Disallow: /*/trackback/$
    Disallow: /*/*/feed/$
    Disallow: /*/*/feed/rss/$
    Disallow: /*/*/trackback/$
    Disallow: /*/*/*/feed/$
    Disallow: /*/*/*/feed/rss/$
    Disallow: /*/*/*/trackback/$

    User-Agent: Googlebot
    Allow: /*.css$
    Allow: /*.js$
    —————————
    Mil gracias si desde tu experiencia haces que deje de deambular buscando arreglar esto, si es que es importante

    1. Hola Jota,

      A ver, una cosa es el bloqueo y otra la indexación. Los robots tienen que examinar tu sitio sí o sí para ejecutar el código completo. Y respecto al admin de WordPress, el archivo virtual que tiene ya hace que este no se indexe.

      Ahora, respecto a poner el archivo de un modo u otro, depende del sitio web y lo que se quiera hacer. Yo personalmente prefiero controlar esto desde algún plugin como Yoast y dejar el robots.txt para cosas que no se puedan controlar desde WordPress.

      Espero que te haya ayudado.
      Un saludo.

      1. Hola Raul. Gracias por tu respuesta, pero sigo un poco igual respecto a porque me devuelve esos errores 403 de acceso denegado y si les debo dar importancia o entra dentro de lo normal, porque, claro que hay acceso denegado. Obviamente google no sabe los usuarios y passwords para entrar en el panel de control de WP. Lo que me mosquea es que siendo tan obvio que es una zona restringida siendo además algo, que como dices, el propio archivo virtual que ya tiene wordpress ya hace que no se indexe. salten todas esas advertencias.

        En algún sitio he leído que esos 403 hay que verlos pero que si son por el motivo de ser zonas restringidas, es decir, que no es un error de otro tipo, que no hay que hacerles mucho caso, y que no afectan al SEO ¿Tu que opinas?

  9. ¡Buenas Raúl!

    Antes que nada, felicitarte por el artículo que me ha aclarado bastantes aspectos importantes sobre el archivo robots.txt. Soy principiante y tengo una duda, por si me puedes ayudar a resolverla

    Mi problema es el siguiente: En el mismo hosting tengo 2 páginas web distintas (una es un dominio adicional) y he recibido un correo de Search Console en el que pone: «Se ha detectado un nuevo problema de Cobertura del índice en http://www.midominioadicional.es/» y «robots.txt ha bloqueado la URL enviada».

    He «copiado» el archivo robots.txt de otro tutorial y lo he subido al directorio raíz (y he borrado el antiguo):
    User-agent: *
    Disallow: /wp-
    Allow: /wp-content/uploads/
    Sitemap: http://dominioprincipal.com/sitemap_index.xml

    Y mi pregunta es… ¿Y el archivo robots.txt del dominio adicional? La página del dominio adicional se indexa, pero no sé si debo subir otro archivo robots.txt a la carpeta del dominio adicional (como he leído en otras páginas) o agregar el sitemap del dominio adicional al ÚNICO robots.txt de la carpeta raíz.
    User-agent: *
    Disallow: /wp-
    Allow: /wp-content/uploads/
    Sitemap: http://dominioprincipal.com/sitemap_index.xml
    Sitemap: http://dominioadicional.com/sitemap_index.xml

    En definitiva, me gustaría saber cómo configurar adecuadamente el ÚNICO archivo robots.txt del directorio raíz para que permita indexar uno o varios dominios adicionales contenidos en el mismo hosting

    Disculpar si mi pregunta es una tontería (viendo el nivel de los comentarios del artículo), pero como he comentado, voy con la «L» y no logro encontrar la solución

    Muchas gracias de antemano

    1. Hola Pedro,

      Lo que tienes que preguntarte es por qué quieres bloquear algo. WordPress ya trae un archivo robots predefinido para bloquear el wp-admin dando acceso al ajax. El resto no se debería de bloquear desde esto, sino usando noindex.

      Lo del sitemap en el archivo robots es simplemente una ayuda para otros buscadores. Si ya has enviado el sitemap a Google no necesitas ponerlo ahí.

      Hazme caso y no te compliques. ¡La vida es más sencilla de lo que parece!

      Un saludo y gracias por comentar.

  10. Hola Raul una pregunta. Search console me bloquea
    wp-admin/admin-ajax.php

    Y me dice que 91 paginas estan usando ese recurso bloqueado. Viendo tu articulo le puse
    Allow: /wp-admin/admin-ajax.php
    pero el all in one seo lo marca en amarillo
    http://prntscr.com/ig9jig

    Este es todo el código que inserto:

    User-agent: *
    Disallow: /wp-login
    Disallow: /wp-admin
    Disallow: //wp-includes/
    Disallow: /*/feed/
    Disallow: /*/trackback/
    Disallow: /*/attachment/
    Disallow: /author/
    Disallow: *?replytocom
    Disallow: /tag/*/page/
    Disallow: /tag/*/feed/
    Disallow: /comments/
    Disallow: /xmlrpc.php
    Disallow: /*?s=
    Disallow: /*/*/*/feed.xml
    Disallow: /?attachment_id*
    Allow: /wp-admin/admin-ajax.php
    Sitemap: sitemap.xml

    ¿Me puedes decir si dejar Allow: /wp-admin/admin-ajax.php no tiene ningun peligro?

    Gracias

    1. Javier, si estás bloqueando el /wp-admin/ obviamente necesitas que los robots accedan a admin-ajax.php para que puedan ejecutar la página.

      De todas maneras en el artículo ya doy mi punto de vista sobre ello, pero te recuerdo que no hay necesidad de bloquear nada si se hacen bien las cosas.

      Saludos y gracias por comentar.

  11. Curiosamente andaba diferenciando los robots.txt de varios sitios, me encontré con el tuyo y me asustó pues leí todo y muy bueno tu artículo. Muy agradecido.

  12. Buenas tardes Raúl;

    Mi pregunta es muy básica (y quizá estúpida) viendo el nivel de sabiduría al respecto de la mayoría, pero bueno, allá va:

    He creado un sitemap .xml pero en ella no aparecen todo lo que google debería indexar, así como el blog del la web. He investigado por internet pero la verdad es que no me aclaro… También he intentado crear uno desde Search Console (el anterior lo cree con una herramienta online debido a este problema) «Tu sitemap parece ser una página HTML. un formato de sitemap compatible». ¿Cómo creo un sitemap .html? ¿Es necesario? ¿Porque el sitemap no engloba todos los apartados de mi web?

    ¡Gracias por todo de antemano! 😉

  13. Hola!
    Muy buen post!!

    veras…

    mi robots.txt mostraba lo siguiente:
    User-agent: *
    Disallow: /wp-admin/
    Allow: /wp-admin/admin-ajax.php

    cuando configure toda mi search console (mandando mi sitemaps de yoast seo, etc), al rato me llego un mensaje diciendome que una pagina estaba indexada pero bloqueada por robots.txt.

    procedí a eliminar el archivo robots.txt pero me sigue apareciendo bloqueada. De hecho hice la prueba poniendo en el buscador inurl: y me sale indexada pero sin información que mostrar (justo como le pasa a wordpress.com)

    Para colmo, la página con la que me ocurre es la home… que debo hacer?

      1. Gracias Raúl. Hice lo que me dices y bueno, ahora estoy esperando a que pase un tiempo porque el analizador me sigue mostrando lo que vió el día 25. Espero que cuando se actualice ya no me salga el error. Saludos!

  14. hola Raul como estas un saludo, amigo quiero plantearte un problema que tengo y no he podido encontrar solución, he enviado mi mapa del sitio en la search console y siempre queda en estado pendiente no quiere indexar no se el por que mas sin embargo cuando pruebo el mapa dice que no hay errores dime si te puedo contactar a algun sitio o me puedes ayudar por esta via de verdad te lo agradeceria en el alma ya que no consigo solución

  15. Hola excelente articulo

    cuando hago un site:
    me salen como 100 resultados asi: of /wp-content/uploads/wp-slimstat/browscap-db
    Porque pasa esto y como lo soluciono?

    Gracias.

  16. Hola Raúl. interesante artículo!

    Tengo una duda. Google me está indexando las urls (/?s=) aunque las tenga bloqueadas en robots.txt. ¿Qué puedo hacer? En total son 265 urls.
    Según google esas urls se han indexado porque alguien me está enlazando con http://www.misitio.com/?s=hola

    ¿Qué me recomiendas hacer?

    Gracias!

  17. Raúl, buen dia muy interesante tu artículo, tengo un problema con robot.txt, tanto en search console como analytics me tiran esto: «Se ha indexado aunque un archivo robots.txt la ha bloqueado» y no puedo obtener los informes deseados por que hay una discrepancia entre las visitas y el numero de clics.

  18. Hola Raul. Si tengo una web que recibe muchos comentarios, y esos comentarios aportan valor para quien los lee, crees conveniente incluir la línea Disallow: /comments/ ?

  19. Hola Raul, muy buen artículo, aunque te cuento algo… Yo he ajustado el sitemap que viene en Yoast SEO ( /sitemap_index.xml) y lo que me sucede en una página que tengo es que me ha dado errores de cobertura, me sale justo esto: «robots.txt ha bloqueado la URL enviada». En otra página no uso el sitemap de Yoast y me va bien bien, pero con el de Yoast me da este error cada cierto tiempo, y aunque lo corrijo actualizando la información, luego vuelve a salir el error :S

Los comentarios están cerrados.