NorfiPC
NorfiPC » Diseño web » Crear un archivo robots.txt

Como crear un archivo Robots.txt para un blog o sitio web


Actualizado: 07 de agosto del 2023
Por: Norfi Carrodeguas
Como hacer manualmente un robots.txt para que Google y otros buscadores indexen correctamente lo que publicamos. Como bloquear o permitir la publicidad y los bots con los agentes de usuario (User-agent).
Como crear un archivo robots.txt para un sitio web
Cada sitio web debe tener un archivo robot.txt, ya sea si sirve paginas estáticas o dinámicas.
Debe tenerlo cualquier sitio creado en WordPress o cualquier otra plataforma.


¿En que se usa el archivo robots.txt?


El archivo robots.txt es creado para los bots o arañas de los buscadores.
De existir es lo primero que revisan al entrar en cualquier sitio.
Indica la estructura del sitio, la ubicación del sitemap.xml y las páginas y directorios que no se deben revisar.
No es obligatorio tener uno, solo es necesario si necesitamos restringir contenido de nuestro sitio a los robots de los buscadores.
En él especificamos los archivos o directorios que no deben ser rastreados.
No obstante puede ser muy importante por varias razones y está demostrado que usar correctamente un archivo robot.txt, contribuye a que mejore nuestro posicionamiento.


¿Para qué usar el archivo robot.txt?


Los principales motivos por los que necesitamos usar un robots.txt en nuestro sitio son los siguientes:
1- Mejorar el ranking del sitio aclarando y facilitándoles a los bots cuáles son los directorios que pueden ser indexados.
1- Impedir el consumo de banda innecesario rastreando archivos auxiliares del sitio.
3- Impedir que se indexen archivos personales o con contenido privado.
Pueden ser documentos, imágenes, fotos u otros archivos que no deseamos que aparezcan accidentalmente en los resultados de las búsquedas.
4- Impedir que seamos perjudicados por los buscadores al indexar contenido duplicado (principalmente en WordPress).
En WordPress se generan de forma automática muchas páginas que tienen el mismo contenido, como son las páginas de categorías.


Como crear manualmente un archivo robots.txt para un sitio web


Hay varios servicios de internet que permiten crear un archivo robots.txt.
No obstante al ser tan fácil y elemental su creación, podemos hacerlo nosotros mismos manualmente y de esa forma evitar cualquiera equivocación que pueda ser funesta para el posicionamiento de nuestro sitio.
Más adelante sí podemos comprobarlo en la web.
Un archivo robots.txt es un sencillo archivo de texto plano que se puede crear con el Blog de notas o cualquier otro editor de texto.
Solo crea en el escritorio un nuevo archivo de texto y renómbralo a: robots.txt (sin mayúsculas)
Puede tener varias líneas, pero usa solo tres reglas:
User-agent: - Se indica que lo que va a continuación va dirigido a un robot en particular o a todos.
Disallow: - La dirección URL de una carpeta o archivo que necesitamos bloquear.
Allow: - La dirección URL de una carpeta o archivo que permitimos su rastreo, aunque se encuentre en el interior de un directorio bloqueado.
Se pueden incluir varias líneas Disallow y varios User-agents en un mismo archivo.
Solo sigue las siguientes reglas:
- Para bloquear una carpeta y todo su contenido, inserta una barra inclinada después del nombre del mismo.
- Para bloquear una página específica, insértala después de la línea Disallow.
- Antes de cada User-agent nuevo deja una línea en blanco.
- Entre las distintas reglas (Disallow) no debe existir ninguna línea en blanco.


Ejemplos de archivos robots.txt


Robots.txt para permitir el acceso total

User-agent: *
Disallow:
El archivo robots.txt anterior permite el acceso a todos los bots, a todos los directorios y archivos del sitio.

Robots.txt para bloquear completamente el acceso

User-agent: *
Disallow: /
El archivo robots.txt anterior bloquea el acceso de todos los bots, a todos los directorios y archivos del sitio.
Se usa generalmente en los sitios en construcción.

Robots.txt para bloquear solo un directorio

User-agent: *
Disallow: /especial/
El archivo robots.txt anterior bloquea el acceso solamente al directorio o carpeta de nombre "especial".
La directiva va dirigida a todos los robots e indica que la carpeta de dicho nombre y todo su contenido no se debe rastrear.

Robots.txt para bloquear solo un archivo

User-agent: *
Disallow: /file.html
El archivo robots.txt anterior bloquea el acceso solamente al archivo llamado "pagina-oculta.html"

Robots.txt para bloquear acceso al robot de Google

User-Agent: Googlebot
Disallow: /ventas/
Disallow: servicios.html
En este ejemplo el robot de Google no podrá rastrear el contenido de la carpeta "ventas", ni la página "servicios.html" donde anunciamos y vendemos productos de afiliados.
Google usa varios robots:
➔ Googlebot, rastrea páginas y contenido web.
➔ Googlebot-Image, rastrea imágenes y fotos para Imágenes de Google.
➔ Googlebot-Mobile, contenido para dispositivos móviles.
➔ Mediapartners-Google, es el robot del servicio de AdSense.

Robots.txt para bloquear acceso al robot de Google Imágenes

User-agent: Googlebot-Image
Disallow: /fotos/
De esta forma se impide que se indexen fotografías personales que están en la carpeta "fotos".

Robots.txt para bloquear acceso a un tipo de archivo determinado

User-agent: *
Disallow: /*.pdf$
De esta forma se excluye la indexación de todos los archivos PDF, donde quiera que se encuentren.

Bloquear en Robots.txt bots de IA


Robots.txt para bloquear el bot de ChatGPT y otros bots de IA

Como impedir que ChatGPT use el contenido de un sitio web como datos de entrenamiento de IA.

Bloquear GPTBot
GPTBot es el rastreador de is OpenAI Para bloquear GPTBot agrega las siguientes líneas al archivo robots.txt:
User-agent: GPTBot
Disallow: /
Mas información: https://platform.openai.com/docs/gptbot

Bloquear CCBot
Uno de los conjuntos de datos más utilizados para el entrenamiento de los programas de inteligencia artificial, es el de Common Crawl una organización sin fines de lucro.
Los datos de Common Crawl provienen de un bot que rastrea todo Internet. Su nombre es CCBot.
Para bloquear CCBot agrega las siguientes líneas al archivo robots.txt:
User-agent: CCBot
Disallow: /

Bloquear ChatGPT-User
El agente de usuario ChatGPT-User es utilizado por complementos en ChatGPT. Solo se utiliza para realizar acciones directas en nombre de los usuarios de ChatGPT y no se utilizará para rastrear la web de forma automática.
Para impedir que el bot de los complementos acceda a su sitio, puede agregarlos ChatGPT-User al archivo robots.txt de su sitio agregando las siguientes lineas:
User-agent: ChatGPT-User
Disallow: /
Mas información: https://platform.openai.com/


Consejos al crear un robots.txt


1- Si usas el servicio de Google AdSense debes permitir el rastreo completo a su robot, comienza el archivo con las siguientes líneas:
User-agent: Mediapartners-Google
Disallow:
2- Si usas diseño adaptable en tu sitio no debes bloquear el acceso al directorio que contiene los archivos de estilo CSS.
3- Siempre ten en cuenta que los robots de los buscadores son sensibles a las mayúsculas y minúsculas.
4- Al final del archivo robots.txt se debe indicar la dirección del archivo sitemap.xml del sitio o de los archivos si son varios.


Como probar el archivo robots.txt creado


Antes de subir el archivo creado al servidor puedes probar su contenido y estructura.
Si tu objetivo es Google puedes probar el archivo usando la Herramientas para Webmasters de Google.
Haz lo siguiente:
• En la barra a la izquierda escoge Rastreo -> URL bloqueadas.
• En el cuadro de Análisis de robots.txt pega el contenido del archivo creado.
• En el inferior introduce la dirección URL de tu sitio.
• Presiona el botón "Probar".
Probar un archivo robots.txt usando la Herramientas para Webmasters de Google
Puedes también emplear la opción de probar con robots o User-agents diferentes de Google.
Si no se detectan errores ya puedes subir el archivo a tu servidor.

¿Dónde situar el archivo robots.txt?


El archivo robots.txt debe estar situado en la raíz del servidor web, allí será donde lo busquen los bots. Si se sitúa en otra ubicación no tiene efecto alguno.
La carpeta raíz de un servidor se nombra: htdocs o public_html, dependiendo del sistema operativo del servidor.
Finalmente la dirección URL del archivo creado debe tener el siguiente formato:
http://sitio-web/robots.txt
Introdúcela en un navegador y comprueba si se puede acceder correctamente.

Comprobar y leer el archivo Robots.txt de un sitio web


Para leer el archivo robots.txt de nuestro sitio o el de otro cualquiera, solo introduce en el navegador la siguiente línea, sustituyendo el nombre de dominio.
nombrededominio/robots.txt

Crear un archivo robots.txt para WordPress


WordPress recomienda crear un archivo robots.txt que tenga la siguiente estructura:
User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: /category/*/*
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /*?
Allow: /wp-content/uploads/
Como se puede comprobar de esa forma se excluyen muchos directorios con archivos del servidor que no es necesario indexar y muchos archivos como las páginas de categorías, que se pueden considerar como contenido duplicado y afectar nuestro posicionamiento.
La última línea se usa para que las imágenes puedan ser indexadas correctamente y se muestren en las consultas de las búsquedas.
Si en tu caso no lo deseas, solo elimínala.

Otras formas de bloquear páginas o archivos en un sitio web


La cabecera HTTP "X-Robots-Tag" resulta especialmente útil para limitar la indexación de archivos que no sean HTML, como archivos gráficos y otro tipo de documentos.
Se puede usar en los sitios que usan Apache incluyendo la directiva en un archivo .htaccess que puede situarse en la raíz del sitio o en un directorio.
De esa forma se puede aplicar de forma global el atributo NoFollow a un grupo de páginas o a todo un sitio.
Lee como hacerlo: Bloquear páginas o archivos en un sitio web con el .htaccess
Lee más información avanzada en Google de otras reglas que se pueden emplear en el archivo robots.txt: Cómo bloquear o eliminar páginas con un archivo robots.txt

Otras páginas relacionadas



Sobre el autor:

Norfi Carrodeguas es el fundador y webmaster del sitio web Norfipc, creado en el año 2010. Norfi es un ingeniero informático y desarrollador web cubano. Con más de 14 años de experiencia en la publicación en internet, comparte su tiempo con su consultoría SEO. Más información sobre el autor.

Comparta esta página
Facebook
Twitter

Sígueme en las redes sociales


Norfipc en Facebook Norfipc en Twitter Canales RSS con las últimas publicaciones

 
Inicio | Mapa del sitio | Buscar | Sobre mí