NorfiPC
NorfiPC » Posicionamiento web » GoogleBot

¿Cuándo y cómo el robot de Google revisa un sitio en busca de contenido nuevo?

Conoce de qué forma GoogleBot accede a nuestras páginas para escanear buscando información reciente que será agregada al índice de Google. Como se detecta cuando publicamos más contenido. Como usar el archivo sitemap para asegurar que nuestro sitio sea escaneado regularmente.
Cuándo y cómo el robot de Google revisa un sitio en busca de contenido nuevo Cada vez son más las personas que publican contenido en internet, en un blog, como blogger invitado, en un directorio de artículos o tienen un sitio web propio.
Unas de las preguntas que más se formulan todos, es de que manera Google revisa nuestras páginas, si es necesario enviar un sitemap o algún otro aviso cundo publicamos contenido reciente y novedoso.
En este artículo tratamos de dar respuestas a muchas preguntas de nuestros lectores. Vamos a hacer mención a Google ya que es el principal buscador de internet, pero todo se aplica igualmente a los otros buscadores más relevantes como Bing o Yahoo.
Para que nuestras páginas aparezcan en los buscadores dependemos de unos robots o arañas, uno de ellos es conocido como GoogleBot.


¿Qué es GoogleBot?


El robot de Google, conocido como GoogleBot es una enorme computadora que escanea constantemente toda la red en busca de información reciente.
Los sitios más visitados regularmente son los que Google utiliza para extraer información para ser mostrada en su servicio de noticias.
Al hacer su recorrido el bot puede detectar referencias que apunten a nuestras páginas en otros sitios de internet, por ejemplo páginas de Facebook donde los usuarios usen el botón Me Gusta, sitios de participación como Yahoo Respuestas, Retweets hechos en Twitter, o cualquier otro sitio donde se inserte un link que nos vincule.
Todas estas referencias se van guardando en la cesta de tareas pendientes, hasta que el robot se decide a visitarnos.
Como GoogleBot encuentra y escanea los sitios web
Al acceder a nuestro sitio escanea todas las URL que trae pendientes y lee dos archivos muy importantes de nuestro sitio, el archivo SITEMAP y el robot.txt.
El archivo sitemap.xml es un archivo de texto donde se relacionan todas las páginas existentes en nuestro sitio, con la fecha de la última actualización de cada una de ellas.
El archivo robot.txt es un sencillo archivo de texto donde se especifican que directorios o paginas no deben ser revisadas.
Lee como crearlo y su importancia.
Estos datos serán confrontados con la base de datos de Google y si alguna página muestra una fecha más reciente, será escaneada completamente y agregada al índice de Google, por supuesto de cumplir con ciertos parámetros técnicos.
Debido a todo lo anterior se razona que el archivo SITEMAP es de extrema importancia, para asegurar que todo el contenido modificado recientemente sea descubierto por los buscadores y agregado a su índice.

¿Cómo saber si una página está en el índice de Google u otro buscador?
En el cuadro de búsquedas del buscador pega lo siguiente, sustituye lógicamente la dirección URL de tu página:
site:http://dirección-de-mi-pagina

¿Cómo saber si una página está incluida en los resultados de búsquedas?
En el cuadro de búsquedas del buscador escribe o pega exactamente el título de tu página (suponiendo que es único y no es un título genérico)


¿Tengo que crear un archivo SITEMAP en mi sitio web?


Si tus paginas las creas usando un CMS como WordPress, el archivo sitemap existe y es actualizado automáticamente.
Si creas tus paginas usando programas de edición en la PC y las subes manualmente a tu sitio, necesitas crear un archivo sitemap manualmente y actualizarlo regularmente.
Otra opción es usar servicios en la red para ese propósito.
Lee toda la información necesaria para crear un sitemap: Como crear un sitemap o mapa del sitio para usar en un sitio web
Usa el siguiente vinculo para ver el archivo Sitemap.xml de este sitio o arrástralo a la barra de marcadores de tu navegador para usarlo en cualquier otro sitio web.
Mostrar Sitemap.xml


¿Cómo saber cuándo el robot de Google revisa mis páginas?


Si usas algún servicio de monitoreo como Google Analytics (es gratis) o Piwik (gratis y software libre) sabrás fácilmente cunado tus paginas son revisadas por el robot de Google y también por muchos otros que escanean constantemente la red (incluyendo los robots de los spammer).
En los logs (informes) verás entre otros los siguientes robots:
• Googlebot es el robot de Google
• MSNBot, MSNBot-media son de Bing
• Yahoo Slurp de Yahoo
• Otros son: Netcraft, Alexa (IA Archiver), Ask, etc.

¿Estar una página en el índice de Google significa aparecer en las búsquedas?

Estar una página web incluida en el índice de Google no significa que se mostrará en los resultados de las búsquedas.
Su contenido deberá pasar por varios filtros, para saber si su contenido esta duplicado en nuestro sitio o en otro, eliminación por motivos legales, etc.
Lee más información: ¿Todas las páginas indexadas por Google se muestran en las búsquedas?


¿Las imágenes también son agregadas al índice de Google?


Las imágenes incluidas en una página también serán revisadas y en caso de considerarse aptas se mostrarán en los resultados de las búsquedas de Google Imágenes.
Esto es muy conveniente porque podremos recibir muchas visitas provenientes de este servicio de búsqueda.
Para eso hay varios factores que son determinantes como son:
• Que no coincida con otra imagen ya indexada por el buscador (Google puede leer hasta cierto punto el contenido de las imágenes)
• El nombre del archivo y la descripción en la etiqueta ALT que sea relacionado con el contenido donde se encuentren.
• Que el directorio donde se encuentre la imagen no este bloqueado en el archivo robot.txt
En caso de imágenes vinculadas a la página, pero que solo se puede acceder mediante formularios HTML o funciones en Javascript, es necesario incluirlas en el archivo SITEMAP del sitio o en uno dedicado solo a las imágenes.


¿Es necesario enviar archivos sitemap a Google u otros buscadores?


Como se comprenderá leyendo lo explicado anteriormente, es innecesario completamente enviar un sitemap a cualquier buscador de internet, así como usar servicios de hacer PING.
Quizás hace unos años ayudaba, en la actualidad los buscadores son lo suficiente inteligentes, solo se necesita que el sitio tenga cierta interacción en la red.
¿Cómo asegurar que una página nueva sea agregada rápidamente a los buscadores?

➔ Inclúyela en el SITEMAP
➔ Compártela en Facebook
➔ Twitteala en Twitter
➔ Compártela en Google+
➔ Usa el botón +1 de Google

¿Cómo conocer las páginas de un sitio que están en el índice de Google?


Actualmente Google ha hecho su índice de páginas completamente transparente, es decir es posible obtener información sobre las páginas de un sitio que están indexadas.
Para eso es necesario registrarse en el servicio de https://www.google.com/webmasters/tools/Herramientas para Webmasters, es gratis.
Lee más información detallada en otra página de este sitio: Como agregar tu página o blog al índice de Google

Conoce en otra página de nuestro sitio como impedir que copien lo que publicamos en nuestro blog o sitio web, como saber quién lo hace. Medidas para hacerlo más difícil. Como reclamar si nos roban contenido y nos perjudican. Como evitar el plagio, copia y robo de contenido en internet y beneficiarnos
Lee varios ejemplos prácticos del uso de los operadores en Google y en Bing, para saber el posicionamiento de una página o de un blog en estos buscadores: Como saber el posicionamiento real de una página web en Google y en Bing

Páginas relacionadas