Está usted en Indice > Maletin > Artículos > Googlebot: el rastreador web de Google
Construcción
Maletín
Utilidades
Cursos
Promoción
Rentabilidad
Zona Novatos
Foros
Acceso a tu cuenta

Googlebot: el rastreador web de Google

Googlebot: el rastreador web de Google
Googlebot es el robot de rastreo web de Google. También se denomina “spider” (araña). Recopila documentos de la web para crear un índice en que se puedan realizar búsquedas (Google.com). En este tema veremos las respuestas a las preguntas más frecuentes acerca de cómo funciona este rastreador web.

  1. ¿Con qué frecuencia viene Googlebot a mis páginas web?
    En la mayoría de los sitios, Googlebot no debería acceder a su sitio más de una media estimada de una vez al cabo de unos segundos. Sin embargo, a causa de retrasos en la red, es posible que el porcentaje parezca ligeramente superior en períodos cortos de tiempo
  2. ¿Cómo puedo solicitar que Google no rastree mi sitio o una parte de él?
    robots.txt es un documento estándar que notifica a Googlebot que no debe descargar información total o parcialmente desde su servidor web. El formato del archivo robots.txt está especificado en el Robot Exclusion Standard. Para obtener instrucciones detalladas acerca de cómo evitar que Googlebot realice el rastreo de todo su sitio o de parte de éste, consulte la página Cómo eliminar elementos del índice de Google. Recuerde que los cambios en el archivo robots.txt de su servidor no se reflejarán inmediatamente en Google. Se detectarán y propagarán la próxima ocasión que Googlebot rastree su sitio
  3. Googlebot rastrea mi sitio demasiado rápido. ¿Qué puedo hacer?
    Ante esta situación, se debe enviar un mensaje a Google en el que les indique la URL de su sitio y una descripción pormenorizada del problema. Incluya también una parte del registro web que muestra los accesos a Google.
  4. ¿Por qué Googlebot solicita un archivo denominado robots.txt que no se encuentra en mi servidor?
    robots.txt es un documento estándar que notifica a Googlebot que no debe descargar información total o parcialmente desde su servidor web. Para obtener información acerca de cómo crear un archivo robots.txt, consulte el Robot Exclusion Standard. Si lo único que quiere es evitar que aparezcan en el registro de su servidor web los mensajes de error "no se ha encontrado el archivo", puede crear un archivo vacío que se llame robots.txt.
  5. ¿Por qué Googlebot intenta descargar vínculos incorrectos de mi servidor o de un servidor que no existe?
    Es un hecho que muchos vínculos de la web estarán rotos u obsoletos en un momento concreto. Cuando un usuario publica un vínculo incorrecto hacia su sitio (debido quizá a un error tipográfico o de ortografía) o no actualice sus vínculos para reflejar los cambios en su servidor, Googlebot intentará descargar un vínculo incorrecto desde su sitio. Ésta es la razón por la cual puede obtener resultados en una máquina que no es un servidor web.
  6. ¿Por qué Googlebot descarga información de nuestro servidor web "secreto"?
    Es casi imposible mantener un servidor web "secreto" no publicando vínculos hacia él. Cuando un usuario sigue un vínculo desde su servidor "secreto" a otro servidor web, es probable que su URL "secreta" se incluya en el código de referencia, por lo que podrá ser almacenada y posiblemente publicada por el otro servidor web en su registro de referencia. Por lo tanto, si existe un vínculo a su servidor o página web "secretos" en cualquier lugar de la web, es probable que Googlebot y otros rastreadores web lo encuentren.
  7. ¿Por qué Googlebot no obedece a mi archivo robots.txt?
    Para ahorrar ancho de banda, Googlebot sólo descarga el archivo robots.txt una vez al día o cuando han recogido un número importante de páginas del servidor. Por lo tanto, es posible que a Googlebot le lleve un tiempo ponerse al corriente de los cambios en su archivo robots.txt. Además, Googlebot se encuentra distribuido en varias máquinas, cada una de las cuales mantiene un registro propio de su archivo robots.txt.
    Siempre sugerimos que se compruebe si la sintaxis es correcta, comparándolo con el estándar en http://www.robotstxt.org/wc/exclusion.html#robotstxt. Una fuente habitual de problemas es que el archivo robots.txt no está ubicado en el directorio principal del servidor (por ejemplo, www.mihost.com/robots.txt); situar el archivo en un subdirectorio no tendrá ningún efecto.
    Igualmente, existe una pequeña diferencia entre la manera en que Googlebot utiliza el archivo robots.txt y la manera en que se debería utilizar según el estándar robots.txt (sin olvidar la distinción entre "debería" y "debe"). El estándar indica que deberíamos utilizar la primera regla aplicable, pero Googlebot obedece a la más larga (es decir, la más específica). Esta práctica que resulta más intuitiva hace coincidir lo que las personas hacen en realidad con lo que esperan que hagamos. Por ejemplo, tenga en cuenta el siguiente archivo robots.txt:
    User-Agent: *
    Allow: /
    Disallow: /cgi-bin
    Es evidente que la intención del webmaster es permitir que los robots rastreen todo excepto el directorio /cgi-bin. En consecuencia, es lo que en Google hacen.


  8. Usuarios que han visto este tema también han visto...

    - Registrando dominios
    - ¿Cuál es el tamaño adecuado para una página Web?
    - Comprobar la memoria RAM en Windows Vista
    - ¿Qué es Joomla!?
    - ¿Qué es y para que sirve un sitemap?


    Versión imprimible - Versión imprimible de este documento
    Enviar e-mail - Enviar por e-mail este documento
Publicidad

Información legal | Política de Privacidad | Contacte con nosotros

Otro proyecto de Factoría de Internet. Copyright© 2003-2008 Factoría de Internet S.L.. Todos los derechos reservados.


Página generada el 21-08-2008 a las 23:42:55