¿Como funciona un robot? Cuando un robot encuentra tu web (normalmente a través de otros links) y la visita, cargaprimero el texto de la primera página. Busca las Meta tags y extrae la información de la descripción y keywords (no todos los buscadores soportan estas Meta tags). Algunos de ellos extraen la información de los primeros 200 caracteres y la utilizan como descripción.
¡Cuidado con las tablas! mira directamente el código para ver que celda de la tabla aparece primero en el buscador y ajusta el diseño para colocar allí el texte que describa tu web. Si en esta celda va colocada una fotografía o un gráfico, no olvides colocar este texto en el "texto alternativo" del gráfico.
A continuación extrae el título. Algunos extraen del texto de la página las palabras más utilizadas y las utilizan como keywords.
Extrae los hipervínculos hacia páginas interiores para visitarlos más tarde y loshipervínculos hacia links exteriores (así es como encuentran nuevas páginas web para seguir rastreando sin parar en la Red).
Guardan toda esta información, el robot sabe cuántas páginas componen tu sitio web, cuantos links exteriores existen y puntúa tu Sitio web analizando toda esta información extraída.
No intentes engañar al robot poniendo texto del mismo color que el fondo de tu web, no utilices palabras claves que son muy buscadas y que no tengan nada que ver con el tema de tu web. El Buscador te penalizará y no aceptará tu web.
Deberás ofrecer al robot toda la información que busca cuando éste visite tu web. Intenta diseñar una página web que " demuestre " al motor de búsqueda que es interesante ponerla en una de las primeras posiciones de su directorio.
Podemos diferenciar los siguientes tipos:
-Arañas(Spiders)-Es un robot, pero otorga resultados más fríos.
-Gusanos (Worms)-Es lo mismo que un robot, aunque técnicamente un gusano es una réplica de un programa, a diferencia de un robot que es un programa original.
-Orugas(Web crawlers)-Es lo mismo que un robot, pero hay que aclarar que es un tipo específico de robot.
-Hormigas(WebAnts)-Cooperativa de robots.
-Motor de busqueda o Search engine: Se trata de un programa que busca a través de una base de datos, en el contexto de la Web, se refiere usualmente a búsquedas de bases de datos de documentos Html, recopilados por un robot, dichos robots pueden ser usados para varios propósitos:
-Indexar
-Validar HTML
-Validar Links
-Monitorear "qué hay de nuevo"
-Generar imágenes
¿Como decide un robot qué visitar?, esto depende del robot. Cada uno usa diferentes estrategias. En general comienzan a trabajar desde una lista histórica de URL\\\'s.Especialmente con documentos con muchos links, tales como una lista de servidores "what\\\'s New"(qué hay de nuevo") y desde los sitios más populares en la Web. Muchos indexan servicios que le permiten dar de alta un sitio manualmente, los cuales harán cola para ser indexados por el robot.
Son usados a veces otros recursos también como listas de correo, grupos de discusión, etc. Esto les da un punto de partida para comenzar a seleccionar url\\\'s que ha de visitar, analizarlas y usarlas como recurso para incluirlas dentro de su base de datos.
Usa los títulos de HTML (Titles) o los primeros párrafos, o selecciona la HTML completa e indexa las palabras contenidas, excluyendo las de uso común (pronombres, adverbios y palabras como "web", "página", etc) dependiendo de las construcciones de HTML, etc. Algunos seleccionan las meta etiquetas, u otros tipos especiales de tags ocultas. Una práctica muy común es indexar también los textos alternativos de los gráficos. Le recomendamos les preste especial atención, pues en caso de indexarse, son palabras que contarán con un gran peso sobre la relevancia final en el documento.
¿Como saber si nuestra web ha sido visitado por un robot?,en el caso de ser visitado por un robot, las estadísticas de las páginas muestran un mismo IP que accede en unos pocos segundos a todas las páginas de su web, cosa que no puede hacerse manualmente de una forma natural. En ocasiones, por el propio nombre de Host correspondiente a su IP son reconocibles.
¿Como hacer para que los robots indexen nuestras paginas?.El camino más rápido para que lor robots indexen nuestra web es crear un archivo "robot.txt" con las siguientes dos líneas y ponerlo en su servidor.
User-agent: *
Disallow:
Tambien puede colocar en las etiquetas meta
¿Como evitar que un robot escane su web?.El camino más rápido para evitar esto
es crear un archivo "robot.txt" con las siguientes dos líneas y ponerlo en su servidor.
User-agent: *
Disallow: /
Si no tiene acceso completo a su servidor, simplemente puede incluir las siguientes líneas (tags o etiquetas) en su página web para que no sea indexada:
http://www.negocios-inteligentes.com/ecm.php?HHnS6GeSNuLaT0n7Eqd1PPwTTgdfIvAXq71
Usuarios que han visto este tema también han visto...
- ¿Cómo evitar los virus?
- Cómo limpiar su disco rígido y optimizar la velocidad de su computadora
- Cómo empezar un proyecto web o invertir en él
- Como evitar los enlaces patrocinados en el buscador de Google
- Cómo escribir emails decentes
- Versión imprimible de este documento
- Enviar por e-mail este documento