Los Web Scrappers o ladrones de contenido son un tipo de robot o crawler que indexa contenido recopilando información y artículos de otras webs para - generalmente - duplicarlo , añadiendo bloques de publicidad y lucrarse con el esfuerzo de otros ( cosa que vulnera licencias, todo sea dicho ).
Este tipo de técnicas habitualmente generan mucha controversia , ya que a algunas personas les parece totalmente lícito, mientras que a otras les parece una estrategia abyecta.
Entrando un poco más en este tema encontramos los llamados planetas , que no son más que ( en ámbitos web ) un sitio web que recopila a través de feeds RSS los artículos de diferentes blogs o webs ( normalmente siguiendo una misma temática o criterio ).
Es una idea genial. Hay multitud de planetas muy interesantes que personalmente sigo ( aunque siempre suelo leerlos desde la página original ). Sin embargo, hay varios puntos que considero importantes como no permitir comentarios en el planeta, dirigir al lector a la web original, no incorporar publicidad , citar la fuente de los artículos u otros detalles que estarían restando mérito al autor del escrito.
¿Cómo puedo localizar web scrappers?Es un tema bastante complicado, pero vamos a intentar simplificarlo. Para «robar» contenido, un scrapper o robot spammer ( emails, comentarios, trackbacks, ... ) tienen que acceder al feed RSS ( usualmente llamado index.xml ), así que vamos a aprovechar esa acción para encontrarlos. Necesitaremos acceso a nuestro fichero de logs, generalmente access.log o access_log . Si tenemos acceso SSH a nuestro servidor, mejor que mejor:
egrep "/index.xml" access_log | cut -d" " -f1,12- | sort | uniq -c | sort -n | tail -25Con este comando conseguiremos separar los accesos al feed RSS, obteniendo la IP y el User Agent , ordenándolo por número de accesos. Finalmente, obtendremos un listado de los 25 accesos más frecuentes.
Hay que hacer notar que del listado resultante, varios accesos serán de usuarios desde navegadores o agregadores como Bloglines o Google reader . Añadiendo el siguiente pipe al comando anterior podríamos filtrar la mayoría de agregadores, quedando:
egrep "/index.xml" access.log | egrep -v "subscribers|Gecko|Liferea|Google Desktop|Akregator|Vienna|Tumblr|Feedshow|Gregarius|Googlebot|Feedreader" | cut -d" " -f1,12- | sort | uniq -c | sort -n | tail -25Después de esto, obtendríamos - ahora si - un listado más aproximado de usuarios «sin identificar» y posibles scrappers. Hay que ser muy cuidadoso e ir investigando cada entrada. Una serie de consejos:
Si no estás seguro de que el usuario que miras sea un robot, siempre podrías investigar más en tus logs a ver en que otras páginas ha estado, a parte del feed RSS:
grep " IP " access_log | cut -d" " -f7Usuarios que han visto este tema también han visto...
- 3 razones por los que los sitios Web no venden
- Aplicación de e-Commerce en las PYMES
- Hacia un Modelo de Comunicación Centrado en el Usuario
- Herramientas de Marketing Online para multiplicar sus ventas gracias a Internet
- Cómo aceptar tarjetas de crédito en tu negocio online sin gastos mensuales y sin tramites complicados
Información legal | Política de Privacidad | Contacte con nosotros
Otro proyecto de Factoría de Internet. Copyright© 2003-2008 Factoría de Internet S.L.. Todos los derechos reservados.