¿Cómo elimino reseñas en la web? [cerrado]

Quiero recopilar reseñas sobre varios productos y cosas en la web, ¿cómo puedo hacerlo? Hay una empresa llamada searchreviews.com, lo hacen, quiero saber cómo lo hacen.

preguntado el 12 de junio de 12 a las 20:06

Tenga en cuenta que los TOS de un sitio pueden impedir su raspado y pueden resultar en una prohibición. Sea un buen ciudadano y no golpee sus servidores, porque es su ancho de banda lo que está consumiendo. Observe las reglas de "robots" para su sitio, y almacene en caché, guarde en caché, guarde en caché todo lo que pueda para no realizar búsquedas redundantes/recursivas que desperdicien su tiempo de CPU y el de ellos. Y aprende qué es una solicitud HEAD y ÚSALO. Mejor aún, no reinvente la rueda y use una de las aplicaciones de araña existentes como anémona. -

Una explicación de los votos negativos puede ser útil. -

El raspado es difícil de mantener, averigüe si tienen una API. -

3 Respuestas

Obtienen el HTML de una página y luego lo analizan, enfocándose en cualquier información que necesiten.

Es realmente horrible, porque depende del DOM del sitio que estás raspando, que puede cambiar en cualquier momento, tanto de manera trivial como compleja. He trabajado con empresas que han raspado (legítimamente) varios tipos de sitios, y es horrible.

Respondido el 12 de junio de 12 a las 20:06

Sí. Es probable que compañías como estas cuenten con un pequeño ejército de codemonkeys para seguir parcheando sus motores de raspado y algoritmos. No es imposible de hacer, pero de ninguna manera es un sistema de código único y efectivo. Solo necesitará una estrategia para seguir manteniendo el código de raspado. - Casper

@Casper La mejor parte es que uno de ellos era un agregador de cuentas bancarias/financieras, por lo que regularmente veíamos solicitudes con depósitos de (una porción de HTML) en lugar de números: hicieron un mal trabajo de investigación cualquier cosa en lugar de confiar en obtener informes de sus proveedores y / o proveedores posteriores :( - David Newton

mechanize o watir o rautomation son gemas relacionadas que pueden ayudarte aquí.

Respondido el 12 de junio de 12 a las 20:06

sí, ayudarán con el proceso, pero ¿no hay privacidad en estos sitios que no permitan que esto se haga? - mrmartis

@ user1452023 Depende completamente del sitio. Las firmas del navegador se pueden falsificar, el tiempo se puede aleatorizar/humanizar, etc. - David Newton

He hecho esto muy a menudo para varios clientes, y la mayoría de las veces un sitio que recopila reseñas está bastante bien estructurado, por lo que raspar no es demasiado difícil. Mire Yelp.com por ejemplo. Desarrollé una rutina en screen-scraper que buscaba códigos postales en el área del cliente, usé los filtros para concentrarme en los tipos de negocios deseados y hice una lista de resultados únicos (ya que las búsquedas por código postal podrían generar resultados duplicados). A partir de ahí, escojo cada URL única. Las revisiones son bastante fáciles de analizar con solo RegEx y algunas iteraciones de página.

Respondido el 12 de junio de 12 a las 20:06

No es la respuesta que estás buscando? Examinar otras preguntas etiquetadas or haz tu propia pregunta.